HOME > 상세정보

상세정보

R을 활용한 코퍼스언어학과 통계학

자료유형
단행본
개인저자
이용훈
서명 / 저자사항
R을 활용한 코퍼스언어학과 통계학 / 이용훈 지음
발행사항
서울 : 한국문화사, 2016
형태사항
xi, 265 p. : 삽화, 도표 ; 26 cm
ISBN
9788968173486
서지주기
참고문헌(p. 259-260)과 색인수록
000 00000cam c2200205 c 4500
001 000045883328
005 20160928103220
007 ta
008 160927s2016 ulkad b 001c kor
020 ▼a 9788968173486 ▼g 93700
035 ▼a (KERIS)BIB000014060417
040 ▼a 211015 ▼c 211009 ▼d 211009
082 0 4 ▼a 410.2855362 ▼2 23
085 ▼a 410.2855362 ▼2 DDCK
090 ▼a 410.2855362 ▼b 2016
100 1 ▼a 이용훈 ▼0 AUTH(211009)6099
245 1 0 ▼a R을 활용한 코퍼스언어학과 통계학 / ▼d 이용훈 지음
260 ▼a 서울 : ▼b 한국문화사, ▼c 2016
300 ▼a xi, 265 p. : ▼b 삽화, 도표 ; ▼c 26 cm
504 ▼a 참고문헌(p. 259-260)과 색인수록
945 ▼a KLPA

소장정보

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 410.2855362 2016 등록번호 111762042 도서상태 대출가능 반납예정일 예약 서비스 B M

컨텐츠정보

책소개

꼭 필요한 경우에를 제외하고는 공식의 사용을 최소화하였다. 또한 통계학적 공식 그 자체보다는 그 공식이 왜 나오게 되었는가에 대한 설명을 넣었다. 이 책에 사용되는 모든 예재와 R 코드들은 한국문화사의 홈페이지와 한국코퍼스영어학연구소의 홈페이지(http://cafe.daum.net/ccels)에서 다운받아 사용할 수 있으며, 이를 통하여 사용자들은 이 책에 있는 내용들을 하나하나 차근차근 직접 실행해가면서 학습할 수 있도록 해 놓았다.

각각의 통계분석방법별로 그 통계분석방법을 실행하기 위해서 만족해야 하는 조건들을 모아서 도표의 형식으로 나열해 놓았다. 그렇게 함으로써, 사용자들이 본인이 원하는 통계분석방법을 실행하기 전에 그 통계분석방법을 쓸 수 있는 조건이 되는지 안 되는지를 스스로 점검해 볼 수 있도록 하였다. 또한, 이 책의 마지막 부분에 R함수와 옵션에 대한 찾아보기를 넣음으로써 사용자들이 원하는 함수들을 쉽게 찾아볼 수 있도록 하였다.

보통 인문학을 공부하는 사람들은 ‘통계는 어렵다’는 선입견을 가지고 있다. 옳은 말이다. 통계는 어렵다. 그러나 이제는 언어학의 연구에 있어서도 통계는 필수가 되어가고 있다. 컴퓨터기술의 발달 때문이다. 컴퓨터기술이 획기적으로 발달함에 따라 이 기술들을 대규모의 언어자원의 구축과 처리에 이용하려는 노력들을 하게 되었고, 또 이러한 언어자원들을 다른 분야에 적용하는 기술들이 발달하게 되었다. 그리고 이렇게 구축된 대규모의 언어자원을 객관적이고 과학적으로 처리하기 위해서는 통계학의 도움을 받는 것은 당연한 일이 되었다. 이러한 흐름은 앞으로 얼마간은 계속될 것이다. 따라서, 이제는 언어학을 공부하는 사람들도 통계를 알아야만 하는 시대가 되었다.
그러면, 언어학을 공부하는 사람들에게 통계는 왜 어려운가? 통계학적인 이론과 실질적인 통계분석과정에서 그 어려움을 찾아볼 수 있다. 먼저 통계학적인 이론을 살펴보면, 많은 통계학관련 서적들이 어려운 공식과 그 공식들이나 통계분석의 도구들을 어떻게 사용하는 가에 대한 설명으로 가득차 있는 반면, 언어학을 공부하는 사람들에게는 이러한 공식들이나 통계프로그램들이 낯설고 어렵게 느껴진다.
따라서, 이 책에서는 꼭 필요한 경우에를 제외하고는 공식의 사용을 최소화하였다. 또한 통계학적 공식 그 자체보다는 그 공식이 왜 나오게 되었는가에 대한 설명을 넣었다. 그 다음으로 실질적인 통계분석과정에 대해 살펴보면, 언어학을 공부하는 사람들이 가장 어려워하는 부분은 ‘언제 어떠한 통계분석기법을 사용하느냐’하는 것이다. 이 책에서는 이를 위하여 세 가지의 장치를 마련하고 있다. 첫 번째는 예제파일이다. 이 책에 사용되는 모든 예재와 R 코드들은 한국문화사의 홈페이지와 한국코퍼스영어학연구소의 홈페이지(http://cafe.daum.net/ccels)에서 다운받아 사용할 수 있으며, 이를 통하여 사용자들은 이 책에 있는 내용들을 하나하나 차근차근 직접 실행해가면서 학습할 수 있도록 해 놓았다. 둘째는 각각의 통계분석방법별로 그 통계분석방법을 실행하기 위해서 만족해야 하는 조건들을 모아서 도표의 형식으로 나열해 놓았다. 그렇게 함으로써, 사용자들이 본인이 원하는 통계분석방법을 실행하기 전에 그 통계분석방법을 쓸 수 있는 조건이 되는지 안 되는 지를 스스로 점검해 볼 수 있도록 하였다. 세 번째로는 이 책의 마지막 부분에 R함수와 옵션에 대한 찾아보기를 넣음으로써 사용자들이 원하는 함수들을 쉽게 찾아볼 수 있도록 하였다.

[머리말]

본 저자가 R이라는 프로그램을 본격적으로 공부하기 시작한 것은 2009년 가을부터였다. 그당시, 본 저자가 미국에서 박사학위를 받고 한국으로 돌아와서 처음 맡았던 영어영문학과 전공수업을 들었던 첫 제자(이용철 선생님)가 Fulbright의 전액장학금을 받고 미국 UPenn (University of Pennsylvania)의 언어학과에서 첫 학기를 보내고 있었다. 본 저자와 주고받은 이메일을 통해서 이용철 선생은 본 저자에게 ‘여기 미국에 와서 보니 R을 참 많이 씁니다’하는 말을 자주 해 주었고, 그것이 계기가 되어 본 저자는 R에 대한 공부를 본격적으로 하게 되었다. 물론 그 이전에 (R의 전신인) S-Plus를 알고는 있었지만, 본 저자가 처음 S-Plus를 보았을 때에는 라이브러리나 함수 등이 그렇게 많이 발달되지 않았었던 단계였다. 그래서 본 저자도 S-Plus에 깊은 관심을 두지는 않았었다. 그러다가, 2009년 가을 UPenn에 있었던 이용철 선생을 통해서 R을 다시 보았을 때에는, 본 저자가 처음 보았을 때의 S-Plus가 아니었다. R은 라이브러리나 함수, 그래픽 등 많은 부분에 있어서 S-Plus와 비교가 되지 않을 만큼 많이 발전해 있었다. 본 저자는 곧 R의 마력속으로 빠져 들었고, 그렇게 R에 대한 공부는 시작되었다.
2010년부터는 연세대학교 영어영문학과의 고광윤 교수님이 주최하시는 코퍼스워크숍에 하나의 강좌로 코퍼스통계학이 자리메김하게 되었고, 그 이후로 계속 1년에 두 번씩 코퍼스통계워크숍을 진행해오고 있다. 이 책은 바로 그 코퍼스통계워크숍에서 본 저자가 강의했었던 내용을 기초로 통계의 기본적인 내용을 알기 쉽게 풀어 써 놓은 책이다. 그러나, 이 책에는 코퍼스통계워크숍의 강의 내용만 들어있는 것이 아니라, 강의를 준비하면서 한남대학교 영어영문학과 대학원생들과 토론했던 내용들, 코퍼스영어학연구소 연구원들이 질문하고 토론하고 했던 내용들, 코퍼스통계워크숍의 강의 중에 들어왔었던 질문들 등이 모두 반영되어 있다.
보통 인문학을 공부하는 사람들은 ‘통계는 어렵다’는 선입견을 가지고 있다. 옳은 말이다. 통계는 어렵다. 그러나 이제는 언어학의 연구에 있어서도 통계는 필수가 되어가고 있다. 컴퓨터기술의 발달 때문이다. 컴퓨터기술이 획기적으로 발달함에 따라 이 기술들을 대규모의 언어자원의 구축과 처리에 이용하려는 노력들을 하게 되었고, 또 이러한 언어자원들을 다른 분야에 적용하는 기술들이 발달하게 되었다. 그리고 이렇게 구축된 대규모의 언어자원을 객관적이고 과학적으로 처리하기 위해서는 통계학의 도움을 받는 것은 당연한 일이 되었다. 이러한 흐름은 앞으로 얼마간은 계속될 것이다. 따라서, 이제는 언어학을 공부하는 사람들도 통계를 알아야만 하는 시대가 되었다.
그러면, 언어학을 공부하는 사람들에게 통계는 왜 어려운가? 통계학적인 이론과 실질적인 통계분석과정에서 그 어려움을 찾아볼 수 있다. 먼저 통계학적인 이론을 살펴보면, 많은 통계학관련 서적들이 어려운 공식과 그 공식들이나 통계분석의 도구들을 어떻게 사용하는 가에 대한 설명으로 가득차 있는 반면, 언어학을 공부하는 사람들에게는 이러한 공식들이나 통계프로그램들이 낯설고 어렵게 느껴진다.
따라서, 이 책에서는 꼭 필요한 경우에를 제외하고는 공식의 사용을 최소화하였다. 또한 통계학적 공식 그 자체보다는 그 공식이 왜 나오게 되었는가에 대한 설명을 넣었다. 그 다음으로 실질적인 통계분석과정에 대해 살펴보면, 언어학을 공부하는 사람들이 가장 어려워하는 부분은 ‘언제 어떠한 통계분석기법을 사용하느냐’하는 것이다. 이 책에서는 이를 위하여 세 가지의 장치를 마련하고 있다. 첫 번째는 예제파일이다. 이 책에 사용되는 모든 예재와 R 코드들은 한국문화사의 홈페이지와 한국코퍼스영어학연구소의 홈페이지(http://cafe.daum.net/ccels)에서 다운받아 사용할 수 있으며, 이를 통하여 사용자들은 이 책에 있는 내용들을 하나하나 차근차근 직접 실행해가면서 학습할 수 있도록 해 놓았다. 둘째는 각각의 통계분석방법별로 그 통계분석방법을 실행하기 위해서 만족해야 하는 조건들을 모아서 도표의 형식으로 나열해 놓았다. 그렇게 함으로써, 사용자들이 본인이 원하는 통계분석방법을 실행하기 전에 그 통계분석방법을 쓸 수 있는 조건이 되는지 안 되는 지를 스스로 점검해 볼 수 있도록 하였다. 세 번째로는 이 책의 마지막 부분에 R함수와 옵션에 대한 찾아보기를 넣음으로써 사용자들이 원하는 함수들을 쉽게 찾아볼 수 있도록 하였다.
이 책에 나오는 내용들이 코퍼스언어학에서 쓰이는 통계학의 전부는 아니다. 본 저자가 코퍼스통계워크숍을 할 때마다 언급하듯이, 코퍼스언어학에서 쓰이는 통계학은 이 책에 나오는 내용의 4배나 5배정도는 된다고 생각하여야 한다. 그러나, 이 책에 나오는 내용이 그 많은 통계분석방법들 중에서 가장 쉬운 내용이며 또한 가장 많이 쓰이는 내용이다.
이 책이 세상에 나오기까지 많은 분들이 도움을 주셨다. 그 분들에게 감사의 말씀을 전하지 않을 수가 없다. 먼저, 2010년부터 본 저자와 함께 코퍼스워크숍을 진행하시는 한국코퍼스영어학연구소 소장님인 연세대학교 영어영문학과 고광윤 교수님께 끝없는 감사의 말씀을 전하며, 이 책의 초고를 처음부터 끝까지 꼼꼼하게 읽고 코멘트를 해주신 성신여대 윤태진 교수님과 청주대 이용철 교수님께 감사의 말씀을 전한다. 그리고 본 저자가 코퍼스통계워크숍을 할 때마다 옆에서 묵묵히 조교역할을 해주고, 이 책의 초고를 읽으면서 학생의 입장에서 꼼꼼하게 코멘트를 해 준 한남대학교 영어영문학과의 김하응, 이규형, 박연경, 이보미 선생님께도 감사의 말을 전한다. 또한 코퍼스워크숍을 준비할 때마다 고생을 하는 우리 한국코퍼스영어학연구소 이영희 팀장님과 연구원들(조근호, 김원석, 진성은, 정운형, 신수정, 김형곤, 김영아, 김동영, 박세미, 박주현, 황정화, 나해온 등등)에게도 감사의 말을 전한다. 그리고 이 책이 나오기까지 옆에서 응원해 준 동생 이용욱을 비롯한 우리 가족들과 미국 일리노이대학의 김진우 선생님께 끝없는 감사의 말씀을 전한다. 만약 선생님께서 안 계셨으면 내가 없었을 것이고, 또한 이 책도 세상에 빛을 보지 못했을 것이다. 마지막으로 이 책의 표지를 디자인해준 김지은 디자이너와 한국문화사 관계자 여러분께 감사의 말씀을 전한다.
‘한 사람이 열 걸음을 가는 것 보다는 열 사람이 같이 한 걸음을 가는 것이 더욱 가치가 있다’라는 말이 있다. 비록 작은 지식의 내용이지만 이 책의 내용이 한 사람이 열 걸음을 가는 것 보다는 열 사람이 같이 한 걸음씩 갈 수 있는, 아니 열 사람이 한 걸음을 가는 것 보다는 스무 사람이 같이 반 걸음씩 갈 수 있는, 그리고 가다가 힘들면 잠시 쉬어 가더라도 서로 손잡고 끝까지 같이 가볼 수 있는, 그 길에 조그마한 도움이 되기를 바란다.


정보제공 : Aladin

저자소개

이용훈(지은이)

충남대학교 영어영문학과를 졸업하고 미국 일리노이주립대(University of Illinois at Urbana-Champaign)에서 박사학위를 받고, 현재 충남대학교와 한남대학교에서 강의를 하고 있다. 2010녀부터는 연세대학교 고광윤 교수님과 함께 코퍼스워크숍을 진행하고 있으며, 2014년부터는 한국코퍼스영어학연구소(CCELS)의 부소장으로 코퍼스통계워크숍을 진행하고 있다. 주요 관심분야로는 전산언어학, 코퍼스언어학과 실험통사론이며, 주요 논문으로는 A Multi-level Analysis of Subjecthood Diagnostics in Korean(공저), Semantic Relations and Multiple Case Constructions: An Experimental Approach, Factors Involved in Korean EFL Learners’ Choice of English Dative Constructions(공저), Clustering English Textbooks for Vocational Education Based on Lexical Similarity(공저) 등이 다수가 있으며 저서로는 ‘NLPTools를 이용한 코퍼스 분석과 활용: 언어학 연구, 영어교육, 그리고 영어교재 개발에서의 활용‘이 있다. 그는 또한 NLPTools의 개발자이며, ’영어교과서의 난이도측정 방법‘에 대한 특허권을 가지고 있다.

정보제공 : Aladin

목차

머리말 

1장 코퍼스언어학과 통계 
1. 코퍼스언어학에서 통계학은 왜 필요한가? 
2. 통계학의 목적과 코퍼스언어학 

2장 통계학의 기본 개념 
1. 통계학의 기본 개념 
1.1. 측정, 변수, 척도 
1.2. 전집과 표본, 표집 
1.3. 집중경향과 변산도 
1.4. 분포와 자유도 
2. 변수의 종류 
2.1. 변수와 상수 
2.2. 인과관계에 따른 변수의 분류 
2.3. 측정수준에 따른 변수의 분류 
3. 자료의 분포 
4. 추정과 가설의 검정 
4.1. 추정과 신뢰구간 
4.2. 가설검정 
4.3. 기각역, 양측검정, 단측검정 
4.4. 가설검정의 절차 
5. 통계분석시 고려사항 

3장 R의 기초 
1. R이란 무엇인가? 
2. R을 쓰는 이유 
3. R 구하기 
4. R의 설치와 실행 
5. R로 평균과 표준편차 구하기 

4장 자료의 시각화 
1. 자료의 시각화는 왜 필요한가? 
2. 데이터세트에 대하여 
3. 막대그래프 
4. 꺾은선그래프 
5. 원그래프 
6. 박스플롯 
7. 산포도 

5장 정규분포 테스트 
1. 정규분포 테스트 
1.1. 정규분포란 무엇인가? 
1.2. 정규분포 테스트는 왜 필요한가? 
2. 히스토그램을 이용한 정규분포 테스트 
3. Normal Quantile Plot을 이용한 정규분포 테스트 
4. Shapiro-Wilk’s Test를 이용한 정규분포 테스트 H0 
5. 기타 정규분포 테스트 
6. 정규분포와 박스플롯 
7. 모수검정과 비모수검정 
8. 자료의 분포가 정규분포를 보이지 않으면? 

6장 χ2-검정 그룹 
1. χ2-검정의 기본 개념 
1.1. 빈도분석과 교차분석 
1.2. χ2-검정의 실행 조건 
1.3. χ2-검정의 기본 원리 
2. χ2-검정 예제 1: 미국영어 vs. 영국영어 
3. χ2-검정 예제 2: 코퍼스별 단어 빈도수의 차이 
4. χ2-검정외의 통계검정 
5. 코퍼스언어학과 χ2-검정 

7장 t-검정 그룹 
1. 집단의 평균비교와 t-검정 
1.1. 집단의 평균비교와 t-검정 
1.2. t-검정의 기본 원리 
1.3. t-검정의 실행 조건 
2. 독립표본 t-검정: 문장의 평균 길이 비교 
3. 대응표본 t-검정: 모음의 길이 측정 
4. Mann-Whitney Test: Frequency Bands 
5. Wilcoxon Test: 1인칭 대명사의 사용빈도 비교 
6. 코퍼스언어학과 t-검정 

8장 ANOVA 그룹 
1. 분산분석(ANOVA) 
1.1. 분산분석(ANOVA)이란? 
1.2. 분산분석을 사용하는 이유 
1.3. 분산분석의 종류 
1.4. 분산분석의 기본 원리 
1.5. 분산분석의 실행 조건 
2. 무선배치 분산분석: 한정형용사의 사용빈도 비교 
3. 반복측정 분산분석: Learner Corpus 성적 향상 비교 
4. Kruskal-Wallis Test: 통사자질의 영향력 분석 
5. Friedman Test: 영어 폐쇄음의 VOT 측정 
6. 코퍼스언어학과 ANOVA 

9장 기타 코퍼스통계학적 문제들 
1. 들어가며 
2. 정규화 1 
3. 정규화 2 
4. 정규화 3 
5. 정규화 4 
6. 코퍼스의 구성 
7. 이론적인 문제 
8. 빈도수는 명명변수 
9. 명명변수 
10. p-값 
11. Hapax Legomena 
12. TTR 
13. Lemma와 Word Family 1 
14. Lemma와 Word Family 2 
15. 기타의 통계분석 방법들 

참고문헌 
명령어 찾아보기 
옵션 찾아보기 
한영용어대조표

관련분야 신착자료

Knight, Diana (2020)
Leech, Geoffrey N (2020)
Evans, Vyvyan (2020)