HOME > 상세정보

상세정보

빅데이터 시대의 언어 연구 : 내 손안의 검색엔진

빅데이터 시대의 언어 연구 : 내 손안의 검색엔진

자료유형
단행본
개인저자
서명 / 저자사항
빅데이터 시대의 언어 연구 : 내 손안의 검색엔진 / 이민행 지음
발행사항
파주 : 21세기북스, 2015
형태사항
491 p. : 삽화, 도표 ; 23 cm
ISBN
9788950960902
일반주기
부록: 1. CWB의 설치 과정, 2. 언어별 태그셋 목록, 3. GB21의 저자 및 서명 목록 외
서지주기
참고문헌(p. 450-454)과 색인수록
000 00000nam c2200205 c 4500
001 000045842504
005 20150831140133
007 ta
008 150827s2015 ggkad b 001c kor
020 ▼a 9788950960902 ▼g 93700
040 ▼a 211009 ▼c 211009 ▼d 211009
082 0 4 ▼a 410.285 ▼2 23
085 ▼a 410.285 ▼2 DDCK
090 ▼a 410.285 ▼b 2015
100 1 ▼a 이민행 ▼0 AUTH(211009)84714
245 1 0 ▼a 빅데이터 시대의 언어 연구 : ▼b 내 손안의 검색엔진 / ▼d 이민행 지음
260 ▼a 파주 : ▼b 21세기북스, ▼c 2015
300 ▼a 491 p. : ▼b 삽화, 도표 ; ▼c 23 cm
500 ▼a 부록: 1. CWB의 설치 과정, 2. 언어별 태그셋 목록, 3. GB21의 저자 및 서명 목록 외
504 ▼a 참고문헌(p. 450-454)과 색인수록
536 ▼a 이 저술은 2010학년도 연세대학교 학술연구비의 지원에 의해 이루어진 것임
945 ▼a KLPA

소장정보

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 410.285 2015 등록번호 111741076 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 2 소장처 중앙도서관/제2자료실(3층)/ 청구기호 410.285 2015 등록번호 511031315 도서상태 대출가능 반납예정일 예약 서비스 B M

컨텐츠정보

책소개

언어학에서의 빅데이터는 일정 분량 이상이 되고 내용상으로 다양성과 균형이 확보된 언어 자료의 집합체, 코퍼스로 정의하고 있다. 코퍼스를 분석함으로써 언어 사용의 양상과 현실 등 언어학 연구를 위한 유용한 자료를 체계적으로 획득할 수 있다. 1990년대 초반 이후로 코퍼스를 이용해 언어의 특성을 밝히는 연구가 연구방법론의 중요한 트렌드를 형성하고 있다.

코퍼스를 기반으로 하는 언어 연구에서는 검색 엔진의 구축이 필수적이다. 이 책은 언어학 연구자가 자신의 연구 목적에 맞게끔 검색 엔진을 만들고 활용할 수 있도록 돕는다. 또한, 다양한 연구 분야에 걸쳐 상세한 방법론과 함께 다양한 사례를 제시함으로써 연구에 체계적으로 적용할 수 있도록 했다. 일반 언어학자들과 외국어 교육자들이 자신들의 연구나 교육에 필요한 다양한 데이터 및 용례를 효율적으로 추출하는 데 유용한 지식을 제공해줄 것이다.

언어 빅데이터와 디지털 기술이
언어학 연구의 도구와 양상을 바꾼다!

역대 대통령들의 취임사를 언어기호의 사용과 빈도 데이터를 기준으로 분석하면 흥미로운 결과가 나온다. 김대중 대통령과 노무현 대통령의 취임사가 가장 근접성이 높다. 그런데 놀랍게도 박근혜 대통령의 취임사는 이 두 대통령의 취임사와 높은 근접성을 나타낸다. 이로써 정책 비전의 제시에서 보수와 진보라는 이념적 기준이 절대적으로 작용하기보다는 시대정신이 핵심적 역할을 수행함을 엿볼 수 있다.
이런 분석은 어떻게 가능할까? 대통령 취임사라는 ‘언어 집합체’를 컴퓨터 기술을 활용해 파고든 결과이다. 구체적인 언어생활을 통해 형성된 일종의 언어학적 빅데이터를 기반으로 삼음으로써 다양한 언어학 연구를 할 수 있게 된 것이다.
현대인의 실제 언어생활은 그 자체로 빅데이터이다. 특히 한 편의 연설, 시집이나 소설책 1권 등과 같이 일정한 분량과 체계를 갖춘 말의 덩어리는 그 속에서 여러 언어 특성을 추출하고 분석하는 기반이 된다. 이런 말의 덩어리를 코퍼스(corpus)라 하는데 이를 디지털 기술과 도구를 통해 언어학 연구에 활용할 수 있다. 코퍼스를 기반으로 하는 언어 연구에서는 검색 엔진의 구축이 필수적이다. 이 책은 언어학 연구자가 자신의 연구 목적에 맞게끔 검색 엔진을 만들고 활용할 수 있도록 돕는다. 또한, 다양한 연구 분야에 걸쳐 상세한 방법론과 함께 다양한 사례를 제시함으로써 연구에 체계적으로 적용할 수 있도록 했다.

[출판사 서평]
언어학적 관점에서 박근혜 대통령의 취임사는
김대중 · 노무현 대통령의 취임사와 근접성이 높다!

현대 사회를 빅데이터 시대라 한다. 디지털 환경을 살아가는 현대인들은 일상을 통해 엄청난 양과 다양한 종류의 흔적을 남기는데 이것의 분석을 통해 여론과 정서, 행동 양상과 변화의 흐름을 파악할 수 있다. 사람들의 언어생활에서도 수없는 빅데이터가 생성된다. 언어학에서의 빅데이터는 ‘말뭉치’ 또는 ‘코퍼스(corpus)’로 불린다. 이것은 말 그대로 말의 뭉치를 뜻하는데, 한 덩어리로 볼 수 있는 언어의 집합체로 보면 된다. 언어학에서는 “일정 분량 이상이 되고 내용상으로 다양성과 균형이 확보된 언어 자료의 집합체”로 정의하고 있다.
이러한 코퍼스를 발전된 컴퓨터 기술을 통하여 분석함으로써 언어 사용의 양상과 현실 등 언어학 연구를 위한 유용한 자료를 체계적으로 획득할 수 있다. 1990년대 초반 이후로 코퍼스를 이용해 언어의 특성을 밝히는 연구가 연구방법론의 중요한 트렌드를 형성하고 있다.
코퍼스 기반 언어 연구에서는 디지털화된 언어 텍스트를 검색하고 분석하는 기능이 핵심이 되며 이를 위한 검색엔진 구축이 매우 중요하다. 그런데 언어학 연구자에게 검색엔진을 직접 만드는 일은 생소하게 느껴지는 분야이다. 이런 점에서 『빅데이터 시대의 언어 연구』(이민행 지음, 21세기북스)는 언어학 연구자에게 매우 유용한 지식을 선사한다. 쉽고 체계적으로 디지털화된 텍스트를 CWB 검색 시스템으로 구축할 수 있는 방법론을 제공하기 때문이다. 그리고 이 검색 시스템을 통해 다양한 정보를 추출하고 활용하는 방안과 사례를 함께 제시한다. CWB는 독일 슈투트가르트대학에서 개발하여 오픈소스로 공개한 코퍼스 작업대(Corpus WorkBench)를 줄여서 말한 것이다.
이 책은 6개 언어(영어·한국어·독일어·프랑스어·스페인어·인도네시아어)를 대상으로 삼아 파생어, 연어 관계, 구문과 어휘의 상관관계, 텍스트의 핵심도와 문서 유사도 등의 언어현상을 탐구한다. 또한 코퍼스로부터 추출한 빈도와 용례를 기초로 하여 6개 언어에 대해 여러 층위의 언어현상을 분석했으며 필요에 따라 Perl-스크립트와 R-스크립트를 이용하여 통계적 분석을 추가했다.
공연구조적 분석, 변별적 공연어휘소 분석, 군집분석 및 대응분석 방법론 등의 연구방법론을 적용한 이 연구서는 일반 언어학자들과 외국어 교육자들이 자신들의 연구나 교육에 필요한 다양한 데이터 및 용례를 효율적으로 추출하는 데 유용한 지식을 제공해줄 것이다.


정보제공 : Aladin

저자소개

이민행(지은이)

서울대학교 인문대학 독어독문학과와 대학원 독어독문학과를 졸업했다. 독일 뮌헨대학교 대학원에서 이론언어학을 전공하고 언어학 박사 학위를 받았다. 하버드대학의 초청을 받아 옌칭연구소에서 방문학자로서 1년간 연구를 수행한 바 있다. 국립 제주대학교 조교수를 거쳐 1995년부터 현재까지 연세대학교 독어독문학과 교수로 있다. 2014년부터 한국언어학회 부회장과 한국독어학회 『독어학』 편집위원장을 맡고 있다. 의미론을 비롯하여 전산언어학, 광고언어학, 텍스트마이닝에 대한 강의 및 연구를 수행하고 있다. 저서로 『독어학 연구방법론-인문학적 발견의 변증법』, 『전산 통사·의미론-이론과 응용』, 『독일어 전산 구문문법 연구』, 『심리동사의 의미론』(공저), 『언어, 매체 그리고 권력』(공저) 등이 있다.

정보제공 : Aladin

목차

책머리에 

1 서론 
2 CWB 기반 코퍼스의 구축 방법: 단일어 코퍼스, 통합 코퍼스, 병렬 코퍼스 
2.1 단일어 코퍼스의 구축 방법 
2.2 통합 코퍼스 MILCA의 구축 방법 
2.3 병렬 코퍼스 FA-EN/FA-KO의 구축 방법 

3 CQP 검색언어의 이해 
3.1 기본 검색식의 활용 
3.2 정규 표현식의 활용 
3.3 고급 검색식의 이해 

4 영어 분석 
4.1 어휘 층위의 통계적 분석 
4.2 파생어 연구 
4.3 연어관계 연구 
4.4 구문과 어휘의 상관관계 

5 한국어 분석 
5.1 어휘 층위의 통계적 분석 
5.2 파생어 연구 
5.3 연어관계 연구 
5.4 구문과 어휘의 상관관계 

6 독일어 분석 
6.1 어휘 층위의 통계적 분석 
6.2 파생어 연구 
6.3 연어관계 연구 
6.4 구문과 어휘의 상관관계 
6.5 텍스트의 핵심도와 문서유사도 

7 다중언어 코퍼스 MILCA의 활용 
7.1 프랑스어 분석 
7.2 스페인어 분석 
7.3 인도네시아어 분석 

8 종합 

참고문헌 
부록 
찾아보기

관련분야 신착자료