언어 자원
언어자원은 자연어 처리를 위한 기반이 되는 언어말뭉치, 기계사전 등을 총칭하여 부르는 용어입니다.
언어자원은 크게 NLP엔진에서 사용하는 사전과 이러한 사전을 만들거나 엔진의 분석 결과 등을 저장하는 말뭉치 등으로 나눌 수 있습니다.
말뭉치
- 말뭉치(corpus)란 언어를 연구하는 각 분야에서 필요로 하는 연구재료로서, 언어의 본질적인 모습을 총체적으로 드러내 보여 줄 수 있는 자료의 집합을 뜻하며, 컴퓨터 상에서 가공, 처리하며 분석할 수 있도록 저장된 자연언어의 자료입니다.
말뭉치의 유형
가공여부에 따른 분류
- 아무런 가공이 되어 있지 않은 원시 말뭉치 (raw corpus)
- 품사를 비롯한 각종 문법 정보를 붙인 주석 말뭉치 (annotated/tagged corpus)
- 고차원적인 분석을 한 분석 말뭉치 (analyzed corpus)
내용에 따른 분류
- 문어, 구어 말뭉치
- 일반 말뭉치, 균형 말뭉치
말뭉치의 예
PENN TREE BANK의 예
기계사전
NLP시스템이 활용하는 사전을 의미하며, 형태소분석기, 구문분석기, 기계번역기 등의 다양한 언어분석시스템에 맡도록 구성됩니다. 기계사전은 사람이 읽는 사전과는 달리 컴퓨터가 빠른 속도로 접근하여 사용할 수 있도록 바이너리 형태로 저장됩니다. 대표적으로 사용되는 방식은 해시방식, 트라이방식, 이진트리 방식 등이 있습니다. 일반적으로 한국어와 같은
형태소사전
형태소 분석기를 위한 사전으로, 형태소, 품사, 연결관계 등의 정보가 포함되어 있습니다.
구문분석사전
격틀 (주어, 목적어, 용어관계)정보 등이 포함되어 구문분석 등에 활용됩니다.
시소러스사전
시소러스는 어휘 간의 관계정보를 조직화해 명시한 것으로 관계정보는 다음과 같습니다.
- 상위개념(BT: border term)
- 하위개념(NT: Narrower Term)
- 용례나 동의어 (UF: Use For Or Synonymous)
- 관계어 (RT: Related Term)
- 대체어 (USE)
시소러스 사전의 예
Wordnet (http://wordnet.princeton.edu/)
워드넷은 미국 프린스톤 대학의 인지과학연구실에서 영어 어휘 (명사, 동사, 형용사, 부사)에 대하여 동의어, 반의어, 상위어/하위어 등에 대한 정보를 담고 있습니다.
WORDNET 3.0 온라인 검색의 화면 (love 로 검색하였을 때)
WORDNET 3.0 어휘의 수
POS | Unique String | Synsets | Total Word-Sense Pairs |
---|---|---|---|
Noun | 117,798 | 82,115 | 146,312 |
Verb | 11,529 | 13,767 | 25,047 |
Adjective | 21,479 | 18,156 | 30,002 |
Adverb | 4,481 | 3,621 | 5,580 |
Totals | 155,287 | 117,659 | 206,941 |
솔트룩스 시소러스
번역기의 의미애매성 해소 및 정보검색 질의 확장용으로 설계된 솔트룩스 시소러스는 2715개의 항목으로 약 60만 어휘로 구성되어 있습니다.
시소러스 검색 화면의 예
역어사전
기계번역 시스템을 위한 사전으로 목적언어에 대한 역어 및 의미애매성해소를 위한 시소러스 등의 다양한 정보가 포함됩니다.