자연어 질문을 이에 상응하는 정규화 형태로 바꿔주는 의미적인 변환 과정은 지식 기반 질의 응답 시스템에서 중요한 부분이다. 최근 연구들은 이를 위해 구문 기반 문법적 형식화 기법이나 규칙 기반 논리적 추론 기법 등을 이용한 방법들을 제안하고 있다. 하지만 위 연구들은 어휘 단계 정규화 작업에서 다양한 어휘를 지식 베이스 내 논리적 자질로 연결하지 못하는 문제가 있고, 또한 지식 베이스 내 자질 간의 내포되거나 생략된 관계를 발견하지 못하므로, 지식 베이스를 충분히 파악하지 못하는 단점이 있다.
본 연구의 목표는 의미적인 임베딩 공간을 통하여 모든 분야의 질문에 대하여 답변하는 것이다. 여기서 임베딩은 단어들과 논리적 자질들의 의미적인 정보가 수치화된다. 임베딩 공간에서는 자질 간 의미적인 연관성이 사람에 의한 어휘 목록이나 규칙 없이도 자질들의 임베딩에 의해 계량화 된다. 이런 질의 응답을 위한 임베딩 기반 추론은 자연어로 표현된 주어진 질문과 이에 상응하는 답변의 지식 베이스로부터 제공되는 논리적 표현들을 연결시켜 줄 수 있다. 본 방법은 1) 의미적인 임베딩 구축과 2) 임베딩 기반 질의 응답으로 구성된다.
첫번째 단계는 의미적인 임베딩 공간에서 의미적으로 유사한 단어와 논리적 자질의 저차원 임베딩이 서로 비슷한 값을 가진 벡터가 되도록 학습한다. 의미적으로 연결된 단어와 논리적 자질 쌍은 distant supervision 기법을 이용하여 비정형 텍스트 데이터로부터 자동으로 추출된다. 즉, 지식베이스는 계층적이고 다단계로 구조화 된 개념을 표현하는 데이터로 구성되어 있기 때문에, 단어들의 의미적인 표현은 이들의 논리적 자질 간 관계를 통해 협력적으로 구체화된다.
두번째 단계는 주어진 질문을 표현하는 단어 묶음들의 임베딩들과 후보 답변의 논리적 표현들의 임베딩들 간 의미적 유사도를 통해 답변들을 순위화하는데 초점을 둔다. 여기서 후보 답변들의 집합은 질문에서 나타나는 가능한 개체들의 지식 베이스 정보에 의해 생성된다. 그 다음, 예상되는 답변 유형에 따라 답변을 표현화한다.
질의 응답 성능 관점에서, 본 논문에서 보고하는 실험 결과와 구체적인 사례 등은 본 연구가 기존의 지식 기반 질의 응답 연구들보다 효과적임을 증명하고 있다. 성능 평가는 공개된 질의 응답 평가 데이터인 WebQuestions를 이용하였다.
Semantic transforming a natural language question to its corresponding logical form is central to the knowledge-based question answering system. Most previous methods have tried to achieve this goal by using syntax-based grammar formalisms and rule-based logical inferences. However, such approaches are usually limited in coverage of the lexical trigger which performs a mapping task from words to logical properties of the knowledge base, and easy to ignore implicit and broken relations between the properties, not interpreting the full knowledge base.
In this thesis, our goal is to answer questions in any domains via semantic embedding space in which the embeddings are encoded the semantics of words and logical properties. In the latent space, semantic associations between the existing features can be leveraged through their embeddings without using any hand-craft lexicon and rules. The embedding-based inference for question answering provides the ability to map factoid questions posed in natural language and the logical representations of the correct answers guided by the knowledge base. Our method is organized as follows: 1) semantic embedding space construction and 2) embedding-based question answering.
The first stage involves learning low-dimensional embeddings of a word and a logical property, both of which are a semantic-associated pair extracted from unstructured textual data with distant supervision, so that vector representations of semantically similar features are close to each other in the semantic embedding space. That is, the meaning representations of words can be collaboratively specified using their relations with the logical properties as regards the knowledge base consisting of conceptual data in the hierarchical and multi-relational structure.
The second stage focuses on ranking potential answers based on semantic similarities between embeddings of bag-of-words represented in the given question and those of logical representations of the potential answers. Here, the set of candidate answers is generated by the facts, as the knowledge base constituents, of possible entities appearing in the question statement. We then formulate an answer statement according to the expected answer type.
In terms of the overall performance of question answering, experimental results and case examples demonstrate that our proposed method outperforms previous KB-QA baseline methods on a publicly released QA evaluation dataset: WebQuestions.