Paragraph Vector를 이용한 문장 의도 예측 기법

https://bi.snu.ac.kr/Publications/Conferences/Domestic/KCC2016_SHChoi.pdf

본 논문에서는 사람과의 자연스러운 대화를 통하여 자동으로 주문을 받을 수 있는 시스템을 만들기 위 하여, 사람의 자연 언어를 이해하고 그로부터 사람의 발화 의도를 예측할 수 있는 기계 학습 알고리즘을 제안한다. 제안하는 기계 학습 알고리즘은 텍스트로부터 의도 추론에 적합한 정보를 추출하여 벡터 형태 로 바꾸는 단계와 문장 벡터로부터 미리 정의한 발화 의도를 추론하는 단계로 나누어 진다. 실험을 위하여 카페에서 손님과 점원이 실제로 주문을 하는 과정을 기록한 발화 텍스트를 사용하였다. 이로부터 doc2vec 벡터를 추출하고, 다양한 인식기를 사용하여 이 벡터로부터 의도를 추론하였다. 또한 의도전이확률을 사용해 추론된 의도별 확률 벡터를 보정하여 성능을 향상시킨 결과를 보인다

 

이 논문에서의 의문점은 문장에서 의도를 뽑아 내는 과정을 서술하지 않았다. 문장에서부터 뽑아 내는게 아니라 미리 정해진 의도로 맵핑 하는 클래시피케이션 방법을 썼는데…

의도란게 문맥에 따라서 같은 문장이라도 다르게 해석 될 경우가 많을 텐데.. 그렇게 고정된 라벨로 학습 시켜도 될려나?

Distributed Representations of Sentences and Documents

Distributed Representations of Sentences and Documents

Abstract Many machine learning algorithms require the input to be represented as a fixed-length feature vector. When it comes to texts, one of the most common fixed-length features is bag-of-words. Despite their popularity, bag-of-words features have two major weaknesses: they lose the ordering of the words and they also ignore semantics of the words. For example, “powerful,” “strong” and “Paris” are equally distant. In this paper, we propose Paragraph Vector, an unsupervised algorithm that learns fixed-length feature representations from variable-length pieces of texts, such as sentences, paragraphs, and documents. Our algorithm represents each document by a dense vector which is trained to predict words in the document. Its construction gives our algorithm the potential to overcome the weaknesses of bag-of-words models. Empirical results show that Paragraph Vectors outperform bag-of-words models as well as other techniques for text representations. Finally, we achieve new state-of-the-art results on several text classification and sentiment analysis tasks.

많은 기계 학습 알고리즘은 입력을 고정 길이 피쳐 벡터로 나타내야합니다. 텍스트에 관해서 가장 일반적인 고정 길이 기능 중 하나는 단어 모음입니다.

그들의 인기에도 불구하고 bag-of-words 기능에는 두 가지 주요 약점이 있습니다. 즉, 단어의 순서를 잃어 버리고 단어의 의미를 무시합니다.

예를 들어, “강력함(powerful)”, “강력함(strong)” 및 “파리(paris)”는 동등하게 다릅니다.

본 논문에서는 문장, 단락, 문서 등 가변 길이의 텍스트로부터 고정 길이의 특징 표현을 학습하는 감독되지 않은 알고리즘 인 단락 벡터 (Paragraph Vector)를 제안한다.

우리의 알고리즘은 각 문서를 문서의 단어를 예측하도록 훈련된 고밀도 벡터로 나타냅니다.

그 구조는 bag-of-words 모델의 약점을 극복 할 수있는 잠재력을 우리 알고리즘에 제공합니다.

경험적 결과에 따르면 단락 벡터는 단어 표현 모델뿐 만 아니라 텍스트 표현을위한 다른 기술보다 우수한 것으로 나타났습니다.

마지막으로, 우리는 여러 텍스트 분류 및 정서에 대한 새로운 최첨단 결과를 얻습니다.

논문링크

Deep Recursive Neural Networks for Compositionality in Language

Deep Recursive Neural Networks for Compositionality in Language

Abstract

Recursive neural networks comprise a class of architecture that can operate on structured input. They have been previously successfully applied to model compositionality in natural language using parse-tree-based structural representations. Even though these architectures are deep in structure, they lack the capacity for hierarchical representation that exists in conventional deep feed-forward networks as well as in recently investigated deep recurrent neural networks. In this work we introduce a new architecture — a deep recursive neural network (deep RNN) — constructed by stacking multiple recursive layers. We evaluate the proposed model on the task of fine-grained sentiment classification. Our results show that deep RNNs outperform associated shallow counterparts that employ the same number of parameters. Furthermore, our approach outperforms previous baselines on the sentiment analysis task, including a multiplicative RNN variant as well as the recently introduced paragraph vectors, achieving new state-of-the-art results. We provide exploratory analyses of the effect of multiple layers and show that they capture different aspects of compositionality in language.

재귀 신경망은 구조화 된 입력에서 작동 할 수있는 아키텍처 클래스로 구성됩니다. 이전에 파스 트리 기반 구조 표현을 사용하여 자연 언어로 모델 구성성에 성공적으로 적용되었습니다.

이러한 아키텍처는 구조가 깊더라도 최근에 연구 된 심층 반복적 인 신경망뿐만 아니라 기존의 심층 피드 포워드 네트워크에 존재하는 계층 적 표현의 능력이 부족합니다. 이 연구에서 우리는 새로운 재구성 계층 (deep recursive neural network) (깊은 RNN)을 소개한다. 우리는 세분화 된 정서 분류 작업에서 제안 된 모델을 평가한다.

우리의 결과는 깊은 RNN이 동일한 수의 매개 변수를 사용하는 관련 얕은 파트너보다 우위에 있음을 보여줍니다. 또한 우리의 접근법은 곱셈 적 RNN 변형과 최근에 도입 된 단락 벡터를 포함하여 감정 분석 작업에서 이전 기준선을 능가하여 새로운 최첨단 결과를 얻습니다.

우리는 여러 레이어의 효과에 대한 탐색 적 분석을 제공하고 언어에서 구성 성의 다른 측면을 포착한다는 것을 보여줍니다.

http://www.cs.cornell.edu/~oirsoy/files/nips14drsv.pdf