Distributed Representations of Sentences and Documents

Distributed Representations of Sentences and Documents

Abstract Many machine learning algorithms require the input to be represented as a fixed-length feature vector. When it comes to texts, one of the most common fixed-length features is bag-of-words. Despite their popularity, bag-of-words features have two major weaknesses: they lose the ordering of the words and they also ignore semantics of the words. For example, “powerful,” “strong” and “Paris” are equally distant. In this paper, we propose Paragraph Vector, an unsupervised algorithm that learns fixed-length feature representations from variable-length pieces of texts, such as sentences, paragraphs, and documents. Our algorithm represents each document by a dense vector which is trained to predict words in the document. Its construction gives our algorithm the potential to overcome the weaknesses of bag-of-words models. Empirical results show that Paragraph Vectors outperform bag-of-words models as well as other techniques for text representations. Finally, we achieve new state-of-the-art results on several text classification and sentiment analysis tasks.

많은 기계 학습 알고리즘은 입력을 고정 길이 피쳐 벡터로 나타내야합니다. 텍스트에 관해서 가장 일반적인 고정 길이 기능 중 하나는 단어 모음입니다.

그들의 인기에도 불구하고 bag-of-words 기능에는 두 가지 주요 약점이 있습니다. 즉, 단어의 순서를 잃어 버리고 단어의 의미를 무시합니다.

예를 들어, “강력함(powerful)”, “강력함(strong)” 및 “파리(paris)”는 동등하게 다릅니다.

본 논문에서는 문장, 단락, 문서 등 가변 길이의 텍스트로부터 고정 길이의 특징 표현을 학습하는 감독되지 않은 알고리즘 인 단락 벡터 (Paragraph Vector)를 제안한다.

우리의 알고리즘은 각 문서를 문서의 단어를 예측하도록 훈련된 고밀도 벡터로 나타냅니다.

그 구조는 bag-of-words 모델의 약점을 극복 할 수있는 잠재력을 우리 알고리즘에 제공합니다.

경험적 결과에 따르면 단락 벡터는 단어 표현 모델뿐 만 아니라 텍스트 표현을위한 다른 기술보다 우수한 것으로 나타났습니다.

마지막으로, 우리는 여러 텍스트 분류 및 정서에 대한 새로운 최첨단 결과를 얻습니다.