Neural Variational Inference for Text Processing

https://arxiv.org/abs/1511.06038

abstract

Recent advances in neural variational inference have spawned a renaissance in deep latent variable models. In this paper we introduce a generic variational inference framework for generative and conditional models of text. While traditional variational methods derive an analytic approximation for the intractable distributions over latent variables, here we construct an inference network conditioned on the discrete text input to provide the variational distribution. We validate this framework on two very different text modelling applications, generative document modelling and supervised question answering. Our neural variational document model combines a continuous stochastic document representation with a bag-of-words generative model and achieves the lowest reported perplexities on two standard test corpora. The neural answer selection model employs a stochastic representation layer within an attention mechanism to extract the semantics between a question and answer pair. On two question answering benchmarks this model exceeds all previous published benchmarks.

한글 축약

최근 신경 변이 추론의 진보는 깊은 잠재 변수 모델에서 르네상스를 일으켰다. 이 논문에서는 생성 및 조건부 텍스트 모델을위한 일반적인 변화 추론 프레임 워크를 소개한다. 기존의 변량 방법은 잠재 변수에 대한 다루기 어려운 분포에 대한 분석 근사를 유도하지만, 여기서는 이산 텍스트 입력을 조건으로하는 추론 네트워크를 구성하여 변량 분포를 제공합니다. 우리는 두 가지 매우 다른 텍스트 모델링 응용 프로그램, 생성 적 문서 모델링 및 감독 질문 응답에 대해 이 프레임 워크를 검증합니다. 우리의 신경 변이 문서 모델은 연속적인 확률적 문서 표현과 단어 생성 모델을 결합하여 2 개의 표준 테스트 코퍼에서 가장 낮은보고 난민을 성취합니다. 신경 응답 선택 모델은주의 메커니즘 내에서 확률 적 표현 레이어를 사용하여 질문 및 답변 쌍 사이의 의미를 추출합니다. 두 가지 질문 응답 벤치 마크에서이 모델은 이전에 게시 된 모든 벤치 마크를 능가합니다.

딥러닝으로 문장 분류 하기

http://www.bonaccorso.eu/2016/08/02/reuters-21578-text-classification-with-gensim-and-keras/

자연어 처리에서 word2vec은 거의 기본으로 쓰인다.

개인적으로 말하면 word2vec은 symbolic data를 vector represent 형태로 변환 해주는 역할을 수행 한다고 봄(아님 말고..)

문장을 분류하기 위한 여러가지 방법이 있는데

가장 기본인 bag-of-word(BOG라고 간단히 부르기도 함) 모델은 문장을 단어 주머니로 비유해서

하나의 문장은 여러 단어가 들어가 있는 주머니로 인식한다.

이 방법은 간단한데 비해 단어의 순서, 수식관계 같은 정보가 사라진다.

그래서 좀 더 발전 된데 CBOW(Continus Bag of Word) 연속? 흠… 순서가 있는 단어 주머니 모델이다.

이 모델로 하면서 deep learning을 위해 vector화된 데이터로 변환 하는 방법이 word2vec(대충.. 넘어가자 어렵다…)

이 방법을 이용하면 단어를 입력하면 수치로 변형된 벡터가 나온다 그걸 가지고 딥러닝에 쓰면되는데.

그 입력을 단어가 아니라, 구/절/문장/텍스트 단위로 확장 시키고 그 특성을 활용해서

각각을 구분하는 방법을 딥러닝으로 구현하는 것을 보여줌.

spark랑 gensim을 비교한 내용

http://hoondongkim.blogspot.kr/2016/07/word2vec-vector-algebra-comparison.html

 

Paragraph Vector를 이용한 문장 의도 예측 기법

https://bi.snu.ac.kr/Publications/Conferences/Domestic/KCC2016_SHChoi.pdf

본 논문에서는 사람과의 자연스러운 대화를 통하여 자동으로 주문을 받을 수 있는 시스템을 만들기 위 하여, 사람의 자연 언어를 이해하고 그로부터 사람의 발화 의도를 예측할 수 있는 기계 학습 알고리즘을 제안한다. 제안하는 기계 학습 알고리즘은 텍스트로부터 의도 추론에 적합한 정보를 추출하여 벡터 형태 로 바꾸는 단계와 문장 벡터로부터 미리 정의한 발화 의도를 추론하는 단계로 나누어 진다. 실험을 위하여 카페에서 손님과 점원이 실제로 주문을 하는 과정을 기록한 발화 텍스트를 사용하였다. 이로부터 doc2vec 벡터를 추출하고, 다양한 인식기를 사용하여 이 벡터로부터 의도를 추론하였다. 또한 의도전이확률을 사용해 추론된 의도별 확률 벡터를 보정하여 성능을 향상시킨 결과를 보인다

 

이 논문에서의 의문점은 문장에서 의도를 뽑아 내는 과정을 서술하지 않았다. 문장에서부터 뽑아 내는게 아니라 미리 정해진 의도로 맵핑 하는 클래시피케이션 방법을 썼는데…

의도란게 문맥에 따라서 같은 문장이라도 다르게 해석 될 경우가 많을 텐데.. 그렇게 고정된 라벨로 학습 시켜도 될려나?