태그 보관물: doc2vec

딥러닝으로 문장 분류 하기

Published / by greennuri / Leave a Comment

http://www.bonaccorso.eu/2016/08/02/reuters-21578-text-classification-with-gensim-and-keras/

자연어 처리에서 word2vec은 거의 기본으로 쓰인다.

개인적으로 말하면 word2vec은 symbolic data를 vector represent 형태로 변환 해주는 역할을 수행 한다고 봄(아님 말고..)

문장을 분류하기 위한 여러가지 방법이 있는데

가장 기본인 bag-of-word(BOG라고 간단히 부르기도 함) 모델은 문장을 단어 주머니로 비유해서

하나의 문장은 여러 단어가 들어가 있는 주머니로 인식한다.

이 방법은 간단한데 비해 단어의 순서, 수식관계 같은 정보가 사라진다.

그래서 좀 더 발전 된데 CBOW(Continus Bag of Word) 연속? 흠… 순서가 있는 단어 주머니 모델이다.

이 모델로 하면서 deep learning을 위해 vector화된 데이터로 변환 하는 방법이 word2vec(대충.. 넘어가자 어렵다…)

이 방법을 이용하면 단어를 입력하면 수치로 변형된 벡터가 나온다 그걸 가지고 딥러닝에 쓰면되는데.

그 입력을 단어가 아니라, 구/절/문장/텍스트 단위로 확장 시키고 그 특성을 활용해서

각각을 구분하는 방법을 딥러닝으로 구현하는 것을 보여줌.

spark랑 gensim을 비교한 내용

http://hoondongkim.blogspot.kr/2016/07/word2vec-vector-algebra-comparison.html