카테고리 보관물: 미분류

doc2vec 구현 라이브러리

Published / by greennuri / Leave a Comment

원래 doc2vec는 genim(https://radimrehurek.com/gensim/models/doc2vec.html)에서

구현 되어 있는데

저걸 어떤 능력자 분꼐서 keras 버젼으로 포팅(https://github.com/niitsuma/word2vec-keras-in-gensim) 개인적으로 theano나 tensorflow같은 그래프 기반 딥 러닝 라이브러리는 어려워서

keras버젼이 있다길래 좋다고 설치하고 이것 저것 돌려 봤는데..

cuda 3지원 안되는 그래픽 카드 때문에 자꾸 워링 메세지 발생(거슬려… 참고로 본인 그래픽 카드는 gtx460 cuda 2.1지원 ㅡㅡ)

keras가 백엔드로 theano, tensorflow 둘다 지원 되는데, tensorflow 백엔드 일때 이런 저런 오류 발생(아무래도 만든 아자씨가 theano로 만들었거나 tensorflow버젼이 안 맞는듯)

그냥 theano버젼을 쓰면 무난히 동작 할 것 같은데..

gensim에서 만든 vector representation과 keras로 만든 vector representation이 달라서 애매… 뭐 좀 다를수도 있지 싶은데…

애매해서 그냥 gensim으로 기사 수집해 놓은거 다시 돌려봄..

 

apache spark2 gpu 가속 관련

Published / by greennuri / Leave a Comment

http://www.spark.tc/gpu-acceleration-on-apache-spark-2/

위 링크 들어가면 gpu-spark란 라이버러리를 통해

아파치 스파크 버젼2 에서 gpu를 이용한 가속하는 방법이 나옵니다.

조금 둘러 봤는데..

몇가지 제약이 있어서 그냥 넘어 갑니다.

제약 1

nvidia-cuda 7.0, 7.5만 지원(지금 8 쓰는데 또 갈라고… ㅡㅡ)

제약 2

ibm-jdk, open-jdk만 지원(지금 오라클 jdk 설치 해놨는데.. ㅡㅡ 귀찮어)

이걸 어제 알았으면 오늘 하루 삽질 한다 생각하고 투자 해 봤을 텐데..

오늘은 일요일이니 여기까지만 ^^

다음주 이후에 도전~

 

Distributed Representations of Sentences and Documents

Published / by greennuri / Leave a Comment

Distributed Representations of Sentences and Documents

Abstract Many machine learning algorithms require the input to be represented as a fixed-length feature vector. When it comes to texts, one of the most common fixed-length features is bag-of-words. Despite their popularity, bag-of-words features have two major weaknesses: they lose the ordering of the words and they also ignore semantics of the words. For example, “powerful,” “strong” and “Paris” are equally distant. In this paper, we propose Paragraph Vector, an unsupervised algorithm that learns fixed-length feature representations from variable-length pieces of texts, such as sentences, paragraphs, and documents. Our algorithm represents each document by a dense vector which is trained to predict words in the document. Its construction gives our algorithm the potential to overcome the weaknesses of bag-of-words models. Empirical results show that Paragraph Vectors outperform bag-of-words models as well as other techniques for text representations. Finally, we achieve new state-of-the-art results on several text classification and sentiment analysis tasks.

많은 기계 학습 알고리즘은 입력을 고정 길이 피쳐 벡터로 나타내야합니다. 텍스트에 관해서 가장 일반적인 고정 길이 기능 중 하나는 단어 모음입니다.

그들의 인기에도 불구하고 bag-of-words 기능에는 두 가지 주요 약점이 있습니다. 즉, 단어의 순서를 잃어 버리고 단어의 의미를 무시합니다.

예를 들어, “강력함(powerful)”, “강력함(strong)” 및 “파리(paris)”는 동등하게 다릅니다.

본 논문에서는 문장, 단락, 문서 등 가변 길이의 텍스트로부터 고정 길이의 특징 표현을 학습하는 감독되지 않은 알고리즘 인 단락 벡터 (Paragraph Vector)를 제안한다.

우리의 알고리즘은 각 문서를 문서의 단어를 예측하도록 훈련된 고밀도 벡터로 나타냅니다.

그 구조는 bag-of-words 모델의 약점을 극복 할 수있는 잠재력을 우리 알고리즘에 제공합니다.

경험적 결과에 따르면 단락 벡터는 단어 표현 모델뿐 만 아니라 텍스트 표현을위한 다른 기술보다 우수한 것으로 나타났습니다.

마지막으로, 우리는 여러 텍스트 분류 및 정서에 대한 새로운 최첨단 결과를 얻습니다.

논문링크

Deep Recursive Neural Networks for Compositionality in Language

Published / by greennuri / Leave a Comment

Deep Recursive Neural Networks for Compositionality in Language

Abstract

Recursive neural networks comprise a class of architecture that can operate on structured input. They have been previously successfully applied to model compositionality in natural language using parse-tree-based structural representations. Even though these architectures are deep in structure, they lack the capacity for hierarchical representation that exists in conventional deep feed-forward networks as well as in recently investigated deep recurrent neural networks. In this work we introduce a new architecture — a deep recursive neural network (deep RNN) — constructed by stacking multiple recursive layers. We evaluate the proposed model on the task of fine-grained sentiment classification. Our results show that deep RNNs outperform associated shallow counterparts that employ the same number of parameters. Furthermore, our approach outperforms previous baselines on the sentiment analysis task, including a multiplicative RNN variant as well as the recently introduced paragraph vectors, achieving new state-of-the-art results. We provide exploratory analyses of the effect of multiple layers and show that they capture different aspects of compositionality in language.

재귀 신경망은 구조화 된 입력에서 작동 할 수있는 아키텍처 클래스로 구성됩니다. 이전에 파스 트리 기반 구조 표현을 사용하여 자연 언어로 모델 구성성에 성공적으로 적용되었습니다.

이러한 아키텍처는 구조가 깊더라도 최근에 연구 된 심층 반복적 인 신경망뿐만 아니라 기존의 심층 피드 포워드 네트워크에 존재하는 계층 적 표현의 능력이 부족합니다. 이 연구에서 우리는 새로운 재구성 계층 (deep recursive neural network) (깊은 RNN)을 소개한다. 우리는 세분화 된 정서 분류 작업에서 제안 된 모델을 평가한다.

우리의 결과는 깊은 RNN이 동일한 수의 매개 변수를 사용하는 관련 얕은 파트너보다 우위에 있음을 보여줍니다. 또한 우리의 접근법은 곱셈 적 RNN 변형과 최근에 도입 된 단락 벡터를 포함하여 감정 분석 작업에서 이전 기준선을 능가하여 새로운 최첨단 결과를 얻습니다.

우리는 여러 레이어의 효과에 대한 탐색 적 분석을 제공하고 언어에서 구성 성의 다른 측면을 포착한다는 것을 보여줍니다.

http://www.cs.cornell.edu/~oirsoy/files/nips14drsv.pdf