연속 단어 의 가방 문제에서, 우리는 문맥 창에서 단어를 부여합니다. 최상위 위치에서는 „what”,if”, „”, „short”가 될 것입니다. 그런 다음 신경망을 훈련하여 빨간색으로 강조 표시된 „mike”라는 단어를 예측합니다. 그림은 코퍼스를 통과할 때 컨텍스트 창을 표시하고 컨텍스트 창의 각 이동은 모델에 대한 학습 예제역할을 합니다. 안녕 개구리에 장갑에 대한 당신의 예는 개구리에 스탠포드 장갑 페이지의 결과와 다릅니다. 아이디어? 우리는 우리의 파리에 대한 가장 가까운 단어 벡터를 찾을 수 있습니다 – 프랑스 + 독일의 예 : 포함을 생산하는 것은 두 단계 과정입니다 : 코퍼스에서 공동 발생 행렬을 만든 다음 포함을 생산하는 데 사용. 코퍼스 클래스는 상호 운용 가능한 토큰에서 코퍼스를 구성하는 데 도움이됩니다. 장갑 클래스는 임베딩을 훈련합니다 (sklearn-esque API). 글러브에서 단어를 추출하려면 어떻게 해야 합니까? 나는 장갑을 시도 [`사람`] 그러나 그것은 작동하지 않습니다! 예를 들어, 다음과 같이 토큰 (단어)의 학습 된 어휘를 인쇄 할 수 있습니다 : 나는 이것에 대한 방법이 있다고 믿습니다. 죄송합니다, 나는이 단계에서 예제가 없습니다. [1]에서: gensim.model에서 word2vec [2]: 가져오기 로깅 [3]: logging.basicConfig(형식=`%(asctime)s: %(levelname)s: %(메시지)s, level=logging.INFO] 에서 [4]: 문장 = word2vec. Text8Corpus (`text8`) [5]: 모델 = word2vec.

Word2Vec(문장, size=200) 2015-02-24 11:14:15,428 : 정보 : 모든 단어와 카운트 2015-02-24 11:15,429 : 정보 : 진행 : #0 문장에서 처리 된 0 단어와 0 단어 유형 2015-02-24 11:14:23, #10000 처리 10000000 단어와 189074 단어 유형 2015-02-24 11:14:28,218 : 정보 : 수집 253854 단어 유형 17005 207 단어와 17006 문장 2015-02-24 11:14:28,362 : 정보 : 총 71290 단어 유형 은 카운트 & lt;5 2015-02-24를 가진 사람들을 제거 한 후 11:14:28,362 : 정보 : 71290 단어 2015-02-24 11:14:32,431에서 허프만 트리를 구성 : 정보 : 최대 노드 깊이를 가진 허프만 트리를 구축 22 2015-02-24 11:14:32,509 : 정보 : 레이어 가중치 재설정 2015-02-24 11:14:34,279 : 정보 : 1 명의 근로자와 함께 하는 교육 모델 71290 어휘와 200 기능, 사용 `건너 뛰기`=1 `계층 소프트 맥스`=1 `하위 샘플`=0 및 `네거티브 샘플링`=0 2015-02-24 11:14:35,550 : 정보 : 진행 : 0.59 % 단어, 알파 0.02500, 77772 단어 / s 2015-02-24 11:14:36,581 : 정보 : 진행 : 1.18 % 단어, 알파 0.02485, 85486 단어 / s 2015-02-24 11:37,661 : 정보 : 진행 : 1.77 % 단어, 알파 0.02471, 87258 단어 / s … 2015-02-24 11:17:56,434 : 진행 : 진행 : 99.38% 단어, 알파 0.00030, 82190 단어 / s 2015-02-24 11:17:57,903 : 진행 : 진행 : 99.97 % 단어, 알파 0.00016, 82081 단어 / s 2015-02-24 11:17:57,975 : 정보 : 16718844 단어에 대한 교육은 203.7s, 82078 단어 / [6]: model.most_similar(긍정적=[`여자`, `king`], 네거티브=[man`), topn=1)2015-02-24 11:18:38,021 : 정보 : 단어 가중치 벡터의 사전 계산 L2 규범 아웃[6]: [(u`wenceslaus`, 0.5203313131387514448)]에서 [양수][0.5203313131387514448]]. 여자`, `왕`], 네거티브=[남자], topn=2) 아웃[7]: [(u`wenceslaus`, 0.5203313827514648), (u`queen`, 0.5086060614490509]에서 [8]: model.most_similar([남자]) Out[8]: [(u`woman`, 0.5686988954444407), (u`girl`, 0.4957366777592163), (u`young, u`young, 0.4457539916038513), (u`luckiest`, 0.442062675929114), (u`뱀`, 0.42716669711875916), (u`girls`, 0.426808555555555555555554863), (u`smokes`, 0.42650175094449), (u`creature`, 0.422758812309265), (u`robot`, 0.4174640178888864 0.41728296688887778)에서 [9]: model.save (`text8.model`) 2015-02-24 11:19:26,059 : 정보 : text8.model에서 Word2Vec 개체 저장, [무의2015-02-24 11:19:26,060 : 정보 : 속성 syn015-02-24 11:19:26,060 : 저장 numpy 배열 `syn0` text8.model.syn0.npy 2015-02-24 11:19:26,742 : INFO : text8.model.syn1.npy [10]: model.save_word2vec_format(`text.model.bin`, 이진 = True) 2015-02-24 11:19:52,341 : 정보 : 저장 71290×200 [12]: model1 = word2vec로 투영 가중치를 입력합니다. Word2Vec.load_word2vec_format(`text.model.bin`, 이진= 2015-02-24 11:22:08,185 : INFO : text.model.bin 2015-02-24 11:22:10,322 : 정보 : 로드된 (71290, 200) 행렬 text.model.bin 2015-02-22:12:12:12:12:12 : 단어 가중치 벡터의 사전 계산 L2-규범 [13]: model1.most_similar([`소녀`, `아버지`], [`소년], topn=3] 아웃[13]: [(u`mother`, 0.62198508369458), (u`할머니`, 0.55610488888114), (u`wife`, 0.54401707074923096]. [„그는 그녀입니다”, „큰 큰 나쁜”, „가고 가고”] [15]에서: 예를 들어 more_example에서: ….: a, b b, x = example.split() ….: 예측 = model.most_similar([x, b], [0][0][0]…: 인쇄 „%s`는 `%s`로 `%s`로 `%s`로`입니다.