电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

在python下實現word2vec詞向量訓練與加載實例

瀏覽:5日期:2022-07-22 08:14:49

項目中要對短文本進行相似度估計,word2vec是一個很火的工具。本文就word2vec的訓練以及加載進行了總結。

word2vec的原理就不描述了,word2vec詞向量工具是由google開發的,輸入為文本文檔,輸出為基于這個文本文檔的語料庫訓練得到的詞向量模型。

通過該模型可以對單詞的相似度進行量化分析。

word2vec的訓練方法有2種,一種是通過word2vec的官方手段,在linux環境下編譯并執行。

在github上下載word2vec的安裝包,然后make編譯。查看demo-word.sh腳本,得到word2vec的執行命令:

./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15

參數解釋:

1)-train:需要訓練的語料庫,text8為語料庫文件名

2)-output:輸出的詞向量文件,vectors.bin為輸出詞向量文件名,.bin后綴為二進制文件。若要以文檔的形式查看詞向量文件,需要將-binary參數的值由1改為0

3)-cbow:是否使用cbow模型進行訓練。參數為1表示使用cbow,為0表示不使用cbow

4)-size:詞向量的維數,默認為200維。

5)-window:訓練過程中截取上下文的窗口大小,默認為8,即考慮一個詞前8個和后8個詞

6)-negative:若參數非0,表明采樣隨機負采樣的方法,負樣本子集的規模默認為25。若參數值為0,表示不使用隨機負采樣模型。使用隨機負采樣比Hierarchical Softmax模型效率更高。

7)-hs:是否采用基于Hierarchical Softmax的模型。參數為1表示使用,0表示不使用

8)-sample:語料庫中的詞頻閾值參數,詞頻大于該閾值的詞,越容易被采樣。默認為e^-4.

9)-threads:開啟的線程數目,默認為20.

10)-binary:詞向量文件的輸出形式。1表示輸出二進制文件,0表示輸出文本文件

11)-iter:訓練的迭代次數。一定范圍內,次數越高,訓練得到的參數會更準確。默認值為15次.

./word2vec -train mytext.txt -output vectors.txt -cbow 1 -size 200 -window 5 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 0 -iter 30

示例為訓練一個名mytext.txt的文檔。設置輸出詞向量的格式為.txt文本文檔,所以還需要將-binary參數設置為0.

訓練模型采用基于隨機負采樣的cbow模型。由于短文本字數極為有限,所以-window參數設置為5,設置詞向量的維數

為200,為了使得到的參數更準確,將迭代次數增加至30.其他參數使用默認值。

訓練以后得到一個txt文本,該文本的內容為:每行一個單詞,單詞后面是對應的詞向量。

gensim加載詞向量:

保存詞向量模型到pkl中(注意:這里是對詞向量模型進行構建)

from gensim.models import KeyedVectorsif not os.path.exists(pkl_path): # 如果pickle模型不存在,則構建一個 print ’詞向量模型不存在,開始構建詞向量模型...’ Word2Vec = KeyedVectors.load_word2vec_format(vecs_path, binary=False) # 加載詞向量模型 f = file(pkl_path, ’wb’) pickle.dump(Word2Vec, f, True) f.close() print ’詞向量模型構建完畢...’f= file(pkl_path, ’rb’)# 打開pkl文件word2vec=pickle.load(f)# 載入pkl

第二種方法是使用gensim模塊訓練詞向量:

from gensim.models import Word2Vecfrom gensim.models.word2vec import LineSentencetry: import cPickle as pickleexcept ImportError: import picklesentences = LineSentence(path)# path為要訓練的txt的路徑# 對sentences表示的語料庫進行訓練,訓練200維的詞向量,窗口大小設置為5,最小詞頻設置為5model = Word2Vec(sentences, size=200, window=5, min_count=5)model.save(model_path)#model_path為模型路徑。保存模型,通常采用pkl形式保存,以便下次直接加載即可# 加載模型model = Word2Vec.load(model_path)

完整的訓練,加載通常采用如下方式:

if not os.path.exists(model_path): sentences = LineSentence(path) model = Word2Vec(sentences, size=200, window=5, min_count=5) model.save(model_path)model = Word2Vec.load(model_path)

這樣一來,就可以通過pkl化的詞向量模型進行讀取了。pkl的目的是為了保存程序中變量的狀態,以便下次直接訪問,

不必重新訓練模型。

詳細內容間gensim官方庫

https://radimrehurek.com/gensim/models/word2vec.html

以上這篇在python下實現word2vec詞向量訓練與加載實例就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持好吧啦網。

標簽: python
相關文章:
主站蜘蛛池模板: 面粉仓_储酒罐_不锈钢储酒罐厂家-泰安鑫佳机械制造有限公司 | 精密光学实验平台-红外粉末压片机模具-天津博君 | 贴片电容-贴片电阻-二三极管-国巨|三星|风华贴片电容代理商-深圳伟哲电子 | 硫酸钡厂家_高光沉淀硫酸钡价格-河南钡丰化工有限公司 | 昆明挖掘机修理厂_挖掘机翻新再制造-昆明聚力工程机械维修有限公司 | 防火阀、排烟防火阀、电动防火阀产品生产销售商-德州凯亿空调设备有限公司 | SDG吸附剂,SDG酸气吸附剂,干式酸性气体吸收剂生产厂家,超过20年生产使用经验。 - 富莱尔环保设备公司(原名天津市武清县环保设备厂) | 东莞市超赞电子科技有限公司 全系列直插/贴片铝电解电容,电解电容,电容器 | 拖鞋定制厂家-品牌拖鞋代加工厂-振扬实业中国高端拖鞋大型制造商 | elisa试剂盒价格-酶联免疫试剂盒-猪elisa试剂盒-上海恒远生物科技有限公司 | 耐酸泵,耐酸泵厂家-淄博华舜耐腐蚀真空泵 | 电子巡更系统-巡检管理系统-智能巡检【金万码】 | 喷播机厂家_二手喷播机租赁_水泥浆洒布机-河南青山绿水机电设备有限公司 | 14米地磅厂家价价格,150吨地磅厂家价格-百科 | 短信通106短信接口验证码接口群发平台_国际短信接口验证码接口群发平台-速度网络有限公司 | 阴离子_阳离子聚丙烯酰胺厂家_聚合氯化铝价格_水处理絮凝剂_巩义市江源净水材料有限公司 | 泥浆在线密度计厂家-防爆数字压力表-膜盒-远传压力表厂家-江苏大亚自控设备有限公司 | 国际船舶网 - 船厂、船舶、造船、船舶设备、航运及海洋工程等相关行业综合信息平台 | 精密五金冲压件_深圳五金冲压厂_钣金加工厂_五金模具加工-诚瑞丰科技股份有限公司 | 粉末冶金-粉末冶金齿轮-粉末冶金零件厂家-东莞市正朗精密金属零件有限公司 | 变压器配件,变压器吸湿器,武强县吉口变压器配件有限公司 | 诸城网站建设-网络推广-网站优化-阿里巴巴托管-诸城恒泰互联 | 复盛空压机配件-空气压缩机-复盛空压机(华北)总代理 | 高低温老化试验机-步入式/低温恒温恒湿试验机-百科 | 旅游规划_旅游策划_乡村旅游规划_景区规划设计_旅游规划设计公司-北京绿道联合旅游规划设计有限公司 | SDI车窗夹力测试仪-KEMKRAFT方向盘测试仪-上海爱泽工业设备有限公司 | 短信营销平台_短信群发平台_106短信发送平台-河南路尚 | 农业四情_农业气象站_田间小型气象站_智慧农业气象站-山东风途物联网 | PCB厂|线路板厂|深圳线路板厂|软硬结合板厂|电路板生产厂家|线路板|深圳电路板厂家|铝基板厂家|深联电路-专业生产PCB研发制造 | 复合土工膜厂家|hdpe防渗土工膜|复合防渗土工布|玻璃纤维|双向塑料土工格栅-安徽路建新材料有限公司 | 定量包装机,颗粒定量包装机,粉剂定量包装机,背封颗粒包装机,定量灌装机-上海铸衡电子科技有限公司 | 南昌旅行社_南昌国际旅行社_南昌国旅在线 | SOUNDWELL 编码器|电位器|旋转编码器|可调电位器|编码开关厂家-广东升威电子制品有限公司 | 福州甲醛检测-福建室内空气检测_环境检测_水质检测-福建中凯检测技术有限公司 | 制氮设备_PSA制氮机_激光切割制氮机_氮气机生产厂家-苏州西斯气体设备有限公司 | 碳纤维复合材料制品生产定制工厂订制厂家-凯夫拉凯芙拉碳纤维手机壳套-碳纤维雪茄盒外壳套-深圳市润大世纪新材料科技有限公司 | 天津散热器_天津暖气片_天津安尼威尔散热器制造有限公司 | 流量卡中心-流量卡套餐查询系统_移动电信联通流量卡套餐大全 | lcd条形屏-液晶长条屏-户外广告屏-条形智能显示屏-深圳市条形智能电子有限公司 | 不锈钢复合板厂家_钛钢复合板批发_铜铝复合板供应-威海泓方金属复合材料股份有限公司 | 环氧乙烷灭菌器_压力蒸汽灭菌器_低温等离子过氧化氢灭菌器 _低温蒸汽甲醛灭菌器_清洗工作站_医用干燥柜_灭菌耗材-环氧乙烷灭菌器_脉动真空压力蒸汽灭菌器_低温等离子灭菌设备_河南省三强医疗器械有限责任公司 |