电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

用python實現前向分詞最大匹配算法的示例代碼

瀏覽:100日期:2022-07-14 18:12:24

理論介紹

分詞是自然語言處理的一個基本工作,中文分詞和英文不同,字詞之間沒有空格。中文分詞是文本挖掘的基礎,對于輸入的一段中文,成功的進行中文分詞,可以達到電腦自動識別語句含義的效果。中文分詞技術屬于自然語言處理技術范疇,對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機也能理解?其處理過程就是分詞算法。

可以將中文分詞方法簡單歸納為:

1.基于詞表的分詞方法2.基于統計的分詞方法3.基于序列標記的分詞方法

其中,基于詞表的分詞方法最為簡單,根據起始匹配位置不同可以分為:

1.前向最大匹配算法2.后向最大匹配算法3.雙向最大匹配算法

三種方法思想都很簡單,今天就用python實現前向最大匹配算法。

word分詞是一個Java實現的分布式的中文分詞組件,提供了多種基于詞典的分詞算法,并利用ngram模型來消除歧義。能準確識別英文、數字,以及日期、時間等數量詞,能識別人名、地名、組織機構名等未登錄詞。能通過自定義配置文件來改變組件行為,能自定義用戶詞庫、自動檢測詞庫變化、支持大規模分布式環境,能靈活指定多種分詞算法,能使用refine功能靈活控制分詞結果,還能使用詞性標注、同義標注、反義標注、拼音標注等功能。同時還無縫和Lucene、Solr、ElasticSearch、Luke集成。

前向最大匹配算法

前向最大匹配算法,顧名思義,就是從待分詞句子的左邊向右邊搜索,尋找詞的最大匹配。我們需要規定一個詞的最大長度,每次掃描的時候尋找當前開始的這個長度的詞來和字典中的詞匹配,如果沒有找到,就縮短長度繼續尋找,直到找到字典中的詞或者成為單字。

具體代碼實現

獲取分詞函數:getSeg(text):

def getSeg(text): # 句子為空 if not text: return ’’ # 句子成為一個詞 if len(text) == 1: return text # 此處寫了一個遞歸方法 if text in word_dict: return text else: small = len(text) - 1 text = text[0:small] return getSeg(text)

主函數:main()

def main(): global test_str, word_dict test_str = test_str.strip() # 正向最大匹配分詞測試 最大長度5 max_len = max(len(word) for word in word_dict) result_str = [] # 保存分詞結果 result_len = 0 print(’input :’, test_str) while test_str: tmp_str = test_str[0:max_len] seg_str = getSeg(tmp_str) seg_len = len(seg_str) result_len = result_len + seg_len if seg_str.strip(): result_str.append(seg_str) test_str = test_str[seg_len:] print(’output :’, result_str)

字典:

word_dict = [’混沌’, ’Logistic’, ’算法’, ’圖片’, ’加密’, ’利用’, ’還原’, ’Lena’, ’驗證’, ’Baboon’, ’效果’]

測試句子:

test_str = ’’’一種基于混沌Logistic加密算法的圖片加密與還原的方法,并利用Lena圖和Baboon圖來驗證這種加密算法的加密效果。’’’

分詞結果

用python實現前向分詞最大匹配算法的示例代碼

到此這篇關于用python實現前向分詞最大匹配算法的示例代碼的文章就介紹到這了,更多相關python 前向分詞最大匹配算法內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: SPC工作站-连杆综合检具-表盘气动量仪-内孔缺陷检测仪-杭州朗多检测仪器有限公司 | 光照全温振荡器(智能型)-恒隆仪器| 绿萝净除甲醛|深圳除甲醛公司|测甲醛怎么收费|培训机构|电影院|办公室|车内|室内除甲醛案例|原理|方法|价格立马咨询 | 小型手持气象站-空气负氧离子监测站-多要素微气象传感器-山东天合环境科技有限公司 | 乳化沥青设备_改性沥青设备_沥青加温罐_德州市昊通路桥工程有限公司 | 辐射仪|辐射检测仪|辐射巡测仪|个人剂量报警仪|表面污染检测仪|辐射报警仪|辐射防护网 | 石栏杆_青石栏杆_汉白玉栏杆_花岗岩栏杆 - 【石雕之乡】点石石雕石材厂 | 山东艾德实业有限公司 | 欧洲MV日韩MV国产_人妻无码一区二区三区免费_少妇被 到高潮喷出白浆av_精品少妇自慰到喷水AV网站 | 东莞海恒试验仪器设备有限公司 | 广州活动策划公司-15+年专业大型公关活动策划执行管理经验-睿阳广告 | 控显科技 - 工控一体机、工业显示器、工业平板电脑源头厂家 | BESWICK球阀,BESWICK接头,BURKERT膜片阀,美国SEL继电器-东莞市广联自动化科技有限公司 | AGV叉车|无人叉车|AGV智能叉车|AGV搬运车-江西丹巴赫机器人股份有限公司 | 硅胶管挤出机厂家_硅胶挤出机生产线_硅胶条挤出机_臣泽智能装备 贵州科比特-防雷公司厂家提供贵州防雷工程,防雷检测,防雷接地,防雷设备价格,防雷产品报价服务-贵州防雷检测公司 | 高温热泵烘干机,高温烘干热泵,热水设备机组_正旭热泵 | 液压升降货梯_导轨式升降货梯厂家_升降货梯厂家-河南东圣升降设备有限公司 | 生态板-实木生态板-生态板厂家-源木原作生态板品牌-深圳市方舟木业有限公司 | 硫化罐-胶管硫化罐-山东鑫泰鑫智能装备有限公司 | 台湾Apex减速机_APEX行星减速机_台湾精锐减速机厂家代理【现货】-杭州摩森机电 | 考勤系统_人事考勤管理系统_本地部署BS考勤系统_考勤软件_天时考勤管理专家 | 皮带式输送机械|链板式输送机|不锈钢输送机|网带输送机械设备——青岛鸿儒机械有限公司 | 小程序开发公司-小程序制作-微信小程序开发-小程序定制-咏熠软件 | 匀胶机旋涂仪-声扫显微镜-工业水浸超声-安赛斯(北京)科技有限公司 | 非小号行情 - 专业的区块链、数字藏品行情APP、金色财经官网 | 洗石机-移动滚筒式,振动,螺旋,洗矿机-青州冠诚重工机械有限公司 | 购买舔盐、舔砖、矿物质盐压块机,鱼饵、鱼饲料压块机--请到杜甫机械 | 电动不锈钢套筒阀-球面偏置气动钟阀-三通换向阀止回阀-永嘉鸿宇阀门有限公司 | 江苏远邦专注皮带秤,高精度皮带秤,电子皮带秤研发生产 | 真空粉体取样阀,电动楔式闸阀,电动针型阀-耐苛尔(上海)自动化仪表有限公司 | 济南画室培训-美术高考培训-山东艺霖艺术培训画室 | 山东聚盛新型材料有限公司-纳米防腐隔热彩铝板和纳米防腐隔热板以及钛锡板、PVDF氟膜板供应商 | 长沙一级消防工程公司_智能化弱电_机电安装_亮化工程专业施工承包_湖南公共安全工程有限公司 | 中视电广_短视频拍摄_短视频推广_短视频代运营_宣传片拍摄_影视广告制作_中视电广 | 衬氟止回阀_衬氟闸阀_衬氟三通球阀_衬四氟阀门_衬氟阀门厂-浙江利尔多阀门有限公司 | 氢氧化钙设备, 氢氧化钙生产线-淄博惠琛工贸有限公司 | 微型气象仪_气象传感器_防爆气象传感器-天合传感器大全 | 搪瓷反应釜厂家,淄博搪瓷反应釜-淄博卓耀 | 德州网站制作 - 网站建设设计 - seo排名优化 -「两山建站」 | 四川实木门_成都实木门 - 蓬溪聚成门业有限公司 | 车载加油机品牌_ 柴油加油机厂家 |