电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

用python實現前向分詞最大匹配算法的示例代碼

瀏覽:98日期:2022-07-14 18:12:24

理論介紹

分詞是自然語言處理的一個基本工作,中文分詞和英文不同,字詞之間沒有空格。中文分詞是文本挖掘的基礎,對于輸入的一段中文,成功的進行中文分詞,可以達到電腦自動識別語句含義的效果。中文分詞技術屬于自然語言處理技術范疇,對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機也能理解?其處理過程就是分詞算法。

可以將中文分詞方法簡單歸納為:

1.基于詞表的分詞方法2.基于統計的分詞方法3.基于序列標記的分詞方法

其中,基于詞表的分詞方法最為簡單,根據起始匹配位置不同可以分為:

1.前向最大匹配算法2.后向最大匹配算法3.雙向最大匹配算法

三種方法思想都很簡單,今天就用python實現前向最大匹配算法。

word分詞是一個Java實現的分布式的中文分詞組件,提供了多種基于詞典的分詞算法,并利用ngram模型來消除歧義。能準確識別英文、數字,以及日期、時間等數量詞,能識別人名、地名、組織機構名等未登錄詞。能通過自定義配置文件來改變組件行為,能自定義用戶詞庫、自動檢測詞庫變化、支持大規模分布式環境,能靈活指定多種分詞算法,能使用refine功能靈活控制分詞結果,還能使用詞性標注、同義標注、反義標注、拼音標注等功能。同時還無縫和Lucene、Solr、ElasticSearch、Luke集成。

前向最大匹配算法

前向最大匹配算法,顧名思義,就是從待分詞句子的左邊向右邊搜索,尋找詞的最大匹配。我們需要規定一個詞的最大長度,每次掃描的時候尋找當前開始的這個長度的詞來和字典中的詞匹配,如果沒有找到,就縮短長度繼續尋找,直到找到字典中的詞或者成為單字。

具體代碼實現

獲取分詞函數:getSeg(text):

def getSeg(text): # 句子為空 if not text: return ’’ # 句子成為一個詞 if len(text) == 1: return text # 此處寫了一個遞歸方法 if text in word_dict: return text else: small = len(text) - 1 text = text[0:small] return getSeg(text)

主函數:main()

def main(): global test_str, word_dict test_str = test_str.strip() # 正向最大匹配分詞測試 最大長度5 max_len = max(len(word) for word in word_dict) result_str = [] # 保存分詞結果 result_len = 0 print(’input :’, test_str) while test_str: tmp_str = test_str[0:max_len] seg_str = getSeg(tmp_str) seg_len = len(seg_str) result_len = result_len + seg_len if seg_str.strip(): result_str.append(seg_str) test_str = test_str[seg_len:] print(’output :’, result_str)

字典:

word_dict = [’混沌’, ’Logistic’, ’算法’, ’圖片’, ’加密’, ’利用’, ’還原’, ’Lena’, ’驗證’, ’Baboon’, ’效果’]

測試句子:

test_str = ’’’一種基于混沌Logistic加密算法的圖片加密與還原的方法,并利用Lena圖和Baboon圖來驗證這種加密算法的加密效果。’’’

分詞結果

用python實現前向分詞最大匹配算法的示例代碼

到此這篇關于用python實現前向分詞最大匹配算法的示例代碼的文章就介紹到這了,更多相關python 前向分詞最大匹配算法內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 荣事达手推洗地机_洗地机厂家_驾驶式扫地机_工业清洁设备 | 宝鸡市人民医院 | 银川美容培训-美睫美甲培训-彩妆纹绣培训-新娘化妆-学化妆-宁夏倍莱妮职业技能培训学校有限公司 临时厕所租赁_玻璃钢厕所租赁_蹲式|坐式厕所出租-北京慧海通 | TYPE-C厂家|TYPE-C接口|TYPE-C防水母座|TYPE-C贴片-深圳步步精 | 电采暖锅炉_超低温空气源热泵_空气源热水器-鑫鲁禹电锅炉空气能热泵厂家 | 吸音板,隔音板,吸音材料,吸音板价格,声学材料 - 佛山诺声吸音板厂家 | 大立教育官网-一级建造师培训-二级建造师培训-造价工程师-安全工程师-监理工程师考试培训 | 正压送风机-多叶送风口-板式排烟口-德州志诺通风设备 | 江苏农村商业银行招聘网_2024江苏农商行考试指南_江苏农商行校园招聘 | 电镀整流器_微弧氧化电源_高频电解电源_微弧氧化设备厂家_深圳开瑞节能 | 吸音板,隔音板,吸音材料,吸音板价格,声学材料 - 佛山诺声吸音板厂家 | 深圳美安可自动化设备有限公司,喷码机,定制喷码机,二维码喷码机,深圳喷码机,纸箱喷码机,东莞喷码机 UV喷码机,日期喷码机,鸡蛋喷码机,管芯喷码机,管内壁喷码机,喷码机厂家 | 天然鹅卵石滤料厂家-锰砂滤料-石英砂滤料-巩义东枫净水 | 东莞市踏板石餐饮管理有限公司_正宗桂林米粉_正宗桂林米粉加盟_桂林米粉加盟费-东莞市棒子桂林米粉 | 防火门|抗爆门|超大门|医疗门|隔声门-上海加汇门业生产厂家 | 机械立体车库租赁_立体停车设备出租_智能停车场厂家_春华起重 | 赛默飞Thermo veritiproPCR仪|ProFlex3 x 32PCR系统|Countess3细胞计数仪|371|3111二氧化碳培养箱|Mirco17R|Mirco21R离心机|仟诺生物 | 北京律师咨询_知名专业北京律师事务所_免费法律咨询 | 智慧消防-消防物联网系统云平台| 吹塑加工_大型吹塑加工_滚塑代加工-莱力奇吹塑加工有限公司 | 精雕机-火花机-精雕机 cnc-高速精雕机-电火花机-广东鼎拓机械科技有限公司 | 自清洗过滤器_全自动过滤器_全自动反冲洗过滤器_量子过滤器-滑漮滴 | 企典软件一站式企业管理平台,可私有、本地化部署!在线CRM客户关系管理系统|移动办公OA管理系统|HR人事管理系统|人力 | 爆炸冲击传感器-无线遥测传感器-航天星百科 | 彩信群发_群发彩信软件_视频短信营销平台-达信通 | 首页_中夏易经起名网 | 火锅加盟_四川成都火锅店加盟_中国火锅连锁品牌十强_朝天门火锅【官网】 | 品牌策划-品牌设计-济南之式传媒广告有限公司官网-提供品牌整合丨影视创意丨公关活动丨数字营销丨自媒体运营丨数字营销 | 执业药师报名时间,报考条件,考试时间-首页入口 | 武汉印刷厂-不干胶标签印刷厂-武汉不干胶印刷-武汉标签印刷厂-武汉标签制作 - 善进特种标签印刷厂 | 搪瓷反应釜厂家,淄博搪瓷反应釜-淄博卓耀 | 绿叶|绿叶投资|健康产业_绿叶投资集团有限公司 | 成都装修公司-成都装修设计公司推荐-成都朗煜装饰公司 | 液压扳手-高品质液压扳手供应商 - 液压扳手, 液压扳手供应商, 德国进口液压拉马 | 烟台条码打印机_烟台条码扫描器_烟台碳带_烟台数据采集终端_烟台斑马打印机-金鹏电子-金鹏电子 | 吊篮式|移动式冷热冲击试验箱-二槽冷热冲击试验箱-广东科宝 | 云南丰泰挖掘机修理厂-挖掘机维修,翻新,再制造的大型企业-云南丰泰工程机械维修有限公司 | 面粉仓_储酒罐_不锈钢储酒罐厂家-泰安鑫佳机械制造有限公司 | 语料库-提供经典范文,文案句子,常用文书,您的写作得力助手 | 定硫仪,量热仪,工业分析仪,马弗炉,煤炭化验设备厂家,煤质化验仪器,焦炭化验设备鹤壁大德煤质工业分析仪,氟氯测定仪 | 商标转让-购买商标专业|放心的商标交易网-蜀易标商标网 |