电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

Python實現Wordcloud生成詞云圖的示例

瀏覽:8日期:2022-07-31 16:46:55

wordcloud是Python擴展庫中一種將詞語用圖片表達出來的一種形式,通過詞云生成的圖片,我們可以更加直觀的看出某篇文章的故事梗概。

首先貼出一張詞云圖(以哈利波特小說為例):

Python實現Wordcloud生成詞云圖的示例

在生成詞云圖之前,首先要做一些準備工作

1.安裝結巴分詞庫

pip install jieba

Python實現Wordcloud生成詞云圖的示例

Python中的分詞模塊有很多,他們的功能也都是大同小異,我們安裝的結巴分詞 是當前使用的最多的類型。

下面我來簡單介紹一下結巴分詞的用法

結巴分詞的分詞模式分為三種:

(1)全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度快,但是不能解決歧義問題

(2)精確模式:將句子最精確地切開,適合文本分析

(3)搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞

下面用一個簡單的例子來看一下三種模式的分詞區別:

import jieba # 全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度快,但是不能解決歧義問題 text = '哈利波特是一常優秀的文學作品' seg_list = jieba.cut(text, cut_all=True) print(u'[全模式]: ', '/ '.join(seg_list)) # 精確模式:將句子最精確地切開,適合文本分析 seg_list = jieba.cut(text, cut_all=False) print(u'[精確模式]: ', '/ '.join(seg_list)) # 默認是精確模式 seg_list = jieba.cut(text) print(u'[默認模式]: ', '/ '.join(seg_list)) # 搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞seg_list = jieba.cut_for_search(text)print(u'[搜索引擎模式]: ', '/ '.join(seg_list))

下面是對這句話的分詞方式:

Python實現Wordcloud生成詞云圖的示例

通過這三種分詞模式可以看出,這些分詞模式并沒有很好的劃分出“哈利波特”這個專有名詞,這是因為在結巴分詞的字典中并沒有記錄這個名詞,所以需要我們手動添加自定義字典

添加自定義字典:找一個方便引用的位置 (下圖的路徑是我安裝的位置),新建文本文檔(后綴名為.txt),將想添加的詞輸入進去(注意輸入格式),保存并退出

Python實現Wordcloud生成詞云圖的示例

在上面的代碼中加入自定義字典的路徑,再點擊運行

jieba.load_userdict('/home/jmhao/anaconda3/lib/python3.7/site-packages/jieba/mydict.txt')

分詞結果,可以看出“哈利波特”這個詞已經被識別出來了

Python實現Wordcloud生成詞云圖的示例

結巴分詞還有另一個禁用詞的輸出結果

stopwords = {}.fromkeys([’優秀’, ’文學作品’]) #添加禁用詞之后 seg_list = jieba.cut(text) final = ’’ for seg in seg_list: if seg not in stopwords: final += seg seg_list_new = jieba.cut(final) print(u'[切割之后]: ', '/ '.join(seg_list_new))

可以看到輸出結果中并沒有“優秀”和“文學作品”兩個詞

Python實現Wordcloud生成詞云圖的示例

結巴分詞還有很多比較復雜的操作,具體的可以去官網查看,我就不再過多的贅述了

下面我們正式開始詞云的制作

首先下載模塊,這里我所使用的環境是Anaconda,由于Anaconda中包含很多常用的擴展包,所以這里只需要下載wordcloud。若使用的環境不是Anaconda,則另需安裝numpy和PIL模塊

pip install wordcloud

Python實現Wordcloud生成詞云圖的示例

然后我們需要找一篇文章并使用結巴分詞將文章分成詞語的形式

# 分詞模塊 def cut(text): # 選擇分詞模式 word_list = jieba.cut(text,cut_all= True) # 分詞后在單獨個體之間加上空格 result = ' '.join(word_list) # 返回分詞結果 return result

這里我在當前文件夾下創建了一個文本文檔“xiaoshuo.txt”,并復制了一章的小說作為詞云的主體文字

使用代碼控制,打開并讀取小說的內容

#導入文本文件,進行分詞,制作詞云 with open('xiaoshuo.txt') as fp: text = fp.read() # 將讀取的中文文檔進行分詞 text = cut(text)

在網上找到一張白色背景的圖片下載到當前文件夾,作為詞云的背景圖(若不指定圖片,則默認生成矩形詞云)

#設置詞云形狀,若設置了詞云的形狀,生成的詞云與圖片保持一致,后面設置的寬度和高度將默認無效 mask = np.array(image.open('monkey.jpeg'))

接下來可以根據喜好來定義詞云的顏色、輪廓等參數 下面為常用的參數設置方法

font_path : '字體路徑' 詞云的字體樣式,若要輸出中文,則跟隨中文的字體 width = n 畫布寬度,默認為400像素 height = n 畫布高度,默認為400像素 scale = n 按比例放大或縮小畫布 min_font_size = n 設置最小的字體大小 max_font_size = n 設置最大的字體大小 stopwords = ’words’ 設置要屏蔽的詞語 background_color = ’’color 設置背景板顏色 relative_scaling = n 設置字體大小與詞頻的關聯性 contour_width = n 設置輪廓寬度 contour_color = ’color’ 設置輪廓顏色

完整代碼

#導入詞云庫 from wordcloud import WordCloud #導入圖像處理庫 import PIL.Image as image #導入數據處理庫 import numpy as np #導入結巴分詞庫 import jieba # 分詞模塊 def cut(text): # 選擇分詞模式 word_list = jieba.cut(text,cut_all= True) # 分詞后在單獨個體之間加上空格 result = ' '.join(word_list) return result #導入文本文件,進行分詞,制作詞云 with open('xiaoshuo.txt') as fp: text = fp.read() # 將讀取的中文文檔進行分詞 text = cut(text) #設置詞云形狀 mask = np.array(image.open('monkey.jpeg')) #自定義詞云 wordcloud = WordCloud( # 遮罩層,除白色背景外,其余圖層全部繪制(之前設置的寬高無效) mask=mask, #默認黑色背景,更改為白色 background_color=’#FFFFFF’, #按照比例擴大或縮小畫布 scale=, # 若想生成中文字體,需添加中文字體路徑 font_path='/usr/share/fonts/bb5828/逐浪雅宋體.otf' ).generate(text) #返回對象 image_produce = wordcloud.to_image() #保存圖片 wordcloud.to_file('new_wordcloud.jpg') #顯示圖像 image_produce.show()

注:若想要生成圖片樣式的詞云圖,找到的圖片背景必須為白色,或者使用Photoshop摳圖替換成白色背景,否則生成的詞云為矩形

我的詞云原圖:

Python實現Wordcloud生成詞云圖的示例

生成的詞云圖:

Python實現Wordcloud生成詞云圖的示例

到此這篇關于Python實現Wordcloud生成詞云圖的示例的文章就介紹到這了,更多相關Python Wordcloud生成詞云圖內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: python
相關文章:
主站蜘蛛池模板: 开云(中国)Kaiyun·官方网站-登录入口 | 红酒招商加盟-葡萄酒加盟-进口红酒代理-青岛枞木酒业有限公司 | 石家庄救护车出租_重症转院_跨省跨境医疗转送_活动赛事医疗保障_康复出院_放弃治疗_腾康26年医疗护送转诊团队 | 交通信号灯生产厂家_红绿灯厂家_电子警察监控杆_标志杆厂家-沃霖电子科技 | 长沙中央空调维修,中央空调清洗维保,空气能热水工程,价格,公司就找维小保-湖南维小保环保科技有限公司 | 防水套管厂家-柔性防水套管-不锈钢|刚性防水套管-天翔管道 | 雪花制冰机(实验室雪花制冰机)百科| 阴离子聚丙烯酰胺价格_PAM_高分子聚丙烯酰胺厂家-河南泰航净水材料有限公司 | 水平筛厂家-三轴椭圆水平振动筛-泥沙震动筛设备_山东奥凯诺矿机 包装设计公司,产品包装设计|包装制作,包装盒定制厂家-汇包装【官方网站】 | 深圳市宏康仪器科技有限公司-模拟高空低压试验箱-高温防爆试验箱-温控短路试验箱【官网】 | 维泰克Veertek-锂电池微短路检测_锂电池腐蚀检测_锂电池漏液检测 | 北京模型公司-工业模型-地产模型-施工模型-北京渝峰时代沙盘模型制作公司 | 沈阳缠绕包装机厂家直销-沈阳海鹞托盘缠绕包装机价格 | 比亚迪叉车-比亚迪电动叉车堆垛车托盘车仓储叉车价格多少钱报价 磁力去毛刺机_去毛刺磁力抛光机_磁力光饰机_磁力滚抛机_精密金属零件去毛刺机厂家-冠古科技 | 净化车间_洁净厂房_净化公司_净化厂房_无尘室工程_洁净工程装修|改造|施工-深圳净化公司 | 机床导轨_导轨板_滚轮导轨-上海旻佑精密机械有限公司 | 干粉砂浆设备_干混砂浆生产线_腻子粉加工设备_石膏抹灰砂浆生产成套设备厂家_干粉混合设备_砂子烘干机--郑州铭将机械设备有限公司 | 别墅图纸超市|别墅设计图纸|农村房屋设计图|农村自建房|别墅设计图纸及效果图大全 | 蒸汽吸附分析仪-进口水分活度仪|康宝百科 | 济南网站建设_济南网站制作_济南网站设计_济南网站建设公司_富库网络旗下模易宝_模板建站 | 圣才学习网-考研考证学习平台,提供万种考研考证电子书、题库、视频课程等考试资料 | 防水试验机_防水测试设备_防水试验装置_淋雨试验箱-广州岳信试验设备有限公司 | 工程管道/塑料管材/pvc排水管/ppr给水管/pe双壁波纹管等品牌管材批发厂家-河南洁尔康建材 | 好看的韩国漫画_韩漫在线免费阅读-汗汗漫画 | 别墅图纸超市|别墅设计图纸|农村房屋设计图|农村自建房|别墅设计图纸及效果图大全 | 并离网逆变器_高频UPS电源定制_户用储能光伏逆变器厂家-深圳市索克新能源 | 起好名字_取个好名字_好名网免费取好名在线打分 | 大倾角皮带机-皮带输送机-螺旋输送机-矿用皮带输送机价格厂家-河南坤威机械 | 杭州标识标牌|文化墙|展厅|导视|户内外广告|发光字|灯箱|铭阳制作公司 - 杭州标识标牌|文化墙|展厅|导视|户内外广告|发光字|灯箱|铭阳制作公司 | 商标转让-商标注册-商标查询-软著专利服务平台 - 赣江万网 | 沈阳真空机_沈阳真空包装机_沈阳大米真空包装机-沈阳海鹞真空包装机械有限公司 | 微波萃取合成仪-电热消解器价格-北京安合美诚科学仪器有限公司 | 自动化展_机器人展_机床展_工业互联网展_广东佛山工博会 | 盛源真空泵|空压机-浙江盛源空压机制造有限公司-【盛源官网】 | 德国UST优斯特氢气检漏仪-德国舒赐乙烷检测仪-北京泽钏 | 深圳离婚律师咨询「在线免费」华荣深圳婚姻律师事务所专办离婚纠纷案件 | 山东臭氧发生器,臭氧发生器厂家-山东瑞华环保设备 | 深圳展厅设计_企业展馆设计_展厅设计公司_数字展厅设计_深圳百艺堂 | 一体化预制泵站-一体化提升泵站-一体化泵站厂家-山东康威环保 | 衬塑管道_衬四氟管道厂家-淄博恒固化工设备有限公司 | 自动焊锡机_点胶机_螺丝机-锐驰机器人 |