电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

文章詳情頁(yè)

Python爬蟲(chóng)之必備chardet庫(kù)

瀏覽：2日期：2022-06-20 16:24:43

一、chardet庫(kù)的安裝與介紹

玩兒過(guò)爬蟲(chóng)的朋友應(yīng)該知道，在爬取不同的網(wǎng)頁(yè)時(shí)，返回結(jié)果會(huì)出現(xiàn)亂碼的情況。比如，在爬取某個(gè)中文網(wǎng)頁(yè)的時(shí)候，有的頁(yè)面使用GBK/GB2312，有的使用UTF8，如果你需要去爬一些頁(yè)面，知道網(wǎng)頁(yè)編碼很重要的。

雖然HTML頁(yè)面有charset標(biāo)簽，但是有些時(shí)候是不對(duì)的，那么chardet就能幫我們大忙了。使用 chardet 可以很方便的實(shí)現(xiàn)字符串/文件的編碼檢測(cè)。

如果你安裝過(guò)Anaconda，那么可以直接使用chardet庫(kù)。如果你只是安裝了Python的話，就需要使用下面幾行代碼，完成chardet庫(kù)的安裝。

pip install chardet

接著，使用下面這行代碼，導(dǎo)入chardet庫(kù)。

import chardet二、chardet庫(kù)的使用

這個(gè)小節(jié)，我們分3部分講解。

2.1 chardet.detect()函數(shù)

detect()函數(shù)接受一個(gè)參數(shù)，一個(gè)非unicode字符串。它返回一個(gè)字典，其中包含自動(dòng)檢測(cè)到的字符編碼和從0到1的可信度級(jí)別。

encoding：表示字符編碼方式。 confidence：表示可信度。 language：語(yǔ)言。

光看這個(gè)解釋，大多數(shù)朋友可能看不懂，下面我們就用例子來(lái)講述這個(gè)函數(shù)。

2.2 使用該函數(shù)分別檢測(cè)gbk、utf-8和日語(yǔ)

檢測(cè)gbk編碼的中文：

str1 = ’大家好，我是黃同學(xué)’.encode(’gbk’)chardet.detect(str1)chardet.detect(str1)['encoding']

結(jié)果如下：

Python爬蟲(chóng)之必備chardet庫(kù)

檢測(cè)的編碼是GB2312，注意到GBK是GB2312的父集，兩者是同一種編碼，檢測(cè)正確的概率是99%，language字段指出的語(yǔ)言是’Chinese’。

檢測(cè)utf-8編碼的中文：

str2 = ’我有一個(gè)夢(mèng)想’.encode(’utf-8’)chardet.detect(str2)chardet.detect(str2)['encoding']

結(jié)果如下：

Python爬蟲(chóng)之必備chardet庫(kù)

檢測(cè)一段日文：

str3 = ’ありがとう’.encode(’euc-jp’)chardet.detect(str3)chardet.detect(str3)

結(jié)果如下：

Python爬蟲(chóng)之必備chardet庫(kù)

2.3 如何在“爬蟲(chóng)”中使用chardet庫(kù)呢？

我們以百度網(wǎng)頁(yè)為例子，進(jìn)行講述。

Python爬蟲(chóng)之必備chardet庫(kù)

這個(gè)網(wǎng)頁(yè)的源代碼，使用的是什么編碼呢？我們看看源代碼：

Python爬蟲(chóng)之必備chardet庫(kù)

從圖中可以看到，是utf-8字符編碼。

如果不使用chardet庫(kù)，獲取網(wǎng)頁(yè)源代碼的時(shí)候，怎么指定字符編碼呢？

import chardetimport requestsheaders = {’User-Agent’:’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36’}response = requests.get(’https://www.baidu.com’,headers=headers)response.encoding = 'utf-8'response.text

結(jié)果如下：

Python爬蟲(chóng)之必備chardet庫(kù)

你會(huì)發(fā)現(xiàn)：正確指定編碼后，沒(méi)有亂碼。如果你將編碼改為gbk，再看看結(jié)果。此時(shí)已經(jīng)亂碼。

Python爬蟲(chóng)之必備chardet庫(kù)

如果使用chardet庫(kù)，獲取網(wǎng)頁(yè)源代碼的時(shí)候，可以輕松指定字符編碼！

import chardetimport requestsheaders = {’User-Agent’:’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36’}response = requests.get(’https://www.baidu.com’,headers=headers)# 注意下面這行代碼，是怎么寫(xiě)的？response.encoding = chardet.detect(response.content)[’encoding’]response.text

結(jié)果如下：

Python爬蟲(chóng)之必備chardet庫(kù)

編碼不用我們自己查找，也不用猜，直接交給chardet庫(kù)去猜測(cè)，正確率還高。

到此這篇關(guān)于Python爬蟲(chóng)之必備chardet庫(kù)的文章就介紹到這了,更多相關(guān)Python chardet庫(kù)內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：Python collections模塊的使用技巧下一條：Python+uiautomator2實(shí)現(xiàn)手機(jī)鎖屏解鎖功能

相關(guān)文章：

1. python gstreamer實(shí)現(xiàn)視頻快進(jìn)/快退/循環(huán)播放功能2. python裝飾器三種裝飾模式的簡(jiǎn)單分析3. 關(guān)于Java下奇怪的Base64詳解4. Java14發(fā)布了,再也不怕NullPointerException了5. Python實(shí)現(xiàn)迪杰斯特拉算法過(guò)程解析6. Java面向?qū)ο蠡A(chǔ)教學(xué)(三)7. 詳解Python模塊化編程與裝飾器8. python使用ctypes庫(kù)調(diào)用DLL動(dòng)態(tài)鏈接庫(kù)9. Python如何進(jìn)行時(shí)間處理10. 詳解java中static關(guān)鍵詞的作用

排行榜

					
					關(guān)于Java下奇怪的Base64詳解
Spring security 自定義過(guò)濾器實(shí)現(xiàn)Json參數(shù)傳遞并兼容表單參數(shù)(實(shí)例代碼)
SpringBoot Shiro 權(quán)限注解不起作用的解決方法
Effective java學(xué)習(xí)筆記4:避免創(chuàng)建重復(fù)對(duì)象
Java14發(fā)布了,再也不怕NullPointerException了
Python實(shí)現(xiàn)迪杰斯特拉算法過(guò)程解析
讓你的Java會(huì)說(shuō)話-用Java實(shí)現(xiàn)IRC文本到語(yǔ)音轉(zhuǎn)換
詳解java中static關(guān)鍵詞的作用
PHP擴(kuò)展之字符編碼相關(guān)函數(shù)1——iconv
android studio的使用sdk manager的方法
詳解Python模塊化編程與裝飾器
				

熱門(mén)標(biāo)簽

主站蜘蛛池模板：运动木地板价格,篮球馆体育运动木地板生产厂家_欧氏地板 | 奇酷教育-Python培训|UI培训|WEB大前端培训|Unity3D培训|HTML5培训|人工智能培训|JAVA开发的教育品牌 | 电缆桥架生产厂家_槽式/梯式_热镀锌线槽_广东东莞雷正电气 | 青岛侦探_青岛侦探事务所_青岛劝退小三_青岛婚外情取证-青岛王军侦探事务所 | 酒糟烘干机-豆渣烘干机-薯渣烘干机-糟渣烘干设备厂家-焦作市真节能环保设备科技有限公司 | 广东恩亿梯电源有限公司【官网】_UPS不间断电源|EPS应急电源|模块化机房|电动汽车充电桩_UPS电源厂家(恩亿梯UPS电源,UPS不间断电源,不间断电源UPS) | 回收二手冲床_金丰旧冲床回收_协易冲床回收 - 大鑫机械设备 | 台湾Apex减速机_APEX行星减速机_台湾精锐减速机厂家代理【现货】-杭州摩森机电 | 镀锌方管,无缝方管,伸缩套管,方矩管_山东重鑫致胜金属制品有限公司 | 伶俐嫂培训学校_月嫂培训班在哪里报名学费是多少_月嫂免费政府培训中心推荐 | 便携式XPDM露点仪-在线式防爆露点仪-增强型烟气分析仪-约克仪器冰雕-冰雪世界-大型冰雕展制作公司-赛北冰雕官网 | 爱佩恒温恒湿测试箱|高低温实验箱|高低温冲击试验箱|冷热冲击试验箱-您身边的模拟环境试验设备技术专家-合作热线:400-6727-800-广东爱佩试验设备有限公司 | 护栏打桩机-打桩机厂家-恒新重工 | 留学生辅导网-在线课程论文辅导-留学生挂科申诉机构 | 世界箱包品牌十大排名,女包小众轻奢品牌推荐200元左右,男包十大奢侈品牌排行榜双肩,学生拉杆箱什么品牌好质量好 - Gouwu3.com | 高柔性拖链电缆-聚氨酯卷筒电缆-柔性屏蔽电缆厂家-玖泰电缆 | 苏州防水公司_厂房屋面外墙防水_地下室卫生间防水堵漏-苏州伊诺尔防水工程有限公司 | 武汉高温老化房,恒温恒湿试验箱,冷热冲击试验箱-武汉安德信检测设备有限公司 | 成都思迪机电技术研究所-四川成都思迪编码器| 西宁装修_西宁装修公司-西宁业之峰装饰-青海业之峰墅级装饰设计公司【官网】 | 云南成人高考_云南成考网| 交变/复合盐雾试验箱-高低温冲击试验箱_安奈设备产品供应杭州/江苏南京/安徽马鞍山合肥等全国各地 | YJLV22铝芯铠装电缆-MYPTJ矿用高压橡套电缆-天津市电缆总厂 | 烟台游艇培训,威海游艇培训-烟台市邮轮游艇行业协会 | 济南宣传册设计-画册设计_济南莫都品牌设计公司 | 真空包装机-诸城市坤泰食品机械有限公司 | 爱德华真空泵油/罗茨泵维修,爱发科-比其尔产品供应东莞/杭州/上海等全国各地 | 锂电池生产厂家-电动自行车航模无人机锂电池定制-世豹新能源 | 不锈钢列管式冷凝器,换热器厂家-无锡飞尔诺环境工程有限公司 | 高压无油空压机_无油水润滑空压机_水润滑无油螺杆空压机_无油空压机厂家-科普柯超滤(广东)节能科技有限公司 | LED太阳能中国结|发光红灯笼|灯杆造型灯|节日灯|太阳能灯笼|LED路灯杆装饰造型灯-北京中海轩光电 | 充气膜专家-气膜馆-PTFE膜结构-ETFE膜结构-商业街膜结构-奥克金鼎 | 工业洗衣机_工业洗涤设备_上海力净工业洗衣机厂家-洗涤设备首页 bkzzy在职研究生网 - 在职研究生招生信息咨询平台 | 预制围墙_工程预制围墙_天津市瑞通建筑材料有限公司 | wika威卡压力表-wika压力变送器-德国wika代理-威卡总代-北京博朗宁科技 | 找培训机构_找学习课程_励普教育| 实验室装修_实验室设计_实验室规划设计- 上海广建净化工程公司 | 电采暖锅炉_超低温空气源热泵_空气源热水器-鑫鲁禹电锅炉空气能热泵厂家 | 成都办公室装修-办公室设计-写字楼装修设计-厂房装修-四川和信建筑装饰工程有限公司 | 华溶溶出仪-Memmert稳定箱-上海协烁仪器科技有限公司 | 深圳美安可自动化设备有限公司,喷码机,定制喷码机,二维码喷码机,深圳喷码机,纸箱喷码机，东莞喷码机 UV喷码机，日期喷码机，鸡蛋喷码机，管芯喷码机，管内壁喷码机,喷码机厂家 |