电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

python-xpath獲取html文檔的部分內容

瀏覽:5日期:2022-08-03 15:56:25

有些時候我在們需要的用正則提取出html中某一個部分的文字內容,如圖:

python-xpath獲取html文檔的部分內容

獲取dd部分的html文檔,我們要通過它的一個屬性去確定他的位置才可以拿到他這個部分我們可以看到他的這個屬性class=’row clearfix ’,然后用xpath去獲取到這部分:

name = tree.xpath('//dd[@class=’row clearfix ’]')from lxml import htmlimport requestsurl = ’http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD’res = requests.get(url)tree = html.fromstring(res.text)name = tree.xpath('//dd[@class=’row clearfix ’]')print(name)

如果直接打印他是不能夠出來的,

python-xpath獲取html文檔的部分內容

我們需要對Element進行處理,用到name1 = html.tostring(name[0]),代碼如下:

from lxml import htmlimport requestsurl = ’http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD’res = requests.get(url)tree = html.fromstring(res.text)name = tree.xpath('//dd[@class=’row clearfix ’]')name1 = html.tostring(name[0])print(name1)

打印截圖:

python-xpath獲取html文檔的部分內容

但是大家可以看到里面的等內容并不是中文,原因是我們使用tostring方法輸出的是修正后的HTML代碼,但是結果是bytes類型,在python中bytes類型是不可以進行編碼的,需要轉換成字符串,使用代碼name1.decode(),此時我們將bytes類型轉換為str(字符串)類型。

那么此時我們關鍵是如何將$#26080;此類的符號轉換成漢字!!!那么首先要搞清楚這是什么編碼?這類符號是HTML、XML 等 SGML 類語言的轉義序列。它們不是”編碼“,也就是說我們不能使用utf-8、gbk等編碼進行處理,需要使用HTMLParse進行處理,完整代碼如下:

from lxml import htmlimport requestsfrom html.parser import HTMLParser #導入html解析庫url = ’http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD’res = requests.get(url)tree = html.fromstring(res.text)name = tree.xpath('//dd[@class=’row clearfix ’]')name1 = html.tostring(name[0])name2 = HTMLParser().unescape(name1.decode())print(name2)

此時運行結果如下:

python-xpath獲取html文檔的部分內容

那么此時就已經大功告成了!!!

以上這篇python-xpath獲取html文檔的部分內容就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: MTK核心板|MTK开发板|MTK模块|4G核心板|4G模块|5G核心板|5G模块|安卓核心板|安卓模块|高通核心板-深圳市新移科技有限公司 | 硅PU球场、篮球场地面施工「水性、环保、弹性」硅PU材料生产厂家-广东中星体育公司 | 缠绕机|缠绕膜包装机|缠绕包装机-上海晏陵智能设备有限公司 | 点焊机-缝焊机-闪光对焊机-电阻焊设备生产厂家-上海骏腾发智能设备有限公司 | 有声小说,听书,听小说资源库-听世界网 | 据信,上课带着跳 D 体验-别样的课堂刺激感受引发网友热议 | 国产液相色谱仪-超高效液相色谱仪厂家-上海伍丰科学仪器有限公司 | 一路商机网-品牌招商加盟优选平台-加盟店排行榜平台 | 专业广州网站建设,微信小程序开发,一物一码和NFC应用开发、物联网、外贸商城、定制系统和APP开发【致茂网络】 | 东莞工作服_东莞工作服定制_工衣订做_东莞厂服 | 杭州厂房降温,车间降温设备,车间通风降温,厂房降温方案,杭州嘉友实业爽风品牌 | 合肥白癜风医院_合肥治疗白癜风医院_合肥看白癜风医院哪家好_合肥华研白癜风医院 | 定硫仪,量热仪,工业分析仪,马弗炉,煤炭化验设备厂家,煤质化验仪器,焦炭化验设备鹤壁大德煤质工业分析仪,氟氯测定仪 | 不锈钢螺丝 - 六角螺丝厂家 - 不锈钢紧固件 - 万千紧固件--紧固件一站式采购 | 热镀锌槽钢|角钢|工字钢|圆钢|H型钢|扁钢|花纹板-天津千百顺钢铁贸易有限公司 | 深圳富泰鑫五金_五金冲压件加工_五金配件加工_精密零件加工厂 | 江苏远邦专注皮带秤,高精度皮带秤,电子皮带秤研发生产 | WTB5光栅尺-JIE WILL磁栅尺-B60数显表-常州中崴机电科技有限公司 | 无锡网站建设_企业网站定制-网站制作公司-阿凡达网络 | 语料库-提供经典范文,文案句子,常用文书,您的写作得力助手 | 无负压供水设备,消防稳压供水设备-淄博创辉供水设备有限公司 | 防锈油-助焊剂-光学玻璃清洗剂-贝塔防锈油生产厂家 | 空压机网_《压缩机》杂志 | 工业车间焊接-整体|集中除尘设备-激光|等离子切割机配套除尘-粉尘烟尘净化治理厂家-山东美蓝环保科技有限公司 | 氢氧化钾厂家直销批发-济南金昊化工有限公司 | 纯化水设备-纯水设备-超纯水设备-[大鹏水处理]纯水设备一站式服务商-东莞市大鹏水处理科技有限公司 | 上海办公室装修,办公楼装修设计,办公空间设计,企业展厅设计_写艺装饰公司 | 河北中仪伟创试验仪器有限公司是专业生产沥青,土工,水泥,混凝土等试验仪器的厂家,咨询电话:13373070969 | 仓储货架_南京货架_钢制托盘_仓储笼_隔离网_环球零件盒_诺力液压车_货架-南京一品仓储设备制造公司 | 房屋质量检测-厂房抗震鉴定-玻璃幕墙检测-房屋安全鉴定机构 | 铝合金电阻-无源谐波滤波器-上海稳达电讯设备厂 | 宽带办理,电信宽带,移动宽带,联通宽带,电信宽带办理,移动宽带办理,联通宽带办理 | 安徽成考网-安徽成人高考网| 柔软云母板-硬质-水位计云母片组件-首页-武汉长丰云母绝缘材料有限公司 | 深圳南财多媒体有限公司介绍| 富森高压水枪-柴油驱动-养殖场高压清洗机-山东龙腾环保科技有限公司 | 密集架|电动密集架|移动密集架|黑龙江档案密集架-大量现货厂家销售 | 盐城网络公司_盐城网站优化_盐城网站建设_盐城市启晨网络科技有限公司 | 衡阳耐适防护科技有限公司——威仕盾焊接防护用品官网/焊工手套/焊接防护服/皮革防护手套 | 高扬程排污泵_隔膜泵_磁力泵_节能自吸离心水泵厂家-【上海博洋】 | 成都顶呱呱信息技术有限公司-贷款_个人贷款_银行贷款在线申请 - 成都贷款公司 |