电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

小眾實用的Python 爬蟲庫RoboBrowser

瀏覽:71日期:2022-06-25 10:18:32
1. 前言

大家好,我是安果!

今天推薦一款小眾輕量級的爬蟲庫:RoboBrowser

RoboBrowser,Your friendly neighborhood web scraper!由純 Python 編寫,運行無需獨立的瀏覽器,它不僅可以做爬蟲,還可以實現 Web 端的自動化

項目地址:

​https://github.com/jmcarp/robobrowser

2. 安裝及用法

在實戰之前,我們先安裝依賴庫及解析器

PS:官方推薦的解析器是 「lxml」

# 安裝依賴pip3 install robobrowser# lxml解析器(官方推薦)pip3 install lxml

RoboBrowser 常見的 2 個功能為:

模擬表單 Form 提交 網頁數據爬取

使用 RoboBrowser 進行網頁數據爬取,常見的 3 個方法如下:

find

查詢當前頁面滿足條件的第一個元素

find_all

查詢當前頁面擁有共同屬性的一個列表元素

select

通過 CSS 選擇器,查詢頁面,返回一個元素列表

需要指出的是,RoboBrowser 依賴于 BS4,所以它的使用方法和 BS4 類似

更多功能可以參考:

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

3. 實戰一下

我們以「 百度搜索及爬取搜索結果列表 」為例

3-1 打開目標網站

首先,我們實例化一個 RoboBrowser 對象

from time import sleepfrom robobrowser import RoboBrowserhome_url = ’https://baidu.com’# parser: 解析器,HTML parser; used by BeautifulSoup# 官方推薦:lxmlrb = RoboBrowser(history=True, parser=’lxml’)# 打開目標網站rb.open(home_url)

然后,使用 RoboBrowser 實例對象中的 open() 方法打開目標網站

3-2 自動化表單提交

首先,使用 RoboBrowser 實例對象獲取網頁中的表單 Form

然后,通過為表單中的輸入框賦值模擬輸入操作

最后,使用 submit_form() 方法進行表單提交,模擬一次搜索操作

# 獲取表單對象bd_form = rb.get_form()print(bd_form)bd_form[’wd’].value = 'AirPython'# 提交表單,模擬一次搜索rb.submit_form(bd_form)3-3 數據爬取

分析搜索頁面的網頁結構,利用 RoboBrowser 中的 select() 方法匹配出所有的搜索列表元素

遍歷搜索列表元素,使用 find() 方法查詢出每一項的標題及 href 鏈接地址

# 查看結果result_elements = rb.select('.result')# 搜索結果search_result = []# 第一項的鏈接地址first_href = ’’for index, element in enumerate(result_elements): title = element.find('a').text href = element.find('a')[’href’] search_result.append(title) if index == 0: first_href = element.find('a') print(’第一項地址為:’, href)print(search_result)

最后,使用 RoboBrowser 中的 follow_link() 方法模擬一下「點擊鏈接,查看網頁詳情」的操作

# 跳轉到第一個鏈接rb.follow_link(first_href)# 獲取歷史print(rb.url)

需要注意的是,follow_link() 方法的參數為帶有 href 值的 a 標簽

4. 最后

文中結合百度搜索實例,使用 RoboBrowser 完成了一次自動化及爬蟲操作

相比 Selenium、Helium 等,RoboBrowser 更輕量級,不依賴獨立的瀏覽器及驅動

如果想處理一些簡單的爬蟲或 Web 自動化,RoboBrowser 完全夠用;但是面對一些復雜的自動化場景,更建議使用 Selenium、Pyppeteer、Helium 等

以上就是Python 爬蟲庫RoboBrowser的使用簡介的詳細內容,更多關于Python 爬蟲庫RoboBrowser的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 储能预警-储能消防系统-电池舱自动灭火装置-四川千页科技股份有限公司官网 | 视觉检测设备_自动化检测设备_CCD视觉检测机_外观缺陷检测-瑞智光电 | ALC墙板_ALC轻质隔墙板_隔音防火墙板_轻质隔墙材料-湖北博悦佳 | 水热合成反应釜-防爆高压消解罐-西安常仪仪器设备有限公司 | SRRC认证|CCC认证|CTA申请_IMEI|MAC地址注册-英利检测 | 工业车间焊接-整体|集中除尘设备-激光|等离子切割机配套除尘-粉尘烟尘净化治理厂家-山东美蓝环保科技有限公司 | 定制/定做衬衫厂家/公司-衬衫订做/订制价格/费用-北京圣达信 | 实验室pH计|电导率仪|溶解氧测定仪|离子浓度计|多参数水质分析仪|pH电极-上海般特仪器有限公司 | 生鲜配送系统-蔬菜食材配送管理系统-连锁餐饮订货配送软件-挪挪生鲜供应链管理软件 | 油液红外光谱仪-油液监测系统-燃油嗅探仪-上海冉超光电科技有限公司 | 欧景装饰设计工程有限公司-无锡欧景装饰官网 | 招商帮-一站式网络营销服务|互联网整合营销|网络推广代运营|信息流推广|招商帮企业招商好帮手|搜索营销推广|短视视频营销推广 | 激光内雕_led玻璃_发光玻璃_内雕玻璃_导光玻璃-石家庄明晨三维科技有限公司 激光内雕-内雕玻璃-发光玻璃 | 超细|超微气流粉碎机|气流磨|气流分级机|粉体改性机|磨粉机|粉碎设备-山东埃尔派粉体科技 | 全自动包衣机-无菌分装隔离器-浙江迦南科技股份有限公司 | 二手电脑回收_二手打印机回收_二手复印机回_硒鼓墨盒回收-广州益美二手电脑回收公司 | 液晶拼接屏厂家_拼接屏品牌_拼接屏价格_监控大屏—北京维康 | 丝杆升降机-不锈钢丝杆升降机-非标定制丝杆升降机厂家-山东鑫光减速机有限公司 | Q361F全焊接球阀,200X减压稳压阀,ZJHP气动单座调节阀-上海戎钛 | 缓蚀除垢剂_循环水阻垢剂_反渗透锅炉阻垢剂_有机硫化物-郑州威大水处理材料有限公司 | 世纪豪门官网 世纪豪门集成吊顶加盟电话 世纪豪门售后电话 | 昆明化妆培训-纹绣美甲-美容美牙培训-昆明博澜培训学校 | 精密五金加工厂-CNC数控车床加工_冲压件|蜗杆|螺杆加工「新锦泰」 | 压缩空气冷冻式干燥机_吸附式干燥机_吸干机_沪盛冷干机 | 杭州顺源过滤机械有限公司官网-压滤机_板框压滤机_厢式隔膜压滤机厂家 | 骨密度检测仪_骨密度分析仪_骨密度仪_动脉硬化检测仪专业生产厂家【品源医疗】 | 播音主持培训-中影人教育播音主持学苑「官网」-中国艺考界的贵族学校 | 首页|成都尚玖保洁_家政保洁_开荒保洁_成都保洁 | 高压贴片电容|贴片安规电容|三端滤波器|风华电容代理南京南山 | 镀锌方管,无缝方管,伸缩套管,方矩管_山东重鑫致胜金属制品有限公司 | 快速卷帘门_硬质快速卷帘门-西朗门业 | 亚克隆,RNAi干扰检测,miRNA定量检测-上海基屹生物科技有限公司 | 分光色差仪,测色仪,反透射灯箱,爱色丽分光光度仪,美能达色差仪维修_苏州欣美和仪器有限公司 | 钢格板|热镀锌钢格板|钢格栅板|钢格栅|格栅板-安平县昊泽丝网制品有限公司 | 网优资讯-为循环资源、大宗商品、工业服务提供资讯与行情分析的数据服务平台 | 电伴热系统施工_仪表电伴热保温箱厂家_沃安电伴热管缆工业技术(济南)有限公司 | 筛分机|振动筛分机|气流筛分机|筛分机厂家-新乡市大汉振动机械有限公司 | 进口试验机价格-进口生物材料试验机-西安卡夫曼测控技术有限公司 | 控显科技 - 工控一体机、工业显示器、工业平板电脑源头厂家 | 铁盒_铁罐_马口铁盒_马口铁罐_铁盒生产厂家-广州博新制罐 | 无纺布包装机|径向缠绕包装机|缠绕膜打包机-上海晏陵智能设备有限公司 |