电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

python如何爬取動態網站

瀏覽:7日期:2022-07-11 17:01:47

python有許多庫可以讓我們很方便地編寫網絡爬蟲,爬取某些頁面,獲得有價值的信息!但許多時候,爬蟲取到的頁面僅僅是一個靜態的頁面,即網頁 的源代碼,就像在瀏覽器上的“查看網頁源代碼”一樣。一些動態的東西如javascript腳本執行后所產生的信息,是抓取不到的,這里暫且先給出這么一 些方案,可用于python爬取js執行后輸出的信息。

1、兩種基本的解決方案

1.1 用dryscrape庫動態抓取頁面

js腳本是通過瀏覽器來執行并返回信息的,所以,抓取js執行后的頁面,一個最直接的方式就是用python模擬瀏覽器的行為。WebKit 是一個開源的瀏覽器引擎,python提供了許多庫可以調用這個引擎,dryscrape便是其中之一,它調用webkit引擎來處理包含js等的網頁!

import dryscrape# 使用dryscrape庫 動態抓取頁面def get_url_dynamic(url): session_req=dryscrape.Session() session_req.visit(url) #請求頁面 response=session_req.body() #網頁的文本 #print(response) return responseget_text_line(get_url_dynamic(url)) #將輸出一條文本

這里對于其余包含js的網頁也是適用的!雖然可以滿足抓取動態頁面的要求,但缺點還是很明顯的:慢!太慢了,其實想一想也合理,python調用 webkit請求頁面,而且等頁面加載完,載入js文件,讓js執行,將執行后的頁面返回,慢一點也是應該的!除外還有很多庫可以調用 webkit:PythonWebkit,PyWebKitGit,Pygt(可以用它寫個瀏覽器),pyjamas等等,聽說它們也可以實現相同的功能!

1.2 selenium web測試框架

selenium是一個web測試框架,它允許調用本地的瀏覽器引擎發送網頁請求,所以,它同樣可以實現抓取頁面的要求。

# 使用 selenium webdriver 可行,但會實時打開瀏覽器窗口

def get_url_dynamic2(url): driver=webdriver.Firefox() #調用本地的火狐瀏覽器,Chrom 甚至 Ie 也可以的 driver.get(url) #請求頁面,會打開一個瀏覽器窗口 html_text=driver.page_source driver.quit() #print html_text return html_textget_text_line(get_url_dynamic2(url)) #將輸出一條文本

這也不失為一條臨時的解決方案!與selenium類似的框架還有一個windmill,感覺稍復雜一些,就不再贅述!

2、selenium的安裝與使用

2.1 selenium的安裝

在Ubuntu上安裝可以直接使用pip install selenium。由于以下原因:

1. selenium 3.x開始,webdriver/firefox/webdriver.py的__init__中,executable_path='geckodriver';而2.x是executable_path='wires'

2. firefox 47以上版本,需要下載第三方driver,即geckodriver

還需要一些特殊操作:

1. 下載 geckodriverckod 地址:

mozilla/geckodriver

2. 解壓后將geckodriverckod 存放至 /usr/local/bin/ 路徑下即可:

sudo mv ~/Downloads/geckodriver /usr/local/bin/

2.2 selenium的使用

1. 運行報錯:

driver = webdriver.chrome()TypeError: ’module’ object is not callable

解決方案:瀏覽器的名稱需要大寫Chrome和Firefox,Ie

2. 通過

content = driver.find_element_by_class_name(’content’)

來定位元素時,該方法返回的是FirefoxWebElement,想要獲取包含的值時,可以通過

value = content.text

到此這篇關于python如何爬取動態網站的文章就介紹到這了,更多相關python怎么爬動態網站內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 等离子表面处理机-等离子表面活化机-真空等离子清洗机-深圳市东信高科自动化设备有限公司 | 折弯机-刨槽机-数控折弯机-数控刨槽机-数控折弯机厂家-深圳豐科机械有限公司 | 欧美日韩国产一区二区三区不_久久久久国产精品无码不卡_亚洲欧洲美洲无码精品AV_精品一区美女视频_日韩黄色性爱一级视频_日本五十路人妻斩_国产99视频免费精品是看4_亚洲中文字幕无码一二三四区_国产小萍萍挤奶喷奶水_亚洲另类精品无码在线一区 | 天津市能谱科技有限公司-专业的红外光谱仪_红外测油仪_紫外测油仪_红外制样附件_傅里叶红外光谱技术生产服务厂商 | 工业用品一站式采购平台|南创工品汇-官网|广州南创 | 陶瓷砂磨机,盘式砂磨机,棒销式砂磨机-无锡市少宏粉体科技有限公司 | 新疆散热器,新疆暖气片,新疆电锅炉,光耀暖通公司 | 塑料薄膜_PP薄膜_聚乙烯薄膜-常州市鑫美新材料包装厂 | 垃圾处理设备_餐厨垃圾处理设备_厨余垃圾处理设备_果蔬垃圾处理设备-深圳市三盛环保科技有限公司 | 硬齿面减速机_厂家-山东安吉富传动设备股份有限公司 | 体视显微镜_荧光生物显微镜_显微镜报价-微仪光电生命科学显微镜有限公司 | 长沙中央空调维修,中央空调清洗维保,空气能热水工程,价格,公司就找维小保-湖南维小保环保科技有限公司 | 消防泵-XBD单级卧式/立式消防泵-上海塑泉泵阀(集团)有限公司 | 冷凝水循环试验箱-冷凝水试验箱-可编程高低温试验箱厂家-上海巨为(www.juweigroup.com) | 贴板式电磁阀-不锈钢-气动上展式放料阀-上海弗雷西阀门有限公司 工业机械三维动画制作 环保设备原理三维演示动画 自动化装配产线三维动画制作公司-南京燃动数字 | 澳威全屋定制官网|极简衣柜十大品牌|衣柜加盟代理|全屋定制招商 百度爱采购运营研究社社群-店铺托管-爱采购代运营-良言多米网络公司 | 便携式高压氧舱-微压氧舱-核生化洗消系统-公众洗消站-洗消帐篷-北京利盟救援 | 屏蔽泵厂家,化工屏蔽泵_维修-淄博泵业| 旗杆生产厂家_不锈钢锥形旗杆价格_铝合金电动旗杆-上海锥升金属科技有限公司 | 不干胶标签-不干胶贴纸-不干胶标签定制-不干胶标签印刷厂-弗雷曼纸业(苏州)有限公司 | 有机肥设备生产制造厂家,BB掺混肥搅拌机、复合肥设备生产线,有机肥料全部加工设备多少钱,对辊挤压造粒机,有机肥造粒设备 -- 郑州程翔重工机械有限公司 | 黄石妇科医院_黄石东方女子医院_黄石东方妇产医院怎么样 | 氮化镓芯片-碳化硅二极管 - 华燊泰半导体| 滚筒烘干机_转筒烘干机_滚筒干燥机_转筒干燥机_回转烘干机_回转干燥机-设备生产厂家 | 收录网| 质检报告_CE认证_FCC认证_SRRC认证_PSE认证_第三方检测机构-深圳市环测威检测技术有限公司 | 齿辊分级破碎机,高低压压球机,立式双动力磨粉机-郑州长城冶金设备有限公司 | 长沙印刷厂-包装印刷-画册印刷厂家-湖南省日大彩色印务有限公司 青州搬家公司电话_青州搬家公司哪家好「鸿喜」青州搬家 | 除湿机|工业除湿机|抽湿器|大型地下室车间仓库吊顶防爆除湿机|抽湿烘干房|新风除湿机|调温/降温除湿机|恒温恒湿机|加湿机-杭州川田电器有限公司 | led全彩屏-室内|学校|展厅|p3|户外|会议室|圆柱|p2.5LED显示屏-LED显示屏价格-LED互动地砖屏_蕙宇屏科技 | 施工电梯_齿条货梯_烟囱电梯_物料提升机-河南大诚机械制造有限公司 | 对辊破碎机_四辊破碎机_双齿辊破碎机_华盛铭重工 | 污水处理设备维修_污水处理工程改造_机械格栅_过滤设备_气浮设备_刮吸泥机_污泥浓缩罐_污水处理设备_污水处理工程-北京龙泉新禹科技有限公司 | 即用型透析袋,透析袋夹子,药敏纸片,L型涂布棒-上海桥星贸易有限公司 | 服务器之家 - 专注于服务器技术及软件下载分享 | 电磁流量计_智能防腐防爆管道式计量表-金湖凯铭仪表有限公司 | 上海小程序开发-小程序制作-上海小程序定制开发公司-微信商城小程序-上海咏熠 | 双齿辊破碎机-大型狼牙破碎机视频-对辊破碎机价格/型号图片-金联机械设备生产厂家 | 合肥升降机-合肥升降货梯-安徽升降平台「厂家直销」-安徽鼎升自动化科技有限公司 | LNG鹤管_内浮盘价格,上装鹤管,装车撬厂家-连云港赛威特机械 | 变频器维修公司_plc维修_伺服驱动器维修_工控机维修 - 夫唯科技 变位机,焊接变位机,焊接变位器,小型变位机,小型焊接变位机-济南上弘机电设备有限公司 |