python爬蟲利器之requests庫的用法(超全面的爬取網(wǎng)頁案例)
利用pip安裝:pip install requests
基本請求
req = requests.get('https://www.baidu.com/')req = requests.post('https://www.baidu.com/')req = requests.put('https://www.baidu.com/')req = requests.delete('https://www.baidu.com/')req = requests.head('https://www.baidu.com/')req = requests.options(https://www.baidu.com/)1.get請求
參數(shù)是字典,我們可以傳遞json類型的參數(shù):
import requestsfrom fake_useragent import UserAgent#請求頭部庫headers = {'User-Agent':UserAgent().random}#獲取一個隨機(jī)的請求頭url = 'https://www.baidu.com/s'#網(wǎng)址params={ 'wd':'豆瓣' #網(wǎng)址的后綴}requests.get(url,headers=headers,params=params)
返回了狀態(tài)碼,所以我們要想獲取內(nèi)容,需要將其轉(zhuǎn)成text:
#get請求headers = {'User-Agent':UserAgent().random}url = 'https://www.baidu.com/s'params={ 'wd':'豆瓣'}response = requests.get(url,headers=headers,params=params)response.text2.post 請求
參數(shù)也是字典,也可以傳遞json類型的參數(shù):
import requests from fake_useragent import UserAgentheaders = {'User-Agent':UserAgent().random}url = 'https://www.baidu.cn/index/login/login' #登錄賬號密碼的網(wǎng)址params = { 'user':'1351351335',#賬號 'password':'123456'#密碼}response = requests.post(url,headers=headers,data=params)response.text
因?yàn)檫@里需要一個登錄的網(wǎng)頁,我這里就隨便用了一個,沒有登錄,所以顯示的結(jié)果是這樣的,如果想要測試登錄的效果,請找一個登錄的頁面去嘗試一下。
3.IP代理采集時(shí)為避免被封IP,經(jīng)常會使用代理,requests也有相應(yīng) 的proxies屬性。
#IP代理import requests from fake_useragent import UserAgentheaders = {'User-Agent':UserAgent().random}url = 'http://httpbin.org/get' #返回當(dāng)前IP的網(wǎng)址proxies = { 'http':'http://yonghuming:123456@192.168.1.1:8088'#http://用戶名:密碼@IP:端口號 #'http':'https://182.145.31.211:4224'# 或者IP:端口號}requests.get(url,headers=headers,proxies=proxies)
代理IP可以去:快代理去找,也可以去購買。http://httpbin.org/get。這個網(wǎng)址是查看你現(xiàn)在的信息:
可以通過timeout屬性設(shè)置超時(shí)時(shí)間,一旦超過這個時(shí)間還沒獲取到響應(yīng)內(nèi)容,就會提示錯誤。
#設(shè)置訪問時(shí)間requests.get('http://baidu.com/',timeout=0.1)
ssl驗(yàn)證。
import requests from fake_useragent import UserAgent #請求頭部庫url = 'https://www.12306.cn/index/' #需要證書的網(wǎng)頁地址headers = {'User-Agent':UserAgent().random}#獲取一個隨機(jī)請求頭requests.packages.urllib3.disable_warnings()#禁用安全警告response = requests.get(url,verify=False,headers=headers)response.encoding = 'utf-8' #用來顯示中文,進(jìn)行轉(zhuǎn)碼response.text
import requestsfrom fake_useragent import UserAgentheaders = {'User-Agent':UserAgent().chrome}login_url = 'https://www.baidu.cn/index/login/login' #需要登錄的網(wǎng)頁地址params = { 'user':'yonghuming',#用戶名 'password':'123456'#密碼}session = requests.Session() #用來保存cookie#直接用session 歹意requests response = session.post(login_url,headers=headers,data=params)info_url = 'https://www.baidu.cn/index/user.html' #登錄完賬號密碼以后的網(wǎng)頁地址resp = session.get(info_url,headers=headers)resp.text
因?yàn)槲疫@里沒有使用需要賬號密碼的網(wǎng)頁,所以顯示這樣:
我獲取了一個智慧樹的網(wǎng)頁
#cookie import requestsfrom fake_useragent import UserAgentheaders = {'User-Agent':UserAgent().chrome}login_url = 'https://passport.zhihuishu.com/login?service=https://onlineservice.zhihuishu.com/login/gologin' #需要登錄的網(wǎng)頁地址params = { 'user':'12121212',#用戶名 'password':'123456'#密碼}session = requests.Session() #用來保存cookie#直接用session 歹意requests response = session.post(login_url,headers=headers,data=params)info_url = 'https://onlne5.zhhuishu.com/onlinWeb.html#/stdetInex' #登錄完賬號密碼以后的網(wǎng)頁地址resp = session.get(info_url,headers=headers)resp.encoding = 'utf-8'resp.text
代碼 含義 resp.json() 獲取響應(yīng)內(nèi)容 (以json字符串) resp.text 獲取相應(yīng)內(nèi)容(以字符串) resp.content 獲取響應(yīng)內(nèi)容(以字節(jié)的方式) resp.headers 獲取響應(yīng)頭內(nèi)容 resp.url 獲取訪問地址 resp.encoding 獲取網(wǎng)頁編碼 resp.request.headers 請求頭內(nèi)容 resp.cookie 獲取cookie
到此這篇關(guān)于python爬蟲利器之requests庫的用法(超全面的爬取網(wǎng)頁案例)的文章就介紹到這了,更多相關(guān)python爬蟲requests庫用法內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!
相關(guān)文章:
1. python如何換行輸出2. Java 接口和抽象類的區(qū)別詳解3. Android Studio中一套代碼多渠道打包的實(shí)現(xiàn)方法4. python如何計(jì)算圓的面積5. Java使用Tesseract-Ocr識別數(shù)字6. Python:UserWarning:此模式具有匹配組。要實(shí)際獲得組,請使用str.extract7. Python使用urlretrieve實(shí)現(xiàn)直接遠(yuǎn)程下載圖片的示例代碼8. Android打包篇:Android Studio將代碼打包成jar包教程9. 詳解java google Thumbnails 圖片處理10. 解決Android Studio 格式化 Format代碼快捷鍵問題
