电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python 開心網(wǎng)和豆瓣日記爬取的小爬蟲

瀏覽:157日期:2022-06-14 16:53:22
目錄項(xiàng)目地址:開心網(wǎng)日記爬取使用代碼豆瓣日記爬取使用代碼Roadmap項(xiàng)目地址:

https://github.com/aturret/python-crawler-exercise

用到了BeautifulSoup4,請(qǐng)先安裝。

pip install beautifulsoup4開心網(wǎng)日記爬取

kaixin001.py

使用

登錄開心網(wǎng),瀏覽器F12看http請(qǐng)求的header,獲取自己的cookie。

填寫cookie,要爬的日記的url,要爬的總次數(shù)。走你。

之后會(huì)生成HTML文件,格式是<:title>-<YYYYMMDDHHMMSS>

代碼

# -*- coding: utf-8 -*-from urllib.request import urlopenimport urllib.requestimport urllib.parse #為了獲取HTTP responsefrom bs4 import BeautifulSoup #BS4import string # 為了去掉空白字符import time # 防止被殺cookieimport unicodedata # 字符修正# 在這里放第一個(gè)鏈接urlx = ’鏈接’ #寫你想爬的文def request(url): global urlx #引用外面的鏈接作為全局變量,后面還會(huì)取下一個(gè)進(jìn)行循環(huán)的# 使用urllib庫(kù)提交cookie獲取http響應(yīng) headers = { ’GET https’:url, ’Host’:’ www.kaixin001.com’, ’Connection’:’ keep-alive’, ’Upgrade-Insecure-Requests’:’ 1’, ’User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36’, ’Accept’:’ application/json, text/javascript, */*; q=0.01’, ’Accept-Language’:’ zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7’, ’Cookie’:’ ’, #改成自己的cookie,自己瀏覽器打開網(wǎng)站F12調(diào)試,自己找http請(qǐng)求的header } request = urllib.request.Request(url=url,headers=headers) response = urllib.request.urlopen(request) contents = response.read()# 使用BS4獲得所有HTMLtag bsObj = BeautifulSoup(contents,'html.parser')# 使用BS4的find函數(shù)得到想要的東西:標(biāo)題、發(fā)表時(shí)間和博客正文 title = bsObj.find('b', attrs={'class':'f14'}) titleT = bsObj.find('b', attrs={'class':'f14'}).get_text() #開心網(wǎng)日記的標(biāo)題是一個(gè)b標(biāo)簽,class屬性值是f14 date = bsObj.find('span', attrs={'class':'c6'}) dateT = bsObj.find('span', attrs={'class':'c6'}).get_text() #開心網(wǎng)日記的發(fā)表時(shí)間是一個(gè)span標(biāo)簽,class屬性值是c6 text = bsObj.find('div', attrs={'class':'textCont'}) textT = bsObj.find('div', attrs={'class':'textCont'}).get_text() #開心網(wǎng)日記的正文是一個(gè)div標(biāo)簽,class屬性值是textCont # 測(cè)試輸出 print(title) print(dateT) # print(text) # 生成HTML文件。這里直接用file.open()和file.write()了,也可以用jinja2之類的框架生成。 remove = string.whitespace+string.punctuation table = str.maketrans(’:’,’:’,remove) fileTitle=str(titleT).replace(’:’,’:’).replace(’’’'’’’,’’’“’’’)+’-’+str(dateT).translate(table).replace(’發(fā)表’,’’)+’.html’ print(fileTitle) #測(cè)試輸出 f = open(fileTitle,’w’,encoding='utf-8') #注意用utf-8編碼寫入,不然會(huì)因?yàn)橐恍┡f博文采用的gbk編碼不兼容而出問題。# 寫入message message = ''' <html> <head></head> <body> <h1>%s</h1> <b>%s</b> <br></br> %s </body> </html>'''%(title.get_text(),date.get_text(),unicodedata.normalize(’NFD’,text.prettify())) f.write(message) f.close() # webbrowser.open(fileTitle,new = 1) # 定位下一篇博文的URL nextUrl=bsObj.find('a',text='下一篇 >').attrs['href'] #下一篇是一個(gè)a標(biāo)簽,使用tag對(duì)象的attrs屬性取href屬性的值。開心網(wǎng)的日記系統(tǒng)里,如果到了最后一篇日記,下一篇的鏈接內(nèi)容是第一篇日記,所以不用擔(dān)心從哪篇日記開始爬。 # print(nextUrl) urlx='http://www.kaixin001.com'+nextUrl print(urlx)# 主循環(huán),給爺爬num=328 #設(shè)定要爬多少次。其實(shí)也可以寫個(gè)數(shù)組檢測(cè)重復(fù)然后中止的啦,但我懶得弄了。for a in range(num): request(urlx)print(’We get ’+str(a+1)+’ in ’+str(num)) time.sleep(1) # 慢點(diǎn),慢點(diǎn)。測(cè)試過程中出現(xiàn)了沒有設(shè)置限制爬一半cookie失效了的情況,可能是太快了被搞了。豆瓣日記爬取

douban.py

使用

登錄豆瓣,瀏覽器F12看http請(qǐng)求的header,獲取自己的cookie。

填寫變量COOKIE,要爬的日記頁(yè)的url。走你。

之后會(huì)生成HTML文件,格式是<:title>-<YYYYMMDDHHMMSS>

代碼

# -*- coding: utf-8 -*-from urllib.request import urlopenimport urllib.requestimport urllib.parse #為了獲取HTTP responsefrom bs4 import BeautifulSoup #BS4import string # 為了去掉空白字符import unicodedata # 字符修正import re# 在這里放鏈接url = ’’ #寫你想爬的人 https://www.douban.com/people/xxx/notes 這樣COOKIE = ’’def request(urlx): global url #引用外面的鏈接作為全局變量,后面還會(huì)取下一個(gè)進(jìn)行循環(huán)的 global boolean global COOKIE# 使用urllib庫(kù)提交cookie獲取http響應(yīng) headers = { ’GET https’:urlx, ’Host’:’ www.douban.com’, ’Connection’:’ keep-alive’, ’Upgrade-Insecure-Requests’:’ 1’, ’User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36’, ’Accept’:’ application/json, text/javascript, */*; q=0.01’, ’Accept-Language’:’ zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7’, ’Cookie’:COOKIE, #改成自己的cookie,自己瀏覽器打開網(wǎng)站F12調(diào)試,自己找http請(qǐng)求的header } request = urllib.request.Request(url=urlx,headers=headers) response = urllib.request.urlopen(request) contents = response.read()# 使用BS4獲得所有HTMLtag bsObj = BeautifulSoup(contents,'html.parser')# 使用BS4的find函數(shù)獲取當(dāng)前頁(yè)面的所有日記鏈接 article = bsObj.find('div', attrs={'class':'article'}) titleSet = article.findAll('h3') # print(titleSet) for title in titleSet:titleText = title.findAll('a',attrs={'class':'j a_unfolder_n'})for link in titleText: noteUrl = str(link.attrs['href']) print(noteUrl) requestSinglePage(noteUrl) next = bsObj.find('a',text='后頁(yè)>') if next==None:print('結(jié)束了')boolean=1 else:url = str(next.attrs['href']).replace('&type=note','')print(url)def requestSinglePage(urly): global COOKIE headers = {’GET https’:urly,’Host’:’ www.douban.com’,’Connection’:’ keep-alive’,’Upgrade-Insecure-Requests’:’ 1’,’User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36’,’Accept’:’ application/json, text/javascript, */*; q=0.01’,’Accept-Language’:’ zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7’,’Cookie’:COOKIE, #改成自己的cookie,自己瀏覽器打開網(wǎng)站F12調(diào)試,自己找http請(qǐng)求的header } request = urllib.request.Request(url=urly,headers=headers) response = urllib.request.urlopen(request) contents = response.read() # 使用BS4獲得所有HTMLtag bsObj = BeautifulSoup(contents,'html.parser')# 使用BS4的find函數(shù)得到想要的東西:標(biāo)題、發(fā)表時(shí)間和博客正文 title = bsObj.find('h1').get_text() date = bsObj.find('span', attrs={'class':'pub-date'}) dateT = bsObj.find('span', attrs={'class':'pub-date'}).get_text() text = bsObj.find('div', attrs={'id':'link-report'}) # textT = bsObj.find('div', attrs={'class':'textCont'}).get_text()# 測(cè)試輸出 print(title) print(dateT) # 生成HTML文件。這里直接用file.open()和file.write()了,也可以用jinja2之類的框架生成。 remove = string.whitespace+string.punctuation # 去掉日期的標(biāo)點(diǎn)符號(hào) table = str.maketrans(’:’,’:’,remove) fileTitle=str(title)+’-’+str(dateT).translate(table)+’.html’ print(fileTitle) #測(cè)試輸出 f = open(fileTitle,’w’,encoding='utf-8') #注意用utf-8編碼寫入,不然會(huì)因?yàn)橐恍┡f博文采用的gbk編碼不兼容而出問題。 # 寫入message message = ''' <html> <head></head> <body> <h1>%s</h1> <b>%s</b> <br></br> %s </body> </html>'''%(title,dateT,unicodedata.normalize(’NFD’,text.prettify())) f.write(message) f.close()# 主循環(huán),給爺爬boolean=0while(boolean==0): a=1 request(url) print(’We finished page ’+str(a)+’ .’) a+=1Roadmap

豆瓣四月份時(shí)候還有bug,手機(jī)端可以看到全部日記,半年隱藏?zé)o效。最近修好了。

不過現(xiàn)在的隱藏依然沒有針對(duì)到具體的日記,或許可以想辦法通過其他手段爬下來。

以上就是python 開心網(wǎng)日記爬取的示例步驟的詳細(xì)內(nèi)容,更多關(guān)于python 開心網(wǎng)日記爬取的資料請(qǐng)關(guān)注好吧啦網(wǎng)其它相關(guān)文章!

標(biāo)簽: 豆瓣 Python 編程語(yǔ)言
相關(guān)文章:
主站蜘蛛池模板: 澳洁干洗店加盟-洗衣店干洗连锁「澳洁干洗免费一对一贴心服务」 干洗加盟网-洗衣店品牌排行-干洗设备价格-干洗连锁加盟指南 | 自清洗过滤器_全自动过滤器_全自动反冲洗过滤器_量子过滤器-滑漮滴 | Q361F全焊接球阀,200X减压稳压阀,ZJHP气动单座调节阀-上海戎钛 | 郑州宣传片拍摄-TVC广告片拍摄-微电影短视频制作-河南优柿文化传媒有限公司 | 厂房出租_厂房出售_产业园区招商_工业地产&nbsp;-&nbsp;中工招商网 | 北京翻译公司_同传翻译_字幕翻译_合同翻译_英语陪同翻译_影视翻译_翻译盖章-译铭信息 | 小型气象站_便携式自动气象站_校园气象站-竞道气象设备网 | 衡阳耐适防护科技有限公司——威仕盾焊接防护用品官网/焊工手套/焊接防护服/皮革防护手套 | 加气混凝土砌块设备,轻质砖设备,蒸养砖设备,新型墙体设备-河南省杜甫机械制造有限公司 | 多米诺-多米诺世界纪录团队-多米诺世界-多米诺团队培训-多米诺公关活动-多米诺创意广告-多米诺大型表演-多米诺专业赛事 | 液氨泵,液化气泵-淄博「亚泰」燃气设备制造有限公司 | 水平垂直燃烧试验仪-灼热丝试验仪-漏电起痕试验仪-针焰试验仪-塑料材料燃烧检测设备-IP防水试验机 | 钢格栅板_钢格板网_格栅板-做专业的热镀锌钢格栅板厂家-安平县迎瑞丝网制造有限公司 | LHH药品稳定性试验箱-BPS系列恒温恒湿箱-意大利超低温冰箱-上海一恒科学仪器有限公司 | 自动检重秤-动态称重机-重量分选秤-苏州金钻称重设备系统开发有限公司 | 纳米二氧化硅,白炭黑,阴离子乳化剂-臻丽拾科技 | 好看的韩国漫画_韩漫在线免费阅读-汗汗漫画 | 天一线缆邯郸有限公司_煤矿用电缆厂家_矿用光缆厂家_矿用控制电缆_矿用通信电缆-天一线缆邯郸有限公司 | 厂房出租_厂房出售_产业园区招商_工业地产&nbsp;-&nbsp;中工招商网 | 机制砂选粉机_砂石选粉机厂家-盐城市助成粉磨科技有限公司 | 大倾角皮带机-皮带输送机-螺旋输送机-矿用皮带输送机价格厂家-河南坤威机械 | 首页_中夏易经起名网| 抓斗式清污机|螺杆式|卷扬式启闭机|底轴驱动钢坝|污水处理闸门-方源水利机械 | 迪威娱乐|迪威娱乐客服|18183620002 | 临沂招聘网_人才市场_招聘信息_求职招聘找工作请认准【马头商标】 | 金属波纹补偿器厂家_不锈钢膨胀节价格_非金属伸缩节定制-庆达补偿器 | 硬度计_影像测量仪_维氏硬度计_佛山市精测计量仪器设备有限公司厂家 | 玉米深加工设备|玉米加工机械|玉米加工设备|玉米深加工机械-河南成立粮油机械有限公司 | 科研ELISA试剂盒,酶联免疫检测试剂盒,昆虫_植物ELISA酶免试剂盒-上海仁捷生物科技有限公司 | 快速门厂家批发_PVC快速卷帘门_高速门_高速卷帘门-广州万盛门业 快干水泥|桥梁伸缩缝止水胶|伸缩缝装置生产厂家-广东广航交通科技有限公司 | 皮带输送机-大倾角皮带输送机-皮带输送机厂家-河南坤威机械 | 除尘器布袋骨架,除尘器滤袋,除尘器骨架,电磁脉冲阀膜片,卸灰阀,螺旋输送机-泊头市天润环保机械设备有限公司 | 北京西风东韵品牌与包装设计公司,创造视觉销售力! | 体感VRAR全息沉浸式3D投影多媒体展厅展会游戏互动-万展互动 | 西宁装修_西宁装修公司-西宁业之峰装饰-青海业之峰墅级装饰设计公司【官网】 | 提升海外网站流量,增加国外网站访客UV,定制海外IP-访客王 | 广州番禺搬家公司_天河黄埔搬家公司_企业工厂搬迁_日式搬家_广州搬家公司_厚道搬迁搬家公司 | 首页|专注深圳注册公司,代理记账报税,注册商标代理,工商变更,企业400电话等企业一站式服务-慧用心 | 专业广州网站建设,微信小程序开发,一物一码和NFC应用开发、物联网、外贸商城、定制系统和APP开发【致茂网络】 | 招商帮-一站式网络营销服务|互联网整合营销|网络推广代运营|信息流推广|招商帮企业招商好帮手|搜索营销推广|短视视频营销推广 | 专业广州网站建设,微信小程序开发,一物一码和NFC应用开发、物联网、外贸商城、定制系统和APP开发【致茂网络】 |