电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

python爬取豆瓣電影排行榜(requests)的示例代碼

瀏覽:7日期:2022-06-27 17:18:00

’’’ 爬取豆瓣電影排行榜 設計思路: 1、先獲取電影類型的名字以及特有的編號 2、將編號向ajax發送get請求獲取想要的數據 3、將數據存放進excel表格中’’’

環境部署:

軟件安裝:

Python 3.7.6

官網地址:https://www.python.org/

安裝地址:https://www.python.org/ftp/python/3.7.6/python-3.7.6-amd64.exe

PyCharm 2020.2.2 x64 位

官網地址:https://www.jetbrains.com/pycharm/download/#section=windows

參考教程:https://www.jb51.net/article/197466.htm

模塊安裝(打開cmd或powershell進行下面的命令安裝【前提需要有python】):安裝requests模塊、lxml模塊(發送請求,xpath獲取數據)

pip install requests #(主要用來發送請求,獲取響應)pip install lxml #(主要引用里面的etree里面的xpath方法)

安裝xpathhelper插件(可以在網頁中復制相應的節點xpath路徑并查看)

1、下載地址:

鏈接: https://pan.baidu.com/s/1zfpnrnFtZaxrgqrUX9y5Yg

提取碼: fmsu

2、window平臺下: · 把文件的后綴名crx改為rar,然后解壓到同名文件夾中 · 打開谷歌的擴展程序 ——> 進入到管理管理擴展程序中 · 打開開發者模式,通過加載已解壓的擴展程序,將插件導入3、ios平臺下: · 直接將crx文件拖進擴展程序中

安裝xlwt模塊(將數據存放進excel表格)

pip install xlwt

項目中需要引入的模塊:

import requestsfrom lxml import etreeimport xlwtimport time

使用流程:

在列表中填寫所需要獲取的電影類型名 輸入開始時獲取的start以及獲取多少數據的limit 填寫所要輸出的excel表格的名字(代碼中默認douban.xls) 程序運行結束后打開excel驗證數據是否獲取 觀察自己所需的數據

完整代碼:

# encoding=utf8# 編程者 :Alvin’’’ 爬取豆瓣電影排行榜 設計思路: 1、先獲取電影類型的名字以及特有的編號 2、將編號向ajax發送get請求獲取想要的數據 3、將數據存放進excel表格中’’’import requestsfrom lxml import etreeimport xlwtimport timeclass DouBan(): # 初始化數據,獲取最外層的數據 def __init__(self, name_list): self.headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.3', 'Connection': 'close', 'Referer': 'https://movie.douban.com/' } # 獲取最外層的數據,并拿到url中的type中的name 和 類型 self.url = ’https://movie.douban.com/chart’ self.dydata_list = [] # 電影的類型名 self.name_list = name_list # 實例化excel表格對象 self.wb = xlwt.Workbook() # 通過電影的類型名字獲取對應的類型號 def get_data_typenum(self, name): for data in self.dydata_list: if data[’name’] == name: typenum =data[’dytype’] else: continue return typenum # 獲取數據 def get_data_p1(self): response = requests.get(self.url , headers = self.headers) # 判斷長度是否足夠大 # print(len(response.content.decode())) return response.content.decode() # 獲取下一層的頁面數據 def get_data_p2(self, typenum, num, limit): url = ’https://movie.douban.com/j/chart/top_list’ params = { ’type’: typenum, ’interval_id’: ’100:90’, ’action’:’’, ’start’: num*20, ’limit’: limit } response = requests.get(url,params=params,headers=self.headers) # print(response.json()) return response.json() # 處理數據 def data_parse_p1(self, data): html = etree.HTML(data) data_list = html.xpath(’//div[@class='types']/span/a/@href’) # 用于收集類型名字 name_list = [] dytype_list = [] # 用于收集類型號 for data in data_list: name = data.split(’?’)[-1].split(’&’)[0].split(’=’)[-1] dytype = data.split(’?’)[-1].split(’&’)[1].split(’=’)[-1] name_list.append(name) dytype_list.append(dytype) for (name,dytype) in zip(name_list,dytype_list): dydict = {} dydict[’name’] = name dydict[’dytype’] = dytype self.dydata_list.append(dydict) # print(self.dydata_list) return self.dydata_list def data_parse_p2(self, data_list,name): print(len(data_list)) douban = self.wb.add_sheet(name) style = xlwt.XFStyle() # 初始化一個style對象,用來保存excel的樣式 font = xlwt.Font() # 創建一個font對象,用來保存對字體進行的操作 font.name = ’微軟雅黑’ # 字體設置為’微軟雅黑’ font.bold = True # 字體加粗 al = xlwt.Alignment() # 創建一個對齊對啊想,用來改變文本內容的字體 style.font = font # 將字體信息保存到style對象中 style.alignment = al # 水平對齊方式、水平居中 al.horz = 0x02 # 垂直對齊方式、垂直居中 al.vert = 0x01 # 電影的標題 douban.col(0).width = 256 * 25 # 電影演員的名字 douban.col(1).width = 256 * 50 # 電影上映的年份 douban.col(2).width = 256 * 15 # 電影上映的國家 douban.col(3).width = 256 * 15 # 電影的標簽 douban.col(4).width = 256 * 20 # 電影的評分 douban.col(5).width = 256 * 8 # 豆瓣中該電影的頁面鏈接 douban.col(6).width = 256 * 40 douban.write(0, 0, ’電影標題’, style) douban.write(0, 1, ’電影演員名字’, style) douban.write(0, 2, ’電影上映年份’, style) douban.write(0, 3, ’電影上映國家’, style) douban.write(0, 4, ’電影標簽’, style) douban.write(0, 5, ’電影評分’, style) douban.write(0, 6, ’豆瓣中該電影的頁面鏈接’, style) row = 1 for data in data_list: # 電影的標題 title = data[’title’] # 電影演員的名字 actors = data[’actors’] # 電影上映的年份 release_date = data[’release_date’] # 電影上映的國家 regions = data[’regions’][0] # 電影的標簽 types = data[’types’] # 電影評分 score = data[’score’] # 豆瓣查看的鏈接 link = data[’url’] douban.write(row, 0, title) douban.write(row, 1, actors) douban.write(row, 2, release_date) douban.write(row, 3, regions) douban.write(row, 4, types) douban.write(row, 5, score) douban.write(row, 6, link) row += 1 self.wb.save(’douban.xls’) # 運行程序 def run(self, num, limit): # 獲取第一層中的所需要的類型名字和數字 self.data_parse_p1(self.get_data_p1()) for name in self.name_list: typenum = self.get_data_typenum(name) # 向指定的分類進行數據的訪問 data_list = self.get_data_p2(typenum,num,limit) # 對獲取的數據進行解析保存 self.data_parse_p2(data_list,name)if __name__ == ’__main__’: # 需要查看的類型 douban = DouBan([’喜劇’,’懸疑’,’驚悚’]) # 需要查看的開始值start,以及需要查看的數量limit douban.run(0,100) time.sleep(2)

效果圖pycharm 運行臺

python爬取豆瓣電影排行榜(requests)的示例代碼

excel表格顯示

python爬取豆瓣電影排行榜(requests)的示例代碼

本案例筆者的想法是打算先獲取到每一個電影類型的前100個數據,然后在excel表格中進行評分的篩選,最后觀察現階段某個電影類型中哪些電影在豆瓣電影中評分較高的

到此這篇關于python爬取豆瓣電影排行榜(requests)的文章就介紹到這了,更多相關python爬取豆瓣電影內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: 豆瓣 Python
相關文章:
主站蜘蛛池模板: 工业雾炮机_超细雾炮_远程抑尘射雾器-世纪润德环保设备 | 档案密集架_电动密集架_移动密集架_辽宁档案密集架-盛隆柜业厂家现货批发销售价格公道 | 杜康白酒加盟_杜康酒代理_杜康酒招商加盟官网_杜康酒厂加盟总代理—杜康酒神全国运营中心 | 东莞压铸厂_精密压铸_锌合金压铸_铝合金压铸_压铸件加工_东莞祥宇金属制品 | 压接机|高精度压接机|手动压接机|昆明可耐特科技有限公司[官网] 胶泥瓷砖胶,轻质粉刷石膏,嵌缝石膏厂家,腻子粉批发,永康家德兴,永康市家德兴建材厂 | 焊接烟尘净化器__焊烟除尘设备_打磨工作台_喷漆废气治理设备 -催化燃烧设备 _天津路博蓝天环保科技有限公司 | 机构创新组合设计实验台_液压实验台_气动实训台-戴育教仪厂 | 长春网站建设,五合一网站设计制作,免费优化推广-长春网站建设 | 插针变压器-家用电器变压器-工业空调变压器-CD型电抗器-余姚市中驰电器有限公司 | 防爆电机_ybx3系列电机_河南省南洋防爆电机有限公司 | 美国PARKER齿轮泵,美国PARKER柱塞泵,美国PARKER叶片泵,美国PARKER电磁阀,美国PARKER比例阀-上海维特锐实业发展有限公司二部 | 河南空气能热水器-洛阳空气能采暖-洛阳太阳能热水工程-洛阳润达高科空气能商行 | 气动隔膜泵-电动隔膜泵-循环热水泵-液下排污/螺杆/管道/化工泵「厂家」浙江绿邦 | COD分析仪|氨氮分析仪|总磷分析仪|总氮分析仪-圣湖Greatlake | 胶辊硫化罐_胶鞋硫化罐_硫化罐厂家-山东鑫泰鑫智能装备有限公司 意大利Frascold/富士豪压缩机_富士豪半封闭压缩机_富士豪活塞压缩机_富士豪螺杆压缩机 | 超声波焊接机,振动摩擦焊接机,激光塑料焊接机,超声波焊接模具工装-德召尼克(常州)焊接科技有限公司 | 北京京云律师事务所| 校服厂家,英伦校服定做工厂,园服生产定制厂商-东莞市艾咪天使校服 | 深圳市人通智能科技有限公司| 吉林污水处理公司,长春工业污水处理设备,净水设备-长春易洁环保科技有限公司 | 成人纸尿裤,成人尿不湿,成人护理垫-山东康舜日用品有限公司 | 地磅-地秤-江阴/无锡地磅-江阴天亿计量设备有限公司_ | 网架支座@球铰支座@钢结构支座@成品支座厂家@万向滑动支座_桥兴工程橡胶有限公司 | 气胀轴|气涨轴|安全夹头|安全卡盘|伺服纠偏系统厂家-天机传动 | 浴室柜-浴室镜厂家-YINAISI · 意大利设计师品牌 | 咿耐斯 |-浙江台州市丰源卫浴有限公司 | 粘弹体防腐胶带,聚丙烯防腐胶带-全民塑胶| 消泡剂_水处理消泡剂_切削液消泡剂_涂料消泡剂_有机硅消泡剂_广州中万新材料生产厂家 | 云杂志网-学术期刊-首页| 工业制氮机_psa制氮机厂家-宏骁智能装备科技江苏有限公司 | 政府园区专业委托招商平台_助力企业选址项目快速落地_东方龙商务集团 | 飞象网 - 通信人每天必上的网站 全球化工设备网—化工设备,化工机械,制药设备,环保设备的专业网络市场。 | 钢绞线万能材料试验机-全自动恒应力两用机-混凝土恒应力压力试验机-北京科达京威科技发展有限公司 | 膜结构_ETFE膜结构_膜结构厂家_膜结构设计-深圳市烨兴智能空间技术有限公司 | 船用泵,船用离心泵,船用喷射泵,泰州隆华船舶设备有限公司 | 数控车床-立式加工中心-多功能机床-小型车床-山东临沂金星机床有限公司 | 超声波_清洗机_超声波清洗机专业生产厂家-深圳市好顺超声设备有限公司 | PE拉伸缠绕膜,拉伸缠绕膜厂家,纳米缠绕膜-山东凯祥包装 | PC构件-PC预制构件-构件设计-建筑预制构件-PC构件厂-锦萧新材料科技(浙江)股份有限公司 | 质检报告_CE认证_FCC认证_SRRC认证_PSE认证_第三方检测机构-深圳市环测威检测技术有限公司 | TPU薄膜_TPU薄膜生产厂家_TPU热熔胶膜厂家定制_鑫亘环保科技(深圳)有限公司 | 切铝机-数控切割机-型材切割机-铝型材切割机-【昆山邓氏精密机械有限公司】 |