电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

Python如何使用隊列方式實現多線程爬蟲

瀏覽:115日期:2022-07-25 17:25:23

說明:糗事百科段子的爬取,采用了隊列和多線程的方式,其中關鍵點是Queue.task_done()、Queue.join(),保證了線程的有序進行。

代碼如下

import requestsfrom lxml import etreeimport jsonfrom queue import Queueimport threadingclass Qsbk(object): def __init__(self): self.headers = { 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36', 'Referer': 'https://www.qiushibaike.com/' } # 實例化三個隊列,用來存放內容 self.url_queue = Queue() self.html_queue = Queue() self.content_queue = Queue() def get_total_url(self): ''' 獲取了所有的頁面url,并且返回url_list return:url_list 現在放入url_queue隊列中保存 ''' url_temp = 'https://www.qiushibaike.com/text/page/{}/' url_list = list() for i in range(1,13): # url_list.append(url_temp.format(i)) # 將生成的url放入url_queue隊列 self.url_queue.put(url_temp.format(i)) def parse_url(self): ''' 發送請求,獲取響應,同時etree處理html ''' while self.url_queue.not_empty: # 判斷非空,為空時結束循環 # 從隊列中取出一個url url = self.url_queue.get() print('parsing url:',url) # 發送請求 response = requests.get(url,headers=self.headers,timeout=10) # 獲取html字符串 html = response.content.decode() # 獲取element類型的html html = etree.HTML(html) # 將生成的element對象放入html_queue隊列 self.html_queue.put(html) # Queue.task_done() 在完成一項工作之后,Queue.task_done()函數向任務已經完成的隊列發送一個信號 self.url_queue.task_done() def get_content(self): ''' 解析網頁內容,獲取想要的信息 ''' while self.html_queue.not_empty: items = list() html = self.html_queue.get() total_div = html.xpath('//div[@class=’col1 old-style-col1’]/div') for i in total_div:author_img = i.xpath('.//a[@rel=’nofollow’]/img/@src')author_img = 'https'+author_img[0] if len(author_img)>0 else Noneauthor_name = i.xpath('.//a[@rel=’nofollow’]/img/@alt')author_name = author_name[0] if len(author_name)>0 else Noneauthor_href = i.xpath('./a/@href')author_+author_href[0] if len(author_href)>0 else Noneauthor_gender = i.xpath('./div[1]/div/@class')author_gender = author_gender[0].split(' ')[-1].replace('Icon','').strip() if len(author_gender)>0 else Noneauthor_age = i.xpath('./div[1]/div/text()')author_age = author_age[0] if len(author_age)>0 else Nonecontent = i.xpath('./a/div/span/text()')content = content[0].strip() if len(content)>0 else Nonecontent_vote = i.xpath('./div[@class=’stats’]/span[@class=’stats-vote’]/i/text()')content_vote = content_vote[0] if len(content_vote)>0 else Nonecontent_comment_numbers = i.xpath('./div[@class=’stats’]/span[@class=’stats-comments’]/a/i/text()')content_comment_numbers = content_comment_numbers[0] if len(content_comment_numbers)>0 else Noneitem = { 'author_name':author_name, 'author_age' :author_age, 'author_gender':author_gender, 'author_img':author_img, 'author_href':author_href, 'content':content, 'content_vote':content_vote, 'content_comment_numbers':content_comment_numbers,}items.append(item) self.content_queue.put(items) # task_done的時候,隊列計數減一 self.html_queue.task_done() def save_items(self): ''' 保存items ''' while self.content_queue.not_empty: items = self.content_queue.get() with open('quishibaike.txt',’a’,encoding=’utf-8’) as f:for i in items: json.dump(i,f,ensure_ascii=False,indent=2) self.content_queue.task_done() def run(self): # 獲取url list thread_list = list() thread_url = threading.Thread(target=self.get_total_url) thread_list.append(thread_url) # 發送網絡請求 for i in range(10): thread_parse = threading.Thread(target=self.parse_url) thread_list.append(thread_parse) # 提取數據 thread_get_content = threading.Thread(target=self.get_content) thread_list.append(thread_get_content) # 保存 thread_save = threading.Thread(target=self.save_items) thread_list.append(thread_save) for t in thread_list: # 為每個進程設置為后臺進程,效果是主進程退出子進程也會退出 t.setDaemon(True) t.start()# 讓主線程等待,所有的隊列為空的時候才能退出 self.url_queue.join() self.html_queue.join() self.content_queue.join()if __name__=='__main__': obj = Qsbk() obj.run()

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 陶瓷加热器,履带式加热器-吴江市兴达电热设备厂 | 凝胶成像仪,化学发光凝胶成像系统,凝胶成像分析系统-上海培清科技有限公司 | Duoguan 夺冠集团 | 媒介云-全网整合营销_成都新闻媒体发稿_软文发布平台 | 列管冷凝器,刮板蒸发器,外盘管反应釜厂家-无锡曼旺化工设备有限公司 | 哈尔滨发电机,黑龙江柴油发电机组-北方星光| 阿尔法-MDR2000无转子硫化仪-STM566 SATRA拉力试验机-青岛阿尔法仪器有限公司 | 酒吧霸屏软件_酒吧霸屏系统,酒吧微上墙,夜场霸屏软件,酒吧点歌软件,酒吧互动游戏,酒吧大屏幕软件系统下载 | 南溪在线-南溪招聘找工作、找房子、找对象,南溪综合生活信息门户! | 铝机箱_铝外壳加工_铝外壳厂家_CNC散热器加工-惠州市铂源五金制品有限公司 | 桨叶搅拌机_螺旋挤压/方盒旋切造粒机厂家-无锡市鸿诚输送机械有限公司 | 焊接烟尘净化器__焊烟除尘设备_打磨工作台_喷漆废气治理设备 -催化燃烧设备 _天津路博蓝天环保科技有限公司 | 广东恩亿梯电源有限公司【官网】_UPS不间断电源|EPS应急电源|模块化机房|电动汽车充电桩_UPS电源厂家(恩亿梯UPS电源,UPS不间断电源,不间断电源UPS) | 不锈钢法兰-碳钢法兰-法兰盘生产加工厂家-[鼎捷峰]-不锈钢法兰-碳钢法兰-法兰盘生产加工厂家-[鼎捷峰] | 12cr1mov无缝钢管切割-15crmog无缝钢管切割-40cr无缝钢管切割-42crmo无缝钢管切割-Q345B无缝钢管切割-45#无缝钢管切割 - 聊城宽达钢管有限公司 | 磁粉制动器|张力控制器|气胀轴|伺服纠偏控制器整套厂家--台灵机电官网 | 重庆监控_电子围栏设备安装公司_门禁停车场管理系统-劲浪科技公司 | 工程管道/塑料管材/pvc排水管/ppr给水管/pe双壁波纹管等品牌管材批发厂家-河南洁尔康建材 | 飞扬动力官网-广告公司管理软件,广告公司管理系统,喷绘写真条幅制作管理软件,广告公司ERP系统 | 酶联免疫分析仪-多管旋涡混合仪|混合器-莱普特科学仪器(北京)有限公司 | 沈阳缠绕膜价格_沈阳拉伸膜厂家_沈阳缠绕膜厂家直销 | 合肥活动房_安徽活动板房_集成打包箱房厂家-安徽玉强钢结构集成房屋有限公司 | 流程管理|流程管理软件|企业流程管理|微宏科技-AlphaFlow_流程管理系统软件服务商 | 电动葫芦|手拉葫芦|环链电动葫芦|微型电动葫芦-北京市凌鹰起重机械有限公司 | 宏源科技-房地产售楼系统|线上开盘系统|售楼管理系统|线上开盘软件 | 无水硫酸铝,硫酸铝厂家-淄博双赢新材料科技有限公司 | 精密光学实验平台-红外粉末压片机模具-天津博君 | 不锈钢监控杆_监控立杆厂家-廊坊耀星光电科技有限公司 | 长沙网站建设制作「网站优化推广」-网页设计公司-速马科技官网 | 全温恒温摇床-水浴气浴恒温摇床-光照恒温培养摇床-常州金坛精达仪器制造有限公司 | 氧化锆纤维_1800度高温退火炉_1800度高温烧结炉-南京理工宇龙新材料股份有限公司 | 高压包-点火器-高压发生器-点火变压器-江苏天网 | 食品质构分析仪-氧化诱导分析仪-瞬态法导热系数仪|热冰百科 | 净化工程_无尘车间_无尘车间装修-广州科凌净化工程有限公司 | 烟台螺纹,烟台H型钢,烟台钢材,烟台角钢-烟台市正丰金属材料有限公司 | H型钢切割机,相贯线切割机,数控钻床,数控平面钻,钢结构设备,槽钢切割机,角钢切割机,翻转机,拼焊矫一体机 | 温室大棚建设|水肥一体化|物联网系统| 广州办公室设计,办公室装修,写字楼设计,办公室装修公司_德科 | 电池挤压试验机-自行车喷淋-车辆碾压试验装置-深圳德迈盛测控设备有限公司 | 艾默生变频器,艾默生ct,变频器,ct驱动器,广州艾默生变频器,供水专用变频器,风机变频器,电梯变频器,艾默生变频器代理-广州市盟雄贸易有限公司官方网站-艾默生变频器应用解决方案服务商 | 品牌设计_VI设计_电影海报设计_包装设计_LOGO设计-Bacross新越品牌顾问 |