电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

python爬取新聞門戶網站的示例

瀏覽:56日期:2022-06-21 10:53:43
項目地址:

https://github.com/Python3Spiders/AllNewsSpider

如何使用

每個文件夾下的代碼就是對應平臺的新聞爬蟲

py 文件直接運行 pyd 文件需要,假設為 pengpai_news_spider.pyd

將 pyd 文件下載到本地,新建項目,把 pyd 文件放進去

項目根目錄下新建 runner.py,寫入以下代碼即可運行并抓取

import pengpai_news_spiderpengpai_news_spider.main()示例代碼

百度新聞

# -*- coding: utf-8 -*-# 文件備注信息 如果遇到打不開的情況,可以先在瀏覽器打開一下百度搜索引擎import requestsfrom datetime import datetime, timedeltafrom lxml import etreeimport csvimport osfrom time import sleepfrom random import randintdef parseTime(unformatedTime): if ’分鐘’ in unformatedTime:minute = unformatedTime[:unformatedTime.find(’分鐘’)]minute = timedelta(minutes=int(minute))return (datetime.now() -minute).strftime(’%Y-%m-%d %H:%M’) elif ’小時’ in unformatedTime:hour = unformatedTime[:unformatedTime.find(’小時’)]hour = timedelta(hours=int(hour))return (datetime.now() -hour).strftime(’%Y-%m-%d %H:%M’) else:return unformatedTimedef dealHtml(html): results = html.xpath(’//div[@class='result-op c-container xpath-log new-pmd']’) saveData = [] for result in results:title = result.xpath(’.//h3/a’)[0]title = title.xpath(’string(.)’).strip()summary = result.xpath(’.//span[@class='c-font-normal c-color-text']’)[0]summary = summary.xpath(’string(.)’).strip()# ./ 是直接下級,.// 是直接/間接下級infos = result.xpath(’.//div[@class='news-source']’)[0]source, dateTime = infos.xpath('.//span[last()-1]/text()')[0], infos.xpath('.//span[last()]/text()')[0]dateTime = parseTime(dateTime)print(’標題’, title)print(’來源’, source)print(’時間’, dateTime)print(’概要’, summary)print(’n’)saveData.append({ ’title’: title, ’source’: source, ’time’: dateTime, ’summary’: summary}) with open(fileName, ’a+’, encoding=’utf-8-sig’, newline=’’) as f:writer = csv.writer(f)for row in saveData: writer.writerow([row[’title’], row[’source’], row[’time’], row[’summary’]])headers = { ’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36’, ’Referer’: ’https://www.baidu.com/s?rtt=1&bsst=1&cl=2&tn=news&word=%B0%D9%B6%C8%D0%C2%CE%C5&fr=zhidao’}url = ’https://www.baidu.com/s’params = { ’ie’: ’utf-8’, ’medium’: 0, # rtt=4 按時間排序 rtt=1 按焦點排序 ’rtt’: 1, ’bsst’: 1, ’rsv_dl’: ’news_t_sk’, ’cl’: 2, ’tn’: ’news’, ’rsv_bp’: 1, ’oq’: ’’, ’rsv_btype’: ’t’, ’f’: 8,}def doSpider(keyword, sortBy = ’focus’): ’’’ :param keyword: 搜索關鍵詞 :param sortBy: 排序規則,可選:focus(按焦點排序),time(按時間排序),默認 focus :return: ’’’ global fileName fileName = ’{}.csv’.format(keyword) if not os.path.exists(fileName):with open(fileName, ’w+’, encoding=’utf-8-sig’, newline=’’) as f: writer = csv.writer(f) writer.writerow([’title’, ’source’, ’time’, ’summary’]) params[’wd’] = keyword if sortBy == ’time’:params[’rtt’] = 4 response = requests.get(url=url, params=params, headers=headers) html = etree.HTML(response.text) dealHtml(html) total = html.xpath(’//div[@id='header_top_bar']/span/text()’)[0] total = total.replace(’,’, ’’) total = int(total[7:-1]) pageNum = total // 10 for page in range(1, pageNum):print(’第 {} 頁nn’.format(page))headers[’Referer’] = response.urlparams[’pn’] = page * 10response = requests.get(url=url, headers=headers, params=params)html = etree.HTML(response.text)dealHtml(html)sleep(randint(2, 4)) ...if __name__ == '__main__': doSpider(keyword = ’馬保國’, sortBy=’focus’)

以上就是python爬取新聞門戶網站的示例的詳細內容,更多關于python爬取新聞門戶網站的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 小型单室真空包装机,食品单室真空包装机-百科 | 山东锐智科电检测仪器有限公司_超声波测厚仪,涂层测厚仪,里氏硬度计,电火花检漏仪,地下管线探测仪 | 聚氨酯催化剂K15,延迟催化剂SA-1,叔胺延迟催化剂,DBU,二甲基哌嗪,催化剂TMR-2,-聚氨酯催化剂生产厂家 | 盘扣式脚手架-附着式升降脚手架-移动脚手架,专ye承包服务商 - 苏州安踏脚手架工程有限公司 | 低温等离子清洗机(双气路进口)-嘉润万丰 | 苏州工作服定做-工作服定制-工作服厂家网站-尺品服饰科技(苏州)有限公司 | 温州中研白癜风专科_温州治疗白癜风_温州治疗白癜风医院哪家好_温州哪里治疗白癜风 | 济宁工业提升门|济宁电动防火门|济宁快速堆积门-济宁市统一电动门有限公司 | 地图标注-手机导航电子地图如何标注-房地产商场地图标记【DiTuBiaoZhu.net】 | 广东之窗网| 密封无忧网 _ 专业的密封产品行业信息网 | 爱佩恒温恒湿测试箱|高低温实验箱|高低温冲击试验箱|冷热冲击试验箱-您身边的模拟环境试验设备技术专家-合作热线:400-6727-800-广东爱佩试验设备有限公司 | 振动台-振动试验台-振动冲击台-广东剑乔试验设备有限公司 | 商标转让-购买商标专业|放心的商标交易网-蜀易标商标网 | 儿童乐园|游乐场|淘气堡招商加盟|室内儿童游乐园配套设备|生产厂家|开心哈乐儿童乐园 | 奶茶加盟,奶茶加盟店连锁品牌-甜啦啦官网| 智能风向风速仪,风速告警仪,数字温湿仪,综合气象仪(气象五要素)-上海风云气象仪器有限公司 | 气象监测系统_气象传感器_微型气象仪_气象环境监测仪-山东风途物联网 | 刑事律师_深圳著名刑事辩护律师_王平聚【清华博士|刑法教授】 | 会议会展活动拍摄_年会庆典演出跟拍_摄影摄像直播-艾木传媒 | 线材成型机,线材折弯机,线材成型机厂家,贝朗自动化设备有限公司1 | 企业彩铃制作_移动、联通、电信集团彩铃上传开通_彩铃定制_商务彩铃管理平台-集团彩铃网 | 东莞画册设计_logo/vi设计_品牌包装设计 - 华略品牌设计公司 | 【同风运车官网】一站式汽车托运服务平台,验车满意再付款 | 361°官方网站| 聚氨酯催化剂K15,延迟催化剂SA-1,叔胺延迟催化剂,DBU,二甲基哌嗪,催化剂TMR-2,-聚氨酯催化剂生产厂家 | RTO换向阀_VOC高温阀门_加热炉切断阀_双偏心软密封蝶阀_煤气蝶阀_提升阀-湖北霍科德阀门有限公司 | 涡街流量计_LUGB智能管道式高温防爆蒸汽温压补偿计量表-江苏凯铭仪表有限公司 | 儿童语言障碍训练-武汉优佳加感统文化发展有限公司 | 数显恒温培养摇床-卧式/台式恒温培养摇床|朗越仪器 | 彭世修脚_修脚加盟_彭世修脚加盟_彭世足疗加盟_足疗加盟连锁_彭世修脚技术培训_彭世足疗 | 龙门加工中心-数控龙门加工中心厂家价格-山东海特数控机床有限公司_龙门加工中心-数控龙门加工中心厂家价格-山东海特数控机床有限公司 | 乳化沥青设备_改性沥青设备_沥青加温罐_德州市昊通路桥工程有限公司 | 长沙印刷厂-包装印刷-画册印刷厂家-湖南省日大彩色印务有限公司 青州搬家公司电话_青州搬家公司哪家好「鸿喜」青州搬家 | 户外-组合-幼儿园-不锈钢-儿童-滑滑梯-床-玩具-淘气堡-厂家-价格 | 光泽度计_测量显微镜_苏州压力仪_苏州扭力板手维修-苏州日升精密仪器有限公司 | 钣金加工厂家-钣金加工-佛山钣金厂-月汇好 | 十字轴_十字轴万向节_十字轴总成-南京万传机械有限公司 | 楼承板-开闭口楼承板-无锡海逵楼承板 | 氮化镓芯片-碳化硅二极管 - 华燊泰半导体 | 艾默生变频器,艾默生ct,变频器,ct驱动器,广州艾默生变频器,供水专用变频器,风机变频器,电梯变频器,艾默生变频器代理-广州市盟雄贸易有限公司官方网站-艾默生变频器应用解决方案服务商 |