电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

Python爬蟲框架之Scrapy中Spider的用法

瀏覽:89日期:2022-06-15 16:15:13
Scrapy中Spider的用法

Spider類定義了如何爬取某個(或某些)網站。包括了爬取的動作(例如:是否跟進鏈接)以及如何從網頁的內容中提取結構化數據(爬取item)。換句話說,Spider就是您定義爬取的動作及分析某個網頁(或者是有些網頁)的地方。

對spider來說,爬取的循環類似下文:

1.以初始的URL初始化Request,并設置回調函數。當該request下載完畢并返回時,將生成response,并作為參數傳給該回調函數。spider中初始的request是通過調用start_requests()來獲取的。start_requests()讀取start_urls中的URL,并以parse為回調函數生成Request。

2.在回調函數內分析返回的(網頁)內容,返回ltem對象或者Request或者一個包括二者的可迭代容器。返回的Request對象之后會經過Scrapy處理,下載相應的內容,并調用設置的callback函數(函數可相同)。

3.在回調函數內,您可以使用選擇器(Selectors)(您也可以使用BeautifulSoup, Ixml或者您想用的任何解析器)來分析網頁內容,并根據分析的數據生成item。

4.最后,由spider返回的item將被存到數據庫(由某些ltem Pipeline處理)或使用Feed exports存入到文件中。

雖然該循環對任何類型的spider都(多少)適用,但Scrapy仍然為了不同的需求提供了多種默認spider。之后將討論這些spider。

Spider

scrapy.spider.Spider是最簡單的spider。每個其他的spider必須繼承自該類(包括Scrapy自帶的其他spider以及您自己編寫的spider)。其僅僅請求給定的start_urls / start_requests,并根據返回的結果(resulting responses)調用spider的 parse方法。

name

定義spider名字的字符串(string)。spider的名字定義了Scrapy如何定位(并初始化) spider,所以其必須是唯一的。不過您可以生成多個相同的spider實例(instance),這沒有任何限制。name是spider最重要的屬性,而且是必須的。

如果該spider爬取單個網站(single domain),一個常見的做法是以該網站(domain)(加或不加后綴)來命名spider。例如,如果spider爬取 mywebsite.com,該spider通常會被命名為mywebsite。

allowed_domains

可選。包含了spider允許爬取的域名(domain)列表(list)。當OffsiteMiddleware啟用時,域名不在列表中的URL不會被跟進。

start_urls

URL列表。當沒有制定特定的URL時,spider將從該列表中開始進行爬取。因此,第一個被獲取到的頁面的URL將是該列表之一。后續的URL將會從獲取到的數據中提取。

start_requests()

該方法必須返回一個可迭代對象(iterable)。該對象包含了spider用于爬取的第一個Request。

當spider啟動爬取并且未制定URL時,該方法被調用。當指定了URL時,make_requests_from_url()將被調用來創建Request對象。該方法僅僅會被Scrapy調用一次,因此您可以將其實現為生成器。

該方法的默認實現是使用start_urls的url生成Request。

如果您想要修改最初爬取某個網站的Request對象,您可以重寫(override)該方法。例如,如果您需要在啟動時以POST登錄某個網站,你可以這么寫:

def start_requests(self) : return [scrapy.FormRequest('http : / /ww. example.com/login',formdata={ ’user’ : ’john’, ’ pass ’ : ’secret’},ca77back=se1f.1ogged_in)] def logged_in(self,response) :## here you would extract links to follow and return Requests for## each of them,with another ca77backpass

parse

當response沒有指定回調函數時,該方法是Scrapy處理下載的response的默認方法。

parse負責處理response并返回處理的數據以及(/或)跟進的URL。Spider對其他的Request的回調函數也有相同的要求。

該方法及其他的Request回調函數必須返回一個包含Request 及(或) ltem的可迭代的對象。

參數: response-用于分析的response

啟動方式

start_urls

start_urls是一個列表

start_requests

使用start_requests()重寫start_ur1s,要使用Request()方法自己發送請求:

def start_requests(se7f): '''重寫start_urls 規則''' yield scrapy.Request(ur1=’http://quotes.toscrape.com/page/1/’cal1back=self.parse)

scrapy.Request

scrapy.Request是一個請求對象,創建時必須制定回調函數。

數據保存

可以使用-o將數據保存為常見的格式(根據后綴名保存)支持的格式有下面幾種:

json jsonlines jl csv xml marshal pickle

使用方式:

scrapy crawl quotes2 -o a.json

案例: Spider樣例

##一*- coding: utf-8 -*- import scrapy clTass Quotes2spider(scrapy.spider): name = ’quotes2’ a7lowed_domains = [ ’toscrape.com ’ ] start_urls = [ ’ http: //quotes.toscrape.com/ page/2/ ’] def parse(self,response):quotes = response.css(’.quote ’ )for quote in quotes: text = quote.css( ’.text: : text ’ ).extract_first() auth = quote.css( ’.author : :text ’).extract_first() tages = quote.css(’.tags a: :text’ ).extract() yield dict(text=text , auth=auth, tages=tages)

到此這篇關于Python爬蟲框架之Scrapy中Spider的用法的文章就介紹到這了,更多相關Spider的用法內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 刑事律师_深圳著名刑事辩护律师_王平聚【清华博士|刑法教授】 | 烟台游艇培训,威海游艇培训-烟台市邮轮游艇行业协会 | 北京康百特科技有限公司-分子蒸馏-短程分子蒸馏设备-实验室分子蒸馏设备 | 柴油发电机组_柴油发电机_发电机组价格-江苏凯晨电力设备有限公司 | 车件|铜件|车削件|车床加工|五金冲压件-PIN针,精密车件定制专业厂商【东莞品晔】 | 智慧食堂_食堂管理系统_食堂订餐_食堂消费系统—客易捷 | 集装箱箱号识别_自重载重图像识别_铁路车号自动识别_OCR图像识别 | 汽车润滑油厂家-机油/润滑油代理-高性能机油-领驰慧润滑科技(河北)有限公司 | 钣金加工厂家-钣金加工-佛山钣金厂-月汇好 | 蜘蛛车-高空作业平台-升降机-高空作业车租赁-臂式伸缩臂叉装车-登高车出租厂家 - 普雷斯特机械设备(北京)有限公司 | 钢丝绳探伤仪-钢丝绳检测仪-钢丝绳探伤设备-洛阳泰斯特探伤技术有限公司 | 扫地车厂家-山西洗地机-太原电动扫地车「大同朔州吕梁晋中忻州长治晋城洗地机」山西锦力环保科技有限公司 | 我车网|我关心的汽车资讯_汽车图片_汽车生活! | 冷藏车厂家|冷藏车价格|小型冷藏车|散装饲料车厂家|程力专用汽车股份有限公司销售十二分公司 | 【德信自动化】点胶机_全自动点胶机_自动点胶机厂家_塑料热压机_自动螺丝机-深圳市德信自动化设备有限公司 | 耐酸碱胶管_耐腐蚀软管总成_化学品输送软管_漯河利通液压科技耐油耐磨喷砂软管|耐腐蚀化学软管 | 厌氧工作站-通用型厌氧工作站-上海胜秋科学仪器有限公司 | 干粉砂浆设备_干混砂浆生产线_腻子粉加工设备_石膏抹灰砂浆生产成套设备厂家_干粉混合设备_砂子烘干机--郑州铭将机械设备有限公司 | 中视电广_短视频拍摄_短视频推广_短视频代运营_宣传片拍摄_影视广告制作_中视电广 | 衢州装饰公司|装潢公司|办公楼装修|排屋装修|别墅装修-衢州佳盛装饰 | 水冷式工业冷水机组_风冷式工业冷水机_水冷螺杆冷冻机组-深圳市普威机械设备有限公司 | 砂尘试验箱_淋雨试验房_冰水冲击试验箱_IPX9K淋雨试验箱_广州岳信试验设备有限公司 | 电镀标牌_电铸标牌_金属标贴_不锈钢标牌厂家_深圳市宝利丰精密科技有限公司 | 丙烷/液氧/液氮气化器,丙烷/液氧/液氮汽化器-无锡舍勒能源科技有限公司 | 冷藏车-东风吸污车-纯电动环卫车-污水净化车-应急特勤保障车-程力专汽厂家-程力专用汽车股份有限公司销售二十一分公司 | 深圳网站建设-高端企业网站开发-定制网页设计制作公司 | 润东方环保空调,冷风机,厂房车间降温设备-20年深圳环保空调生产厂家 | 陕西视频监控,智能安防监控,安防系统-西安鑫安5A安防工程公司 | 大型冰雕-景区冰雕展制作公司,3D创意设计源头厂家-[赛北冰雕] | 标准件-非标紧固件-不锈钢螺栓-非标不锈钢螺丝-非标螺母厂家-三角牙锁紧自攻-南京宝宇标准件有限公司 | 电子海图系统-电梯检验系统-智慧供热系统开发-商品房预售资金监管系统 | 无水硫酸铝,硫酸铝厂家-淄博双赢新材料科技有限公司 | LOGO设计_品牌设计_VI设计 - 特创易 | 深圳离婚律师咨询「在线免费」华荣深圳婚姻律师事务所专办离婚纠纷案件 | 企业微信营销_企业微信服务商_私域流量运营_艾客SCRM官网 | 电主轴-高速精密电主轴-高速电机厂家-瑞德沃斯品牌有限公司 | 电磁辐射仪-电磁辐射检测仪-pm2.5检测仪-多功能射线检测仪-上海何亦仪器仪表有限公司 | 锤式粉碎机,医药粉碎机,锥式粉碎机-无锡市迪麦森机械制造有限公司 | 北京森语科技有限公司-模型制作专家-展览展示-沙盘模型设计制作-多媒体模型软硬件开发-三维地理信息交互沙盘 | 球磨机 选矿球磨机 棒磨机 浮选机 分级机 选矿设备厂家 | 玖容气动液压设备有限公司-气液增压缸_压力机_增压机_铆接机_增压器 |