电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

Python scrapy爬取蘇州二手房交易數(shù)據(jù)

瀏覽:5日期:2022-06-16 15:47:17
一、項(xiàng)目需求

使用Scrapy爬取鏈家網(wǎng)中蘇州市二手房交易數(shù)據(jù)并保存于CSV文件中要求:房屋面積、總價(jià)和單價(jià)只需要具體的數(shù)字,不需要單位名稱(chēng)。刪除字段不全的房屋數(shù)據(jù),如有的房屋朝向會(huì)顯示“暫無(wú)數(shù)據(jù)”,應(yīng)該剔除。保存到CSV文件中的數(shù)據(jù),字段要按照如下順序排列:房屋名稱(chēng),房屋戶(hù)型,建筑面積,房屋朝向,裝修情況,有無(wú)電梯,房屋總價(jià),房屋單價(jià),房屋產(chǎn)權(quán)。

二、項(xiàng)目分析

流程圖

Python scrapy爬取蘇州二手房交易數(shù)據(jù)Python scrapy爬取蘇州二手房交易數(shù)據(jù)

Python scrapy爬取蘇州二手房交易數(shù)據(jù)

通過(guò)控制臺(tái)發(fā)現(xiàn)所有房屋信息都在一個(gè)ul中其中每一個(gè)li里存儲(chǔ)一個(gè)房屋的信息。

Python scrapy爬取蘇州二手房交易數(shù)據(jù)

找了到需要的字段,這里以房屋名稱(chēng)為例,博主用linux截圖,沒(méi)法對(duì)圖片進(jìn)行標(biāo)注,這一段就是最中間的“景山玫瑰園” 。其他字段類(lèi)似不再一一列舉。獲取了需要的數(shù)據(jù)后發(fā)現(xiàn)沒(méi)有電梯的配備情況,所以需要到詳細(xì)頁(yè)也就是點(diǎn)擊標(biāo)題后進(jìn)入的頁(yè)面,點(diǎn)擊標(biāo)題

Python scrapy爬取蘇州二手房交易數(shù)據(jù)

可以看到里面有下需要的信息。

Python scrapy爬取蘇州二手房交易數(shù)據(jù)

抓取詳細(xì)頁(yè)url

Python scrapy爬取蘇州二手房交易數(shù)據(jù)

進(jìn)行詳細(xì)頁(yè)數(shù)據(jù)分析

Python scrapy爬取蘇州二手房交易數(shù)據(jù)

找到相應(yīng)的位置,進(jìn)行抓取數(shù)據(jù)。

三、編寫(xiě)程序

創(chuàng)建項(xiàng)目,不說(shuō)了。

1.編寫(xiě)item(數(shù)據(jù)存儲(chǔ))

import scrapyclass LianjiaHomeItem(scrapy.Item): name = scrapy.Field() # 名稱(chēng) type = scrapy.Field() # 戶(hù)型 area = scrapy.Field() # 面積 direction = scrapy.Field() #朝向 fitment = scrapy.Field() # 裝修情況 elevator = scrapy.Field() # 有無(wú)電梯 total_price = scrapy.Field() # 總價(jià) unit_price = scrapy.Field() # 單價(jià)

2.編寫(xiě)spider(數(shù)據(jù)抓取)

from scrapy import Requestfrom scrapy.spiders import Spiderfrom lianjia_home.items import LianjiaHomeItemclass HomeSpider(Spider): name = 'home' current_page=1 #起始頁(yè) def start_requests(self): #初始請(qǐng)求url='https://su.lianjia.com/ershoufang/'yield Request(url=url) def parse(self, response): #解析函數(shù)list_selctor=response.xpath('//li/div[@class=’info clear’]')for one_selector in list_selctor: try:#房屋名稱(chēng)name=one_selector.xpath('//div[@class=’flood’]/div[@class=’positionInfo’]/a/text()').extract_first()#其他信息other=one_selector.xpath('//div[@class=’address’]/div[@class=’houseInfo’]/text()').extract_first()other_list=other.split('|')type=other_list[0].strip(' ')#戶(hù)型area = other_list[1].strip(' ') #面積direction=other_list[2].strip(' ') #朝向fitment=other_list[3].strip(' ') #裝修price_list=one_selector.xpath('div[@class=’priceInfo’]//span/text()')# 總價(jià)total_price=price_list[0].extract()# 單價(jià)unit_price=price_list[1].extract()item=LianjiaHomeItem()item['name']=name.strip(' ')item['type']=typeitem['area'] = areaitem['direction'] = directionitem['fitment'] = fitmentitem['total_price'] = total_priceitem['unit_price'] = unit_price #生成詳細(xì)頁(yè)url = one_selector.xpath('div[@class=’title’]/a/@href').extract_first()yield Request(url=url, meta={'item':item}, #把item作為數(shù)據(jù)v傳遞 callback=self.property_parse) #爬取詳細(xì)頁(yè) except:print('error')#獲取下一頁(yè) self.current_page+=1 if self.current_page<=100:next_url='https://su.lianjia.com/ershoufang/pg%d'%self.current_pageyield Request(url=next_url) def property_parse(self,response):#詳細(xì)頁(yè)#配備電梯elevator=response.xpath('//div[@class=’base’]/div[@class=’content’]/ul/li[last()]/text()').extract_first()item=response.meta['item']item['elevator']=elevatoryield item

3.編寫(xiě)pipelines(數(shù)據(jù)處理)

import refrom scrapy.exceptions import DropItemclass LianjiaHomePipeline:#數(shù)據(jù)的清洗 def process_item(self, item, spider):#面積item['area']=re.findall('d+.?d*',item['area'])[0] #提取數(shù)字并存儲(chǔ)#單價(jià)item['unit_price'] = re.findall('d+.?d*', item['unit_price'])[0] #提取數(shù)字并存儲(chǔ)#如果有不完全的數(shù)據(jù),則拋棄if item['direction'] =='暫無(wú)數(shù)據(jù)': raise DropItem('無(wú)數(shù)據(jù),拋棄:%s'%item)return itemclass CSVPipeline(object): file=None index=0 #csv文件行數(shù)判斷 def open_spider(self,spider): #爬蟲(chóng)開(kāi)始前,打開(kāi)csv文件self.file=open('home.csv','a',encoding='utf=8') def process_item(self, item, spider):#按要求存儲(chǔ)文件。if self.index ==0: column_name='name,type,area,direction,fitment,elevator,total_price,unit_pricen' self.file.write(column_name)#插入第一行的索引信息 self.index=1home_str=item['name']+','+item['type']+','+item['area']+','+item['direction']+','+item['fitment']+','+item['elevator']+','+item['total_price']+','+item['unit_price']+'n'self.file.write(home_str) #插入獲取的信息return item def close_soider(self,spider):#爬蟲(chóng)結(jié)束后關(guān)閉csvself.file.close()

4.編寫(xiě)settings(爬蟲(chóng)設(shè)置)

這里只寫(xiě)下需要修改的地方

USER_AGENT = ’Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36’#為裝成瀏覽器ROBOTSTXT_OBEY = False #不遵循robots協(xié)議ITEM_PIPELINES = { ’lianjia_home.pipelines.LianjiaHomePipeline’: 300, #先進(jìn)行數(shù)字提取 ’lianjia_home.pipelines.CSVPipeline’: 400 #在進(jìn)行數(shù)據(jù)的儲(chǔ)存 #執(zhí)行順序由后邊的數(shù)字決定}

這些內(nèi)容在settings有些是默認(rèn)關(guān)閉的,把用來(lái)注釋的 # 去掉即可開(kāi)啟。

5.編寫(xiě)start(代替命令行)

from scrapy import cmdlinecmdline.execute('scrapy crawl home' .split())

附上兩張結(jié)果圖。

Python scrapy爬取蘇州二手房交易數(shù)據(jù)

Python scrapy爬取蘇州二手房交易數(shù)據(jù)

總結(jié)

此次項(xiàng)目新增了簡(jiǎn)單的數(shù)據(jù)清洗,在整體的數(shù)據(jù)抓取上沒(méi)有增加新的難度。

到此這篇關(guān)于Python scrapy爬取蘇州二手房交易數(shù)據(jù)的文章就介紹到這了,更多相關(guān)scrapy爬取二手房交易數(shù)據(jù)內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 电动葫芦|环链电动葫芦-北京凌鹰名优起重葫芦 | 压力控制器,差压控制器,温度控制器,防爆压力控制器,防爆温度控制器,防爆差压控制器-常州天利智能控制股份有限公司 | 工业车间焊接-整体|集中除尘设备-激光|等离子切割机配套除尘-粉尘烟尘净化治理厂家-山东美蓝环保科技有限公司 | 安徽控制器-合肥船用空调控制器-合肥家电控制器-合肥迅驰电子厂 安徽净化板_合肥岩棉板厂家_玻镁板厂家_安徽科艺美洁净科技有限公司 | 高压互感器,电流互感器,电压互感器-上海鄂互电气科技有限公司 | 伶俐嫂培训学校_月嫂培训班在哪里报名学费是多少_月嫂免费政府培训中心推荐 | 广州展览制作|展台制作工厂|展览设计制作|展览展示制作|搭建制作公司 | 上海防爆真空干燥箱-上海防爆冷库-上海防爆冷柜?-上海浦下防爆设备厂家? | 电缆桥架生产厂家_槽式/梯式_热镀锌线槽_广东东莞雷正电气 | 防勒索软件_数据防泄密_Trellix(原McAfee)核心代理商_Trellix(原Fireeye)售后-广州文智信息科技有限公司 | 青州开防盗门锁-配汽车芯片钥匙-保险箱钥匙-吉祥修锁店 | 【ph计】|在线ph计|工业ph计|ph计厂家|ph计价格|酸度计生产厂家_武汉吉尔德科技有限公司 | 优秀的临床医学知识库,临床知识库,医疗知识库,满足电子病历四级要求,免费试用 | 消电检公司,消电检价格,北京消电检报告-北京设施检测公司-亿杰(北京)消防工程有限公司 | 新车测评网_网罗汽车评测资讯_汽车评测门户报道| 石家庄救护车出租_重症转院_跨省跨境医疗转送_活动赛事医疗保障_康复出院_放弃治疗_腾康26年医疗护送转诊团队 | 云南成考网_云南成人高考报名网 粤丰硕水性环氧地坪漆-防静电自流平厂家-环保地坪涂料代理 | 甲级防雷检测仪-乙级防雷检测仪厂家-上海胜绪电气有限公司 | 圈酒招商网【jiushuitv.com】_酒水招商_代理_加盟平台 | 选宝石船-陆地水上开采「精选」色选机械设备-青州冠诚重工机械有限公司 | 上海刑事律师|刑事辩护律师|专业刑事犯罪辩护律师免费咨询-[尤辰荣]金牌上海刑事律师团队 | 环氧乙烷灭菌器_压力蒸汽灭菌器_低温等离子过氧化氢灭菌器 _低温蒸汽甲醛灭菌器_清洗工作站_医用干燥柜_灭菌耗材-环氧乙烷灭菌器_脉动真空压力蒸汽灭菌器_低温等离子灭菌设备_河南省三强医疗器械有限责任公司 | 上海电子秤厂家,电子秤厂家价格,上海吊秤厂家,吊秤供应价格-上海佳宜电子科技有限公司 | 金联宇电缆|广东金联宇电缆厂家_广东金联宇电缆实业有限公司 | EFM 022静电场测试仪-套帽式风量计-静电平板监测器-上海民仪电子有限公司 | 环球周刊网| 精准猎取科技资讯,高效阅读科技新闻_科技猎 | 517瓜水果特产网|一个专注特产好物的网站 | 污水提升器,污水提升泵,地下室排水,增压泵,雨水泵,智能供排水控制器-上海智流泵业有限公司 | 食药成分检测_调料配方还原_洗涤剂化学成分分析_饲料_百检信息科技有限公司 | 优秀的临床医学知识库,临床知识库,医疗知识库,满足电子病历四级要求,免费试用 | SMC-SMC电磁阀-日本SMC气缸-SMC气动元件展示网 | 沈阳缠绕包装机厂家直销-沈阳海鹞托盘缠绕包装机价格 | 袋式过滤器,自清洗过滤器,保安过滤器,篮式过滤器,气体过滤器,全自动过滤器,反冲洗过滤器,管道过滤器,无锡驰业环保科技有限公司 | 并网柜,汇流箱,电控设备,中高低压开关柜,电气电力成套设备,PLC控制设备订制厂家,江苏昌伟业新能源科技有限公司 | 岩棉切条机厂家_玻璃棉裁条机_水泥基保温板设备-廊坊鹏恒机械 | 大学食堂装修设计_公司餐厅效果图_工厂食堂改造_迈普装饰 | 祝融环境-地源热泵多恒系统高新技术企业,舒适生活环境缔造者! | 贴片电感_贴片功率电感_贴片绕线电感_深圳市百斯特电子有限公司 贴片电容代理-三星电容-村田电容-风华电容-国巨电容-深圳市昂洋科技有限公司 | 长沙中央空调维修,中央空调清洗维保,空气能热水工程,价格,公司就找维小保-湖南维小保环保科技有限公司 | 膏剂灌装旋盖机-眼药水灌装生产线-西林瓶粉剂分装机-南通博琅机械科技 |