电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

Python爬取數據并實現可視化代碼解析

瀏覽:2日期:2022-07-14 11:16:22

這次主要是爬了京東上一雙鞋的相關評論:將數據保存到excel中并可視化展示相應的信息

主要的python代碼如下:

文件1

#將excel中的數據進行讀取分析import openpyxlimport matplotlib.pyplot as pit #數據統計用的wk=openpyxl.load_workbook(’銷售數據.xlsx’)sheet=wk.active #獲取活動表#獲取最大行數和最大列數rows=sheet.max_rowcols=sheet.max_columnlst=[] #用于存儲鞋子碼數for i in range (2,rows+1): size=sheet.cell(i,3).value lst.append(size)#以上已經將excel中的數據讀取完畢#一下操作就你行統計不同碼數的數量’’’python中有一個數據結構叫做字典,使用鞋碼做key,使用銷售數量做value’’’dic_size={}for item in lst: dic_size[item]=0for item in lst: for size in dic_size: #遍歷字典 if item==size: dic_size[size]+=1 breakfor item in dic_size: print(item,dic_size[item])#弄成百分比的形式lst_total=[]for item in dic_size: lst_total.append([item,dic_size[item],dic_size[item]/160*1.0])#接下來進行數據的可視化(進行畫餅操作)labels=[item[0] +’碼’for item in lst_total] #使用列表生成式,得到餅圖的標簽fraces=[item[2] for item in lst_total] #餅圖中的數據源pit.rcParams[’font.family’]=[’SimHei’] #單獨的表格亂碼的處理方式pit.pie(x=fraces,labels=labels,autopct=’%1.1f%%’)#pit.show()進行結果的圖片的展示pit.savefig(’圖.jpg’)

文件2

#所涉及到的是requests和openpyxl數據的存儲和數據的清洗以及統計然后就是matplotlib進行數據的可視化#靜態數據點擊element中點擊發現在html中,服務器已經渲染好的內容,直接發給瀏覽器,瀏覽器解釋執行,#動態數據:如果點擊下一頁。我們的地址欄(加后綴但是前面的地址欄沒變也算)(也可以點擊2和3頁)沒有發生任何變化說明是動態數據,說明我們的數據是后來被渲染到html中的。他的數據根本不在html中的。#動態查看network然后用的url是network里面的headers#安裝第三方模塊輸入cmd之后pip install 加名字例如requestsimport requestsimport reimport timeimport jsonimport openpyxl #用于操作 excel文件的headers = {’user-agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36’}#創建頭部信息def get_comments(productId,page): url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId={0}&score=0&sortType=5&page={1}&pageSize=10&isShadowSku=0&fold=1'.format(productId,page) resp = requests.get(url, headers=headers) s=resp.text.replace(’fetchJSON_comment98(’,’’)#進行替換操作。獲取到所需要的相應的json,也就是去掉前后沒用的東西 s=s.replace(’);’,’’) json_data=json.loads(s)#進行數據json轉換 return json_data#獲取最大頁數def get_max_page(productId): dis_data=get_comments(productId,0)#調用剛才寫的函數進行向服務器的訪問請求,獲取字典數據 return dis_data[’maxPage’]#獲取他的最大頁數。每一頁都有最大頁數#進行數據提取def get_info(productId): max_page=get_max_page(productId) lst=[]#用于存儲提取到的商品數據 for page in range(1,max_page+1): #獲取沒頁的商品評論 comments=get_comments(productId,page) comm_list=comments[’comments’]#根據comnents獲取到評論的列表(每頁有10條評論) #遍歷評論列表,獲取其中的相應的數據 for item in comm_list: #每條評論分別是一字典。在繼續通過key來獲取值 content=item[’content’] color=item[’productColor’] size=item[’productSize’] lst.append([content,color,size])#將每條評論添加到列表當中 time.sleep(3)#防止被京東封ip進行一個時間延遲。防止訪問次數太頻繁 save(lst)def save(lst): #把爬取到的數據進行存儲,保存到excel中 wk=openpyxl.Workbook()#用于創建工作簿對象 sheet=wk.active #獲取活動表(一個工作簿有三個表) #遍歷列表將數據添加到excel中。列表中的一條數據在表中是一行 biaotou=’評論’,’顏色’,’大小’ sheet.append(biaotou) for item in lst: sheet.append(item) #將excel保存到磁盤上 wk.save(’銷售數據.xlsx’)if __name__==’__main__’: productId=’66749071789’ get_info(productId) print('ok')

實現的效果如下:

Python爬取數據并實現可視化代碼解析

Python爬取數據并實現可視化代碼解析

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: (中山|佛山|江门)环氧地坪漆,停车场地板漆,车库地板漆,聚氨酯地板漆-中山永旺地坪漆厂家 | 定时排水阀/排气阀-仪表三通旋塞阀-直角式脉冲电磁阀-永嘉良科阀门有限公司 | 酸度计_PH计_特斯拉计-西安云仪| 锯边机,自动锯边机,双面涂胶机-建业顺达机械有限公司 | 安全,主动,被动,柔性,山体滑坡,sns,钢丝绳,边坡,防护网,护栏网,围栏,栏杆,栅栏,厂家 - 护栏网防护网生产厂家 | 彼得逊采泥器-定深式采泥器-电动土壤采样器-土壤样品风干机-常州索奥仪器制造有限公司 | 无菌实验室规划装修设计-一体化实验室承包-北京洁净净化工程建设施工-北京航天科恩实验室装备工程技术有限公司 | 2025世界机器人大会_IC China_半导体展_集成电路博览会_智能制造展览网 | 南京种植牙医院【官方挂号】_南京治疗种植牙医院那个好_南京看种植牙哪里好_南京茀莱堡口腔医院 尼龙PA610树脂,尼龙PA612树脂,尼龙PA1010树脂,透明尼龙-谷骐科技【官网】 | 不锈钢列管式冷凝器,换热器厂家-无锡飞尔诺环境工程有限公司 | 广州企亚 - 数码直喷、白墨印花、源头厂家、透气无手感方案服务商! | 哈希余氯测定仪,分光光度计,ph在线监测仪,浊度测定仪,试剂-上海京灿精密机械有限公司 | 元拓建材集团官方网站| 扒渣机厂家_扒渣机价格_矿用扒渣机_铣挖机_撬毛台车_襄阳永力通扒渣机公司 | 产业规划_产业园区规划-产业投资选址及规划招商托管一体化服务商-中机院产业园区规划网 | 蜘蛛车-登高车-高空作业平台-高空作业车-曲臂剪叉式升降机租赁-重庆海克斯公司 | 粉末包装机,拆包机厂家,价格-上海强牛包装机械设备有限公司 | 化妆品加工厂-化妆品加工-化妆品代加工-面膜加工-广东欧泉生化科技有限公司 | 北京律师事务所_房屋拆迁律师_24小时免费法律咨询_云合专业律师网 | 广东高华家具-公寓床|学生宿舍双层铁床厂家【质保十年】 | 纯化水设备-纯水设备-超纯水设备-[大鹏水处理]纯水设备一站式服务商-东莞市大鹏水处理科技有限公司 | 臻知网大型互动问答社区-你的问题将在这里得到解答!-无锡据风网络科技有限公司 | 红酒招商加盟-葡萄酒加盟-进口红酒代理-青岛枞木酒业有限公司 | 南京精锋制刀有限公司-纵剪机刀片_滚剪机刀片_合金刀片厂家 | 坏男孩影院-提供最新电影_动漫_综艺_电视剧_迅雷免费电影最新观看 | 上海阳光泵业制造有限公司 -【官方网站】 | 短信营销平台_短信群发平台_106短信发送平台-河南路尚 | 加中寰球移民官网-美国移民公司,移民机构,移民中介,移民咨询,投资移民 | 船用锚链|专业锚链生产厂家|安徽亚太锚链制造有限公司 | 新材料分散-高速均质搅拌机-超声波分散混合-上海化烁智能设备有限公司 | 杭州顺源过滤机械有限公司官网-压滤机_板框压滤机_厢式隔膜压滤机厂家 | 苗木价格-苗木批发-沭阳苗木基地-沭阳花木-长之鸿园林苗木场 | 寮步纸箱厂_东莞纸箱厂 _东莞纸箱加工厂-东莞市寮步恒辉纸制品厂 | 济南保安公司加盟挂靠-亮剑国际安保服务集团总部-山东保安公司|济南保安培训学校 | 纯水电导率测定仪-万用气体检测仪-低钠测定仪-米沃奇科技(北京)有限公司www.milwaukeeinst.cn 锂辉石检测仪器,水泥成分快速分析仪-湘潭宇科分析仪器有限公司 手术室净化装修-手术室净化工程公司-华锐手术室净化厂家 | 新密高铝耐火砖,轻质保温砖价格,浇注料厂家直销-郑州荣盛窑炉耐火材料有限公司 | 电动打包机_气动打包机_钢带捆扎机_废纸打包机_手动捆扎机 | 冷却塔厂家_冷却塔维修_冷却塔改造_凉水塔配件填料公司- 广东康明节能空调有限公司 | 发光字|标识设计|标牌制作|精神堡垒 - 江苏苏通广告有限公司 | 浙江筋膜枪-按摩仪厂家-制造商-肩颈按摩仪哪家好-温州市合喜电子科技有限公司 | 涡街流量计_LUGB智能管道式高温防爆蒸汽温压补偿计量表-江苏凯铭仪表有限公司 |