电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

python爬蟲數據保存到mongoDB的實例方法

瀏覽:100日期:2022-07-16 09:35:05

爬蟲數據保存到mongoDB的方法:

import pymongo# 首先需要注意,mongodb數據庫存儲的類型是以鍵值對類型進行存儲,所以在存儲以前一定要進行數據篩選def save_mongo(傳入的數據):# 創建連接 因為使用的為本機數據庫,所以IP寫localhost即可,端口號為27017client = pymongo.MongoClient(’localhost’,27017)# 連接數據庫(這里注意一點,mongo數據庫有一個優點,就是當自己連接的數據庫和表都沒有的時候,會自動創建,所以不用擔心寫錯或者沒有表)db = client[’自己創建數據庫名’]# 連接表collection = db[’自己的表名(mongo中叫做集合)’]# 插入到數據庫中(這里使用dict進行強制轉換,是為了保證數據為字典格式)collection.insert(dict(傳入的數據))

mongoDB介紹:

它的特點是高性能、易部署、易使用,存儲數據非常方便。主要功能特性有:

*面向集合存儲,易存儲對象類型的數據。

*模式自由。

*支持動態查詢。

*支持完全索引,包含內部對象。

*支持查詢。

*支持復制和故障恢復。

*使用高效的二進制數據存儲,包括大型對象(如視頻等)。

*自動處理碎片,以支持云計算層次的擴展性。

*支持 Golang,RUBY,PYTHON,JAVA,C++,PHP,C#等多種語言。

*文件存儲格式為BSON(一種JSON的擴展)。

*可通過網絡訪問。

實例擴展:

# coding=utf-8import reimport requestsfrom lxml import etreeimport pymongoimport sysreload(sys)sys.setdefaultencoding(’utf-8’)def getpages(url, total): nowpage = int(re.search(’(d+)’, url, re.S).group(1)) urls = [] for i in range(nowpage, total + 1): link = re.sub(’(d+)’, ’%s’ % i, url, re.S) urls.append(link) return urlsdef spider(url): html = requests.get(url) selector = etree.HTML(html.text) book_name = selector.xpath(’//*[@id='container']/ul/li//div/div[2]/a/text()’) book_author = selector.xpath(’//*[@id='container']/ul/li//div/div[2]/div/a/text()’) saveinfo(book_name, book_author)def saveinfo(book_name, book_author): connection = pymongo.MongoClient() BookDB = connection.BookDB BookTable = BookDB.books length = len(book_name) for i in range(0, length): books = {} books[’name’] = str(book_name[i]).replace(’n’,’’) books[’author’] = str(book_author[i]).replace(’n’,’’) BookTable.insert_one(books)if __name__ == ’__main__’: url = ’http://readfree.me/shuffle/?page=1’ urls = getpages(url,3) for each in urls: spider(each)

以上就是python爬蟲數據保存到mongoDB的實例方法的詳細內容,更多關于爬蟲數據如何保存到mongoDB的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 石家庄救护车出租_重症转院_跨省跨境医疗转送_活动赛事医疗保障_康复出院_放弃治疗_腾康26年医疗护送转诊团队 | 氢氧化钙设备_厂家-淄博工贸有限公司 | 首页_中夏易经起名网| 生鲜配送系统-蔬菜食材配送管理系统-连锁餐饮订货配送软件-挪挪生鲜供应链管理软件 | 采暖炉_取暖炉_生物质颗粒锅炉_颗粒壁炉_厂家加盟批发_烟台蓝澳采暖设备有限公司 | 建大仁科-温湿度变送器|温湿度传感器|温湿度记录仪_厂家_价格-山东仁科 | 浙江华锤电器有限公司_地磅称重设备_防作弊地磅_浙江地磅售后维修_无人值守扫码过磅系统_浙江源头地磅厂家_浙江工厂直营地磅 | 苏州注册公司_苏州代理记账_苏州工商注册_苏州代办公司-恒佳财税 | 快速卷帘门_硬质快速卷帘门-西朗门业 | 螺钉式热电偶_便携式温度传感器_压簧式热电偶|无锡联泰仪表有限公司|首页 | 鄂泉泵业官网|(杭州、上海、全国畅销)大流量防汛排涝泵-LW立式排污泵 | 铸铝门厂家,别墅大门庭院大门,别墅铸铝门铜门[十大品牌厂家]军强门业 | 厦门ISO认证|厦门ISO9001认证|厦门ISO14001认证|厦门ISO45001认证-艾索咨询专注ISO认证行业 | 电池挤压试验机-自行车喷淋-车辆碾压试验装置-深圳德迈盛测控设备有限公司 | 废气处理_废气处理设备_工业废气处理_江苏龙泰环保设备制造有限公司 | 船用锚链|专业锚链生产厂家|安徽亚太锚链制造有限公司 | 直线模组_滚珠丝杆滑台_模组滑台厂家_万里疆科技 | 百度爱采购运营研究社社群-店铺托管-爱采购代运营-良言多米网络公司 | 免费B2B信息推广发布平台 - 推发网| 博医通医疗器械互联网供应链服务平台_博医通 | 武汉高低温试验机-现货恒温恒湿试验箱-高低温湿热交变箱价格-湖北高天试验设备 | 篮球架_乒乓球台_足球门_校园_竞技体育器材_厂家_价格-沧州浩然体育器材有限公司 | 选矿设备,选矿生产线,选矿工艺,选矿技术-昆明昆重矿山机械 | 浙江建筑资质代办_二级房建_市政_电力_安许_劳务资质办理公司 | 模具钢_高速钢_不锈钢-万利钢金属材料 | 钢化玻璃膜|手机钢化膜|钢化膜厂家|手机保护膜-【东莞市大象电子科技有限公司】 | 滚塑PE壳体-PE塑料浮球-警示PE浮筒-宁波君益塑业有限公司 | GAST/BRIWATEC/CINCINNATI/KARL-KLEIN/ZIEHL-ABEGG风机|亚喜科技 | 海鲜池-专注海鲜鱼缸、移动海鲜缸、饭店鱼缸设计定做-日晟水族厂家 | 重庆小面培训_重庆小面技术培训学习班哪家好【终身免费复学】 | 南京蜂窝纸箱_南京木托盘_南京纸托盘-南京博恒包装有限公司 | 哈尔滨治「失眠/抑郁/焦虑症/精神心理」专科医院排行榜-京科脑康免费咨询 一对一诊疗 | 阴离子_阳离子聚丙烯酰胺厂家_聚合氯化铝价格_水处理絮凝剂_巩义市江源净水材料有限公司 | 合肥仿石砖_合肥pc砖厂家_合肥PC仿石砖_安徽旭坤建材有限公司 | 压缩空气检测_气体_水质找上海京工-服务专业、价格合理 | 黄石东方妇产医院_黄石妇科医院哪家好_黄石无痛人流医院 | 机床导轨_导轨板_滚轮导轨-上海旻佑精密机械有限公司 | 广州冷却塔维修厂家_冷却塔修理_凉水塔风机电机填料抢修-广东康明节能空调有限公司 | 车间除尘设备,VOCs废气处理,工业涂装流水线,伸缩式喷漆房,自动喷砂房,沸石转轮浓缩吸附,机器人喷粉线-山东创杰智慧 | 谷歌关键词优化-外贸网站优化-Google SEO小语种推广-思亿欧外贸快车 | 不干胶标签-不干胶贴纸-不干胶标签定制-不干胶标签印刷厂-弗雷曼纸业(苏州)有限公司 |