电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

Python extract及contains方法代碼實例

瀏覽:48日期:2022-07-11 14:31:03

一,extract方法的使用

extract函數主要是對于數據進行提取。場景一般對于DataFrame中的一列中的數據進行提取的場合比較多。

例如一列中包含了很長的字段,我們希望在這些字段中提取出我們想要的字段時,就可以通過extract方法進行數據的提取了。

好了,廢話不多說直接上代碼。

數據源

序號 姓名 服務卡卡號 消費地點 消費時間 理賠金額(元) 交易明細 數量1 張三 8100001 我愛花錢連鎖有限公司 2020/3/1 8:02 605 珍牡腎骨膠囊(珍泉)0.63g*48粒*3盒 12 張三 8100001 我愛花錢連鎖有限公司 2020/3/1 8:02 1225 桂龍藥膏(葛洪)202g*6瓶 13 張三 8100001 我愛花錢連鎖有限公司 2020/3/2 10:58 27 膽寧片(上藥牌)0.36g*60片/瓶 14 李四 8100002 我愛花錢連鎖有限公司 2020/3/1 9:20 30 阿莫西林膠囊0.5g*24粒/盒 35 李四 8100002 我愛花錢連鎖有限公司 2020/3/1 9:20 5 氨咖黃敏膠囊(康麥爾)12粒/盒 16 李四 8100002 我愛花錢連鎖有限公司 2020/3/4 14:26 51 阿歸養血口服液(中聯)10ml*24支/盒 17 李四 8100002 我愛花錢連鎖有限公司 2020/3/4 14:26 5 氨咖黃敏膠囊(康麥爾)12粒/盒 18 李四 8100002 我愛花錢連鎖有限公司 2020/3/9 17:56 28 膽寧片(上藥牌)0.36g*60片/瓶 19 李四 8100002 我愛花錢連鎖有限公司 2020/3/19 11:19 56 柴石退熱顆粒(德眾)8g*6袋/盒 110 李四 8100002 我愛花錢連鎖有限公司 2020/3/21 16:04 68 醒脾膠囊0.3g*30粒 111 李四 8100002 我愛花錢連鎖有限公司 2020/3/31 10:00 60 小敗毒膏(東方博愛)10g*8袋 112 王五 8100003 我愛花錢連鎖有限公司 2020/3/1 10:43 114 棗仁安神液10ml*7支 113 王五 8100003 我愛花錢連鎖有限公司 2020/3/17 10:40 118 益氣維血顆粒(紅珊瑚)10g*15袋 114 王五 8100003 我愛花錢連鎖有限公司 2020/3/21 8:19 615 比卡魯胺片(雙益安)50mg*14s*2板 115 王五 8100003 我愛花錢連鎖有限公司 2020/3/1 10:56 120 消痛貼膏(奇正)1.2g:2.5ml*10貼/盒 116 王五 8100003 我愛花錢連鎖有限公司 2020/3/1 12:56 198 復方首烏地黃丸(修正)3g*10袋*3小盒 117 王五 8100003 我愛花錢連鎖有限公司 2020/3/1 12:56 28 膽寧片(上藥牌)0.36g*60片/瓶 118 王五 8100003 我愛花錢連鎖有限公司 2020/3/1 13:53 256 河車大造丸(同仁堂)9g*10丸/盒 119 趙六 8100004 我愛花錢連鎖有限公司 2020/3/1 14:52 7 復方氨酚烷胺片(新迪)12片/盒 120 趙六 8100004 我愛花錢連鎖有限公司 2020/3/1 14:52 149 法莫替丁分散片20mg*36片/盒 121 趙六 8100004 我愛花錢連鎖有限公司 2020/3/9 19:56 100 朱砂安神丸6g*10袋 122 趙六 8100004 我愛花錢連鎖有限公司 2020/3/9 19:56 23 清熱消炎寧片0.4g*24片/盒 123 趙六 8100004 我愛花錢連鎖有限公司 2020/3/1 15:16 30 多酶片100s/盒 124 趙六 8100004 我愛花錢連鎖有限公司 2020/3/1 15:16 1139 補肺丸(養無極)9g*10丸*16板 125 趙六 8100004 我愛花錢連鎖有限公司 2020/3/5 17:25 170 補腎益壽片(恒修堂)0.4g*100片 126 趙六 8100004 我愛花錢連鎖有限公司 2020/3/5 17:25 800 益安寧丸72丸*2瓶(每18丸重3.1g) 127 趙六 8100004 我愛花錢連鎖有限公司 2020/3/9 17:39 800 益安寧丸72丸*2瓶(每18丸重3.1g) 128 趙六 8100004 我愛花錢連鎖有限公司 2020/3/11 17:30 480 七十味珍珠丸(甘露)1g*6s 129 趙六 8100004 我愛花錢連鎖有限公司 2020/3/22 16:58 1154 雙參龍膠囊45盒裝0.3g*24s*45盒 130 楊七 8100005 我愛花錢連鎖有限公司 2020/3/1 16:54 100 朱砂安神丸6g*10袋 131 楊七 8100005 我愛花錢連鎖有限公司 2020/3/12 20:53 14 消痔靈片0.3g*24片 132 楊七 8100005 我愛花錢連鎖有限公司 2020/3/18 10:04 402 回元堂 固本回元口服液 20ml*24瓶20ml*24瓶 133 楊七 8100005 我愛花錢連鎖有限公司 2020/3/21 11:18 847 伏立康唑分散片(復銳)0.2g*6s 134 楊七 8100005 我愛花錢連鎖有限公司 2020/3/1 17:36 30 多酶片100s/盒 1

代碼

這里是通過jupyter來分段顯示的。第一次看我文章的小伙伴如果不了解jupyter可以在復制下面代碼的時候把所有輸出改成通過print()的方式輸出

#%%import pandas as pdimport re#需求: # 1. 把交易明細分成明細跟規格兩列并刪除交易明細這列# 2. 明細中把例如珍牡腎骨膠囊(珍泉)的作為明細,0.63g*48粒*3盒作為規格拆分提取#讀取源數據df = pd.read_excel('./datas/extract案例演示數據.xlsx')#%%#提取交易明細這一列get_column = df['交易明細']#通過正則提取數據(?P<名字>)為固定寫法給數據加新列名df01 = get_column.str.extract(R'(?P<明細>[u4E00-u9FA5]+(*[u4E00-u9FA5]+)*)')df02 = get_column.str.extract(R'(?P<規格>(?:0.|w*)w**w*[u4e00-u9fa5](?:S+|))')#%%#通過join函數合并2個DataFramejoin_data = df01.join(df02)join_data#%%#刪除原有交易明細數據del df['交易明細']df#%%#二次合并,刪除后交易明細的dataframe合并拆分后數據的dataframetwo_join = df.join(join_data)#%%#因為合并后存在排序問題,列名為漢字所以我通過loc方法進行的列名指定排序#loc方法這里不再講解,請參照loc,iloc篇章result = two_join.loc[:,['序號','姓名','消費地點','消費時間', '理賠金額(元)','明細','規格','數量']]result#%%#輸出到Excelresult.to_excel('./datas/extract_結果.xlsx',index=False)print('文件寫入完畢!!')#%%

結果

Python extract及contains方法代碼實例

二,contains方法的使用

contains對比extract而言更多的不是提取,而是一種篩選。有種想python中的in的關系。

只要查詢的DataFrame的某列或者某行包含查詢字符串的部分字段就可以匹配出所有匹配到的數據。當然可以直接傳字符串也可以通過正則來進行篩選。

數據源

學員編號 學生姓名 學生年齡 手機號碼 E-mail地址 家庭住址101 劉鵬 18 13599713364 www.zhangsan@qq.com 江蘇省蘇州市工業園區津梁街102 李四 20 15923796671 www.lisi.163.com 北京市朝陽區西北路石井街22幢103 趙五 17 18655301183 www.zhaofive.yahoo.com 山東省煙臺市芝罘區北大街55號104 tony 30 15877563321 www.tonyliu.ibm.com 江蘇省蘇州市姑蘇區山塘街177號105 馬云 47 15977560013 www.mayun.alibaba.com 浙江省杭州市西湖路110號1888106 Jack 20 13677569901 www.jack123@qq.com 廣東省深圳市南山區西麗1592幢12107 tom 19 18622349971 www.tom456@qq.com 山東省青島市人民路1234幢

代碼:這里通過jupyter分段來顯示結果

#%%import pandas as pdimport redf = pd.read_excel('./datas/Person_info1.xlsx')#%%#傳入正則匹配只要包含的數據df.loc[df['家庭住址'].str.contains(r'd')]

結果

Python extract及contains方法代碼實例

通過字符串篩選數據

#%%#傳入字符串,contains屬于模糊查找.只要包含就篩選df.loc[df['家庭住址'].str.contains(r'津梁街')]#%%df.loc[df['家庭住址'].str.contains('江蘇省')]

結果

Python extract及contains方法代碼實例

另外contains可以二次多次運用。因為涉及到保密數據不方便展示復雜數據。大家可以先嘗試按照上面的簡單數據,先過濾出家庭地址,再過濾出來年齡。

當然也可以通過loc中的掩碼來過濾。方法很多希望靈活應用。

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 珠海网站建设_响应网站建设_珠海建站公司_珠海网站设计与制作_珠海网讯互联 | 蜜蜂职场文库_职场求职面试实用的范文资料大全| 一体化净水器_一体化净水设备_一体化水处理设备-江苏旭浩鑫环保科技有限公司 | 净化车间_洁净厂房_净化公司_净化厂房_无尘室工程_洁净工程装修|改造|施工-深圳净化公司 | 信阳网站建设专家-信阳时代网联-【信阳网站建设百度推广优质服务提供商】信阳网站建设|信阳网络公司|信阳网络营销推广 | 黄石东方妇产医院_黄石妇科医院哪家好_黄石无痛人流医院 | 行星搅拌机,双行星搅拌机,动力混合机,无锡米克斯行星搅拌机生产厂家 | 高空重型升降平台_高空液压举升平台_高空作业平台_移动式升降机-河南华鹰机械设备有限公司 | 滤芯,过滤器,滤油机,贺德克滤芯,精密滤芯_新乡市宇清流体净化技术有限公司 | 章丘丰源机械有限公司 - 三叶罗茨风机,罗茨鼓风机,罗茨风机 | (中山|佛山|江门)环氧地坪漆,停车场地板漆,车库地板漆,聚氨酯地板漆-中山永旺地坪漆厂家 | 引领中高档酒店加盟_含舍·美素酒店品牌官网 | 高通量组织研磨仪-多样品组织研磨仪-全自动组织研磨仪-研磨者科技(广州)有限公司 | 安徽净化工程设计_无尘净化车间工程_合肥净化实验室_安徽创世环境科技有限公司 | 房车价格_依维柯/大通/东风御风/福特全顺/江铃图片_云梯搬家车厂家-程力专用汽车股份有限公司 | 山东螺杆空压机,烟台空压机,烟台开山空压机-烟台开山机电设备有限公司 | 交流伺服电机|直流伺服|伺服驱动器|伺服电机-深圳市华科星电气有限公司 | 最新电影-好看的电视剧大全-朝夕电影网 | 粉碎机_塑料粉碎机_塑料破碎机厂家-星标机械 | 丁基胶边来料加工,医用活塞边角料加工,异戊二烯橡胶边来料加工-河北盛唐橡胶制品有限公司 | 紧急泄压人孔_防爆阻火器_阻火呼吸阀[河北宏泽石化] | 家德利门业,家居安全门,别墅大门 - 安徽家德利门业有限公司 | 钢板仓,大型钢板仓,钢板库,大型钢板库,粉煤灰钢板仓,螺旋钢板仓,螺旋卷板仓,骨料钢板仓 | 作文导航网_作文之家_满分作文_优秀作文_作文大全_作文素材_最新作文分享发布平台 | 精雕机-火花机-精雕机 cnc-高速精雕机-电火花机-广东鼎拓机械科技有限公司 | 专业深孔加工_东莞深孔钻加工_东莞深孔钻_东莞深孔加工_模具深孔钻加工厂-东莞市超耀实业有限公司 | 仓储货架_南京货架_钢制托盘_仓储笼_隔离网_环球零件盒_诺力液压车_货架-南京一品仓储设备制造公司 | 耐高温风管_耐高温软管_食品级软管_吸尘管_钢丝软管_卫生级软管_塑料波纹管-东莞市鑫翔宇软管有限公司 | 报警器_家用防盗报警器_烟雾报警器_燃气报警器_防盗报警系统厂家-深圳市刻锐智能科技有限公司 | 逗网红-抖音网红-快手网红-各大平台网红物品导航 | 加气混凝土砌块设备,轻质砖设备,蒸养砖设备,新型墙体设备-河南省杜甫机械制造有限公司 | 中药超微粉碎机(中药细胞级微粉碎)-百科 | 智能化的检漏仪_气密性测试仪_流量测试仪_流阻阻力测试仪_呼吸管快速检漏仪_连接器防水测试仪_车载镜头测试仪_奥图自动化科技 | 赛尔特智能移动阳光房-阳光房厂家-赛尔特建筑科技(广东)有限公司 | 首页_中夏易经起名网 | 防爆电机生产厂家,YBK3电动机,YBX3系列防爆电机,YBX4节防爆电机--河南省南洋防爆电机有限公司 | 楼承板-钢筋楼承板-闭口楼承板-无锡优贝斯楼承板厂 | 网站建设-高端品牌网站设计制作一站式定制_杭州APP/微信小程序开发运营-鼎易科技 | 上海噪音治理公司-专业隔音降噪公司-中广通环保 | 广东风淋室_广东风淋室厂家_广东风淋室价格_广州开源_传递窗_FFU-广州开源净化科技有限公司 | 深圳富泰鑫五金_五金冲压件加工_五金配件加工_精密零件加工厂 |