电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術(shù)文章
文章詳情頁

python 利用panda 實現(xiàn)列聯(lián)表(交叉表)

瀏覽:105日期:2022-06-28 10:38:54

交叉表(cross-tabulation,簡稱crosstab)是⼀種⽤于計算分組頻率的特殊透視表。

語法詳解:

pd.crosstab(index, # 分組依據(jù) columns, # 列 values=None, # 聚合計算的值 rownames=None, # 列名稱 colnames=None, # 行名稱 aggfunc=None, # 聚合函數(shù) margins=False, # 總計行/列 dropna=True, # 是否刪除缺失值 normalize=False # )1 crosstab() 實例11.1 讀取數(shù)據(jù)

import osimport numpy as npimport pandas as pdfile_name = os.path.join(path, ’Excel_test.xls’)df = pd.read_excel(io=file_name, # 工作簿路徑 sheetname=’透視表’, # 工作表名稱 skiprows=1, # 要忽略的行數(shù) parse_cols=’A:D’ # 讀入的列 )df

python 利用panda 實現(xiàn)列聯(lián)表(交叉表)

1.2 pd.crosstab() 默認生成以行和列分類的頻數(shù)表

pd.crosstab(df[’客戶名稱’], df[’產(chǎn)品類別’])

python 利用panda 實現(xiàn)列聯(lián)表(交叉表)

1.3 設(shè)置跟多參數(shù)實現(xiàn)分類匯總

pd.crosstab(index=df[’客戶名稱’], columns=df[’產(chǎn)品類別’], values=df[’銷量’], aggfunc=’sum’, margins=True ).round(0).fillna(0).astype(’int’)

python 利用panda 實現(xiàn)列聯(lián)表(交叉表)

注:因為交叉表示透視表的特例,所以交叉表可以用透視表的函數(shù)實現(xiàn)。又因為透視表可以用更 python 的方式 groupby-apply 實現(xiàn),所以,交叉表完全可以用 groupby-apply 的方式實現(xiàn)。

2 用分類匯總的方法實現(xiàn) 交叉表

df.groupby([’客戶名稱’, ’產(chǎn)品類別’]).apply(sum)

python 利用panda 實現(xiàn)列聯(lián)表(交叉表)

2.1 分類匯總、重新索引、設(shè)置數(shù)值格式綜合應(yīng)用

c_tbl = df.groupby([’客戶名稱’, ’產(chǎn)品類別’]).apply(sum)[’銷量’].unstack()c_tbl[’總計’] = c_tbl.sum(axis=1) # 添加總計列c_tbl.fillna(0).round(0).astype(’int’)

python 利用panda 實現(xiàn)列聯(lián)表(交叉表)

軟件信息:

python 利用panda 實現(xiàn)列聯(lián)表(交叉表)

補充:使用python(pandas)將數(shù)據(jù)處理成交叉分組表

交叉分組表是匯總兩種變量數(shù)據(jù)的方法, 在很多場景可以用到, 本文會介紹如何使用pandas將包含兩個變量的數(shù)據(jù)集處理成交叉分組表.

環(huán)境

pandas

python 2.7

原理

用坐標軸來進行比喻, 其中一個變量作為x軸, 另一個作為y軸, 如果定位到數(shù)據(jù)則累加一, 將所有數(shù)據(jù)遍歷一遍, 最后的坐標軸就是一張交叉分組表(使用坐標軸展示的數(shù)據(jù)一般是連續(xù)的, 交叉分組表的數(shù)據(jù)是離散的).

具體實現(xiàn)

示例數(shù)據(jù):

quality price0 bad 181 bad 172 great 523 good 284 excellent 885 great 636 bad 87 good 228 good 689 excellent 9810 great 5311 bad 1312 great 6213 good 4814 excellent 7815 great 6316 good 3717 great 6918 good 2819 excellent 8120 great 4321 good 3222 great 6223 good 2824 excellent 8225 great 53

代碼:

import pandas as pd from pandas import DataFrame, Series #生成數(shù)據(jù) df = DataFrame([[’bad’, 18], [’bad’, 17], [’great’, 52], [’good’, 28], [’excellent’, 88], [’great’, 63], [’bad’, 8], [’good’, 22], [’good’, 68], [’excellent’, 98], [’great’, 53], [’bad’, 13], [’great’, 62], [’good’, 48], [’excellent’, 78], [’great’, 63], [’good’, 37], [’great’, 69], [’good’, 28], [’excellent’, 81], [’great’, 43], [’good’, 32], [’great’, 62], [’good’, 28], [’excellent’, 82], [’great’, 53]], columns = [’quality’, ’price’])#廣播使用的函數(shù)def quality_cut(data): s = Series(pd.cut(data[’price’], np.arange(0, 100, 10))) return pd.groupby(s, s).count()#進行分組處理df.groupby(df[’quality’]).apply(quality_cut)

結(jié)果:

python 利用panda 實現(xiàn)列聯(lián)表(交叉表)

交叉分組

詳細分析

從邏輯上來看, 為了達到對示例數(shù)據(jù)的交叉分組, 需要完成以下工作:

將數(shù)據(jù)以quality列進行分組.

將每個分組的數(shù)據(jù)分別進行cut, 以10為間隔.

將cut過的數(shù)據(jù), 以cut的范圍為列進行分組

將所有數(shù)據(jù)組合到一起, row為quality, columns為cut的范圍

步驟1, pandasgroupby(...)接口, 會按照指定的列進行分組處理, 每一個分組, 存儲相同類別的數(shù)據(jù)

<class ’pandas.core.frame.DataFrame’> quality price0 bad 181 bad 176 bad 811 bad 13

而我們需要的, 只是price這列的數(shù)據(jù), 所以單獨將這列拿出來, 進行cut, 最后得到我們要的series(步驟2, 步驟3)

price(0, 10] 1(10, 20] 3(20, 30] 0(30, 40] 0(40, 50] 0(50, 60] 0(60, 70] 0(70, 80] 0(80, 90] 0

使用pandas

apply()的廣播特性, 每一個分組的數(shù)據(jù)都會經(jīng)過上述幾個步驟的處理, 最后與第一次分組row進行組合.

后記

估計能力有限, 這個問題想了很長時間, 沒想到pandas這么可以這么方便達成交叉分組的效果. 思考的時候主要是卡在數(shù)據(jù)組合上, 當數(shù)據(jù)量很大時通過多個步驟進行數(shù)據(jù)組合, 肯定是低效而且錯誤的. 最后仔細研究了groupby, dataframe, series, dataframeIndex等數(shù)據(jù)模型, 使用廣播特性用幾句代碼就完成了. 證明了pandas的高性能, 也提醒自己遇見問題一定要耐心分析。

以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持好吧啦網(wǎng)。如有錯誤或未考慮完全的地方,望不吝賜教。

標簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 乙炔气体报警装置|固定式氯化氢检测仪|河南驰诚电气百科 | 膏方加工_丸剂贴牌_膏滋代加工_湖北康瑞生物科技有限公司 | 防火板_饰面耐火板价格、厂家_品牌认准格林雅 | 煤机配件厂家_刮板机配件_链轮轴组_河南双志机械设备有限公司 | 浩方智通 - 防关联浏览器 - 跨境电商浏览器 - 云雀浏览器 | 北京遮阳网-防尘盖土网-盖土草坪-迷彩网-防尘网生产厂家-京兴科技 | 光谱仪_积分球_分布光度计_灯具检测生产厂家_杭州松朗光电【官网】 | 六维力传感器_三维力传感器_二维力传感器-南京神源生智能科技有限公司 | 合肥白癜风医院_合肥治疗白癜风医院_合肥看白癜风医院哪家好_合肥华研白癜风医院 | 动库网动库商城-体育用品专卖店:羽毛球,乒乓球拍,网球,户外装备,运动鞋,运动包,运动服饰专卖店-正品运动品网上商城动库商城网 - 动库商城 | 组织研磨机-高通量组织研磨仪-实验室多样品组织研磨机-东方天净 传递窗_超净|洁净工作台_高效过滤器-传递窗厂家广州梓净公司 | 陕西鹏展科技有限公司| 意大利Frascold/富士豪压缩机_富士豪半封闭压缩机_富士豪活塞压缩机_富士豪螺杆压缩机 | 脑钠肽-白介素4|白介素8试剂盒-研域(上海)化学试剂有限公司 | 超声波焊接机_超音波熔接机_超声波塑焊机十大品牌_塑料超声波焊接设备厂家 | 室内室外厚型|超薄型|非膨胀型钢结构防火涂料_隧道专用防火涂料厂家|电话|价格|批发|施工 | 高尔夫球杆_高尔夫果岭_高尔夫用品-深圳市新高品体育用品有限公司 | 安全阀_弹簧式安全阀_美标安全阀_工业冷冻安全阀厂家-中国·阿司米阀门有限公司 | 重庆网站建设,重庆网站设计,重庆网站制作,重庆seo,重庆做网站,重庆seo,重庆公众号运营,重庆小程序开发 | 无锡网站建设_小程序制作_网站设计公司_无锡网络公司_网站制作 | 广域铭岛Geega(际嘉)工业互联网平台-以数字科技引领行业跃迁 | 密度电子天平-内校-外校电子天平-沈阳龙腾电子有限公司 | 顺景erp系统_erp软件_erp软件系统_企业erp管理系统-广东顺景软件科技有限公司 | 环保袋,无纺布袋,无纺布打孔袋,保温袋,环保袋定制,环保袋厂家,环雅包装-十七年环保袋定制厂家 | 冷藏车厂家|冷藏车价格|小型冷藏车|散装饲料车厂家|程力专用汽车股份有限公司销售十二分公司 | 头条搜索极速版下载安装免费新版,头条搜索极速版邀请码怎么填写? - 欧远全 | 水厂自动化|污水处理中控系统|水利信息化|智慧水务|智慧农业-山东德艾自动化科技有限公司 | SOUNDWELL 编码器|电位器|旋转编码器|可调电位器|编码开关厂家-广东升威电子制品有限公司 | 除甲醛公司-甲醛检测治理-杭州创绿家环保科技有限公司-室内空气净化十大品牌 | 上海单片机培训|重庆曙海培训分支机构—CortexM3+uC/OS培训班,北京linux培训,Windows驱动开发培训|上海IC版图设计,西安linux培训,北京汽车电子EMC培训,ARM培训,MTK培训,Android培训 | 北京网站建设首页,做网站选【优站网】,专注北京网站建设,北京网站推广,天津网站建设,天津网站推广,小程序,手机APP的开发。 | 合肥地磅_合肥数控切割机_安徽地磅厂家_合肥世佳电工设备有限公司 | 温湿度记录纸_圆盘_横河记录纸|霍尼韦尔记录仪-广州汤米斯机电设备有限公司 | 根系分析仪,大米外观品质检测仪,考种仪,藻类鉴定计数仪,叶面积仪,菌落计数仪,抑菌圈测量仪,抗生素效价测定仪,植物表型仪,冠层分析仪-杭州万深检测仪器网 | 车间除尘设备,VOCs废气处理,工业涂装流水线,伸缩式喷漆房,自动喷砂房,沸石转轮浓缩吸附,机器人喷粉线-山东创杰智慧 | 轻型地埋电缆故障测试仪,频响法绕组变形测试仪,静荷式卧式拉力试验机-扬州苏电 | 粘度计维修,在线粘度计,二手博勒飞粘度计维修|收购-天津市祥睿科技有限公司 | 吹田功率计-长创耐压测试仪-深圳市新朗普电子科技有限公司 | TMT观察网_独特视角观察TMT行业| 福建珂朗雅装饰材料有限公司「官方网站」| 锌合金压铸-铝合金压铸厂-压铸模具-冷挤压-誉格精密压铸 |