电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

使用python 計算百分位數實現數據分箱代碼

瀏覽:44日期:2022-08-04 15:13:13

對于百分位數,相信大家都比較熟悉,以下解釋源引自百度百科。

百分位數,如果將一組數據從小到大排序,并計算相應的累計百分位,則某一百分位所對應數據的值就稱為這一百分位的百分位數。可表示為:一組n個觀測值按數值大小排列。如,處于p%位置的值稱第p百分位數。

因為百分位數是采用等分的方式劃分數據,因此也可用此方法進行等頻分箱。

import pandas as pdimport numpy as npimport randomt=pd.DataFrame(columns=[’l’,’s’])#隨機生成1000個0到999整數t[’l’]=[random.randint(0,999) for _range in range(1000)]#定義s為1,便于統計t[’s’]=1#通過np.percentile找到分位點l_bin=[]for i in range(0,101,10): l_bin.append(np.percentile(t[’l’],i))#分位點最后一個數加上一個極小的數,否則切分后數字999會標記為nanl_bin[-1]+=1/1e10print(’分位點:’,np.array(l_bin).round(2))#對隨機數進行切分,right=False時左閉右開t[’box’]=pd.cut(t[’l’],l_bin,right=False)tj=t.groupby(’box’)[’s’].agg(’sum’)print(’分箱統計’)print(tj)#生成新的標簽label=[]for i in range(len(l_bin)-1): label.append(str(l_bin[i].round(4))+’+’)#原標簽和自定義的新標簽生成字典 list_box_td=list(set(t[’box’]))list_box_td.sort()dict_t=dict(zip(list_box_td,label))#根據字典進行替換t[’new_box’]=t[’box’].replace(dict_t)print(’新分箱統計’)tj=t.groupby(’new_box’)[’s’].agg(’sum’)print(tj)del t[’s’]print(t.head())

輸出結果:

分位點: [ 0. 90.9 194.6 290. 386. 473.5 589. 688. 783.2 884.2 997. ]分箱統計box[0.0, 90.9) 100[90.9, 194.6) 100[194.6, 290.0) 99[290.0, 386.0) 99[386.0, 473.5) 102[473.5, 589.0) 99[589.0, 688.0) 100[688.0, 783.2) 101[783.2, 884.2) 100[884.2, 997.0) 100Name: s, dtype: int64新分箱統計new_box0.0+ 100194.6+ 99290.0+ 99386.0+ 102473.5+ 99589.0+ 100688.0+ 101783.2+ 100884.2+ 10090.9+ 100Name: s, dtype: int64 l box new_box0 253 [194.6, 290.0) 194.6+1 468 [386.0, 473.5) 386.0+2 130 [90.9, 194.6) 90.9+3 476 [473.5, 589.0) 473.5+4 656 [589.0, 688.0) 589.0+

可以看出每個分箱內,約有100個數字。根據這個方法,可以自定義一些標簽。

補充拓展:python 計算動態時點的百分位數

【說明】

1、動態時點:每次計算的數據框為截止于當前行的數據,即累計行(多次計算);

2、靜態時點(當前時間):計算的數據框為所有行(一次計算);

【代碼】

test = pd.DataFrame(np.random.randint(1, 10, size=10), columns=[’value’]) # 生成[1,10]的隨機整數test[’pct_sf’] = test.index.map(lambda x: test.ix[:x].value.rank(pct=True)[x]) # 動態時點test[’pct’] = test.value.rank(pct=True) # 當前時點test

使用python 計算百分位數實現數據分箱代碼

以上這篇使用python 計算百分位數實現數據分箱代碼就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 艺术生文化课培训|艺术生文化课辅导冲刺-济南启迪学校 | 车间除尘设备,VOCs废气处理,工业涂装流水线,伸缩式喷漆房,自动喷砂房,沸石转轮浓缩吸附,机器人喷粉线-山东创杰智慧 | 杭州火蝠电商_京东代运营_拼多多全托管代运营【天猫代运营】 | 阿米巴企业经营-阿米巴咨询管理-阿米巴企业培训-广东键锋企业管理咨询有限公司 | TPE_TPE热塑性弹性体_TPE原料价格_TPE材料厂家-惠州市中塑王塑胶制品公司- 中塑王塑胶制品有限公司 | 橡胶电子拉力机-塑料-微电脑电子拉力试验机厂家-江苏天源 | 路面机械厂家 | 基本型顶空进样器-全自动热脱附解吸仪价格-AutoHS全模式-成都科林分析技术有限公司 | 行吊_电动单梁起重机_双梁起重机_合肥起重机_厂家_合肥市神雕起重机械有限公司 | 日本东丽膜_反渗透膜_RO膜价格_超滤膜_纳滤膜-北京东丽阳光官网 日本细胞免疫疗法_肿瘤免疫治疗_NK细胞疗法 - 免疫密码 | 苏商学院官网 - 江苏地区唯一一家企业家自办的前瞻型、实操型商学院 | 成都热收缩包装机_袖口式膜包机_高速塑封机价格_全自动封切机器_大型套膜机厂家 | 气动隔膜泵厂家-温州永嘉定远泵阀有限公司 | 政府园区专业委托招商平台_助力企业选址项目快速落地_东方龙商务集团 | 办公室家具_板式办公家具定制厂家-FMARTS福玛仕办公家具 | TPE_TPE热塑性弹性体_TPE原料价格_TPE材料厂家-惠州市中塑王塑胶制品公司- 中塑王塑胶制品有限公司 | 柔性输送线|柔性链板|齿形链-上海赫勒输送设备有限公司首页[输送机] | 沈阳真空机_沈阳真空包装机_沈阳大米真空包装机-沈阳海鹞真空包装机械有限公司 | 板式换热器_板式换热器价格_管式换热器厂家-青岛康景辉 | 武汉印刷厂-不干胶标签印刷厂-武汉不干胶印刷-武汉标签印刷厂-武汉标签制作 - 善进特种标签印刷厂 | 硅胶管挤出机厂家_硅胶挤出机生产线_硅胶条挤出机_臣泽智能装备 贵州科比特-防雷公司厂家提供贵州防雷工程,防雷检测,防雷接地,防雷设备价格,防雷产品报价服务-贵州防雷检测公司 | 洗地机_全自动洗地机_手推式洗地机【上海滢皓环保】 | 深圳快餐店设计-餐饮设计公司-餐饮空间品牌全案设计-深圳市勤蜂装饰工程 | 卷筒电缆-拖链电缆-特种柔性扁平电缆定制厂家「上海缆胜」 | 袋式过滤器,自清洗过滤器,保安过滤器,篮式过滤器,气体过滤器,全自动过滤器,反冲洗过滤器,管道过滤器,无锡驰业环保科技有限公司 | 天一线缆邯郸有限公司_煤矿用电缆厂家_矿用光缆厂家_矿用控制电缆_矿用通信电缆-天一线缆邯郸有限公司 | 中宏网-今日新闻-财经新闻| 磨煤机配件-高铬辊套-高铬衬板-立磨辊套-盐山县宏润电力设备有限公司 | 棕刚玉-白刚玉厂家价格_巩义市东翔净水材料厂 | 医疗仪器模块 健康一体机 多参数监护仪 智慧医疗仪器方案定制 血氧监护 心电监护 -朗锐慧康 | 润滑油加盟_润滑油厂家_润滑油品牌-深圳市沃丹润滑科技有限公司 琉璃瓦-琉璃瓦厂家-安徽盛阳新型建材科技有限公司 | 大立教育官网-一级建造师培训-二级建造师培训-造价工程师-安全工程师-监理工程师考试培训 | 免费网站网址收录网_海企优网站推荐平台 | 聚合氯化铝厂家-聚合氯化铝铁价格-河南洁康环保科技 | 不锈钢螺丝 - 六角螺丝厂家 - 不锈钢紧固件 - 万千紧固件--紧固件一站式采购 | 北京网站建设首页,做网站选【优站网】,专注北京网站建设,北京网站推广,天津网站建设,天津网站推广,小程序,手机APP的开发。 | 电磁流量计厂家_涡街流量计厂家_热式气体流量计-青天伟业仪器仪表有限公司 | 土壤肥料养分速测仪_测土配方施肥仪_土壤养分检测仪-杭州鸣辉科技有限公司 | 合同书格式和范文_合同书样本模板_电子版合同,找范文吧 | 浙江筋膜枪-按摩仪厂家-制造商-肩颈按摩仪哪家好-温州市合喜电子科技有限公司 | 浙江华锤电器有限公司_地磅称重设备_防作弊地磅_浙江地磅售后维修_无人值守扫码过磅系统_浙江源头地磅厂家_浙江工厂直营地磅 |