电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

利用Python計算KS的實例詳解

瀏覽:114日期:2022-08-04 15:15:57

在金融領域中,我們的y值和預測得到的違約概率剛好是兩個分布未知的兩個分布。好的信用風控模型一般從準確性、穩定性和可解釋性來評估模型。

一般來說。好人樣本的分布同壞人樣本的分布應該是有很大不同的,KS正好是有效性指標中的區分能力指標:KS用于模型風險區分能力進行評估,KS指標衡量的是好壞樣本累計分布之間的差值。

好壞樣本累計差異越大,KS指標越大,那么模型的風險區分能力越強。

1、crosstab實現,計算ks的核心就是好壞人的累積概率分布,我們采用pandas.crosstab函數來計算累積概率分布。

2、roc_curve實現,sklearn庫中的roc_curve函數計算roc和auc時,計算過程中已經得到好壞人的累積概率分布,同時我們利用sklearn.metrics.roc_curve來計算ks值

3、ks_2samp實現,調用stats.ks_2samp()函數來計算。鏈接scipy.stats.ks_2samp¶為ks_2samp()實現源碼,這里實現了詳細過程

4、直接調用stats.ks_2samp()計算ks

import pandas as pd import numpy as npfrom sklearn.metrics import roc_curvefrom scipy.stats import ks_2samp def ks_calc_cross(data,pred,y_label): ’’’ 功能: 計算KS值,輸出對應分割點和累計分布函數曲線圖 輸入值: data: 二維數組或dataframe,包括模型得分和真實的標簽 pred: 一維數組或series,代表模型得分(一般為預測正類的概率) y_label: 一維數組或series,代表真實的標簽({0,1}或{-1,1}) 輸出值: ’ks’: KS值,’crossdens’: 好壞客戶累積概率分布以及其差值gap ’’’ crossfreq = pd.crosstab(data[pred[0]],data[y_label[0]]) crossdens = crossfreq.cumsum(axis=0) / crossfreq.sum() crossdens[’gap’] = abs(crossdens[0] - crossdens[1]) ks = crossdens[crossdens[’gap’] == crossdens[’gap’].max()] return ks,crossdens def ks_calc_auc(data,pred,y_label): ’’’ 功能: 計算KS值,輸出對應分割點和累計分布函數曲線圖 輸入值: data: 二維數組或dataframe,包括模型得分和真實的標簽 pred: 一維數組或series,代表模型得分(一般為預測正類的概率) y_label: 一維數組或series,代表真實的標簽({0,1}或{-1,1}) 輸出值: ’ks’: KS值 ’’’ fpr,tpr,thresholds= roc_curve(data[y_label[0]],data[pred[0]]) ks = max(tpr-fpr) return ks def ks_calc_2samp(data,pred,y_label): ’’’ 功能: 計算KS值,輸出對應分割點和累計分布函數曲線圖 輸入值: data: 二維數組或dataframe,包括模型得分和真實的標簽 pred: 一維數組或series,代表模型得分(一般為預測正類的概率) y_label: 一維數組或series,代表真實的標簽({0,1}或{-1,1}) 輸出值: ’ks’: KS值,’cdf_df’: 好壞客戶累積概率分布以及其差值gap ’’’ Bad = data.loc[data[y_label[0]]==1,pred[0]] Good = data.loc[data[y_label[0]]==0, pred[0]] data1 = Bad.values data2 = Good.values n1 = data1.shape[0] n2 = data2.shape[0] data1 = np.sort(data1) data2 = np.sort(data2) data_all = np.concatenate([data1,data2]) cdf1 = np.searchsorted(data1,data_all,side=’right’)/(1.0*n1) cdf2 = (np.searchsorted(data2,data_all,side=’right’))/(1.0*n2) ks = np.max(np.absolute(cdf1-cdf2)) cdf1_df = pd.DataFrame(cdf1) cdf2_df = pd.DataFrame(cdf2) cdf_df = pd.concat([cdf1_df,cdf2_df],axis = 1) cdf_df.columns = [’cdf_Bad’,’cdf_Good’] cdf_df[’gap’] = cdf_df[’cdf_Bad’]-cdf_df[’cdf_Good’] return ks,cdf_df data = {’y_label’:[1,1,1,1,1,1,0,0,0,0,0,0], ’pred’:[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9]} data = pd.DataFrame(data)ks1,crossdens=ks_calc_cross(data,[’pred’], [’y_label’]) ks2=ks_calc_auc(data,[’pred’], [’y_label’]) ks3=ks_calc_2samp(data,[’pred’], [’y_label’]) get_ks = lambda y_pred,y_true: ks_2samp(y_pred[y_true==1], y_pred[y_true!=1]).statisticks4=get_ks(data[’pred’],data[’y_label’])print(’KS1:’,ks1[’gap’].values)print(’KS2:’,ks2)print(’KS3:’,ks3[0])print(’KS4:’,ks4)

輸出結果:

KS1: [ 0.83333333]KS2: 0.833333333333KS3: 0.833333333333KS4: 0.833333333333

當數據中存在NAN數據時,有一些問題需要注意!

例如,我們在原數據中增加了y_label=0,pred=np.nan這樣一組數據

data = {’y_label’:[1,1,1,1,1,1,0,0,0,0,0,0,0],’pred’:[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9,np.nan]}

此時執行

ks1,crossdens=ks_calc_cross(data,[’pred’], [’y_label’])

輸出結果

KS1: [ 0.83333333]

執行

ks2=ks_calc_auc(data,[’pred’], [’y_label’])

將會報以下錯誤

ValueError: Input contains NaN, infinity or a value too large for dtype(’float64’).

執行

ks3=ks_calc_2samp(data,[’pred’], [’y_label’])

輸出結果

KS3: 0.714285714286

執行

ks4=get_ks(data[’pred’],data[’y_label’])

輸出結果

KS4: 0.714285714286

我們從上述結果中可以看出

三種方法計算得到的ks值均不相同。

ks_calc_cross計算時忽略了NAN,計算得到了數據正確的概率分布,計算的ks與我們手算的ks相同

ks_calc_auc函數由于內置函數無法處理NAN值,直接報錯了,所以如果需要ks_calc_auc計算ks值時,需要提前去除NAN值。

ks_calc_2samp計算得到的ks因為searchsorted()函數(有興趣的同學可以自己模擬數據看下這個函數),會將Nan值默認排序為最大值,從而改變了數據的原始累積分布概率,導致計算得到的ks和真實的ks有誤差。

總結

在實際情況下,我們一般計算違約概率的ks值,這時是不存在NAN值的。所以以上三種方法計算ks值均可。但是當我們計算單變量的ks值時,有時數據質量不好,存在NAN值時,繼續采用ks_calc_auc和ks_calc_2samp就會存在問題。

解決辦法有兩個

1. 提前去除數據中的NAN值

2. 直接采用ks_calc_cross計算。

以上這篇利用Python計算KS的實例詳解就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: HEYL硬度计量泵-荧光法在线溶解氧仪-净时测控技术(上海)有限公司 | 行星搅拌机,双行星搅拌机,动力混合机,无锡米克斯行星搅拌机生产厂家 | 泰兴市热钻机械有限公司-热熔钻孔机-数控热熔钻-热熔钻孔攻牙一体机 | 化工ERP软件_化工新材料ERP系统_化工新材料MES软件_MES系统-广东顺景软件科技有限公司 | 猪I型/II型胶原-五克隆合剂-细胞冻存培养基-北京博蕾德科技发展有限公司 | 杰福伦_磁致伸缩位移传感器_线性位移传感器-意大利GEFRAN杰福伦-河南赉威液压科技有限公司 | 咖啡加盟-咖啡店加盟-咖啡西餐厅加盟-塞纳左岸咖啡西餐厅官网 | 氢氧化钙设备_厂家-淄博工贸有限公司 | 郑州宣传片拍摄-TVC广告片拍摄-微电影短视频制作-河南优柿文化传媒有限公司 | 扫地车厂家-山西洗地机-太原电动扫地车「大同朔州吕梁晋中忻州长治晋城洗地机」山西锦力环保科技有限公司 | 固诺家居-全屋定制十大品牌_整体衣柜木门橱柜招商加盟 | 碳刷_刷握_集电环_恒压簧_电刷厂家-上海丹臻机电科技有限公司 | 东风体检车厂家_公共卫生体检车_医院体检车_移动体检车-锦沅科贸 | 无锡市珂妮日用化妆品有限公司|珂妮日化官网|洗手液厂家 | 赛默飞Thermo veritiproPCR仪|ProFlex3 x 32PCR系统|Countess3细胞计数仪|371|3111二氧化碳培养箱|Mirco17R|Mirco21R离心机|仟诺生物 | 挤出熔体泵_高温熔体泵_熔体出料泵_郑州海科熔体泵有限公司 | 铝合金线槽_铝型材加工_空调挡水板厂家-江阴炜福金属制品有限公司 | 工业铝型材生产厂家_铝合金型材配件批发精加工定制厂商 - 上海岐易铝业 | 河南膏药贴牌-膏药代加工-膏药oem厂家-洛阳今世康医药科技有限公司 | SF6环境监测系统-接地环流在线监测装置-瑟恩实业 | 广州工业氧气-工业氩气-工业氮气-二氧化碳-广州市番禺区得力气体经营部 | 小学教案模板_中学教师优秀教案_高中教学设计模板_教育巴巴 | 浙江寺庙设计-杭州寺院设计-宁波寺庙规划_汉匠| 双菱电缆-广州电缆厂_广州电缆厂有限公司 | 大米加工设备|大米加工机械|碾米成套设备|大米加工成套设备-河南成立粮油机械有限公司 | 大立教育官网-一级建造师培训-二级建造师培训-造价工程师-安全工程师-监理工程师考试培训 | 胶水,胶粘剂,AB胶,环氧胶,UV胶水,高温胶,快干胶,密封胶,结构胶,电子胶,厌氧胶,高温胶水,电子胶水-东莞聚力-聚厉胶粘 | 科威信洗净科技,碳氢清洗机,超声波清洗机,真空碳氢清洗机 | 全自动过滤器_反冲洗过滤器_自清洗过滤器_量子除垢环_量子环除垢_量子除垢 - 安士睿(北京)过滤设备有限公司 | 耐火浇注料-喷涂料-浇注料生产厂家_郑州市元领耐火材料有限公司 耐力板-PC阳光板-PC板-PC耐力板 - 嘉兴赢创实业有限公司 | 广东燎了网络科技有限公司官网-网站建设-珠海网络推广-高端营销型外贸网站建设-珠海专业h5建站公司「了了网」 | 合肥防火门窗/隔断_合肥防火卷帘门厂家_安徽耐火窗_良万消防设备有限公司 | 硫化罐_蒸汽硫化罐_大型硫化罐-山东鑫泰鑫智能装备有限公司 | 螺纹三通快插接头-弯通快插接头-宁波舜驰气动科技有限公司 | 微型驱动系统解决方案-深圳市兆威机电股份有限公司 | 锂电池生产厂家-电动自行车航模无人机锂电池定制-世豹新能源 | 博博会2021_中国博物馆及相关产品与技术博览会【博博会】 | 广州展台特装搭建商|特装展位设计搭建|展会特装搭建|特装展台制作设计|展览特装公司 | 二手Sciex液质联用仪-岛津气质联用仪-二手安捷伦气质联用仪-上海隐智科学仪器有限公司 | 今日娱乐圈——影视剧集_八卦娱乐_明星八卦_最新娱乐八卦新闻 | 广东燎了网络科技有限公司官网-网站建设-珠海网络推广-高端营销型外贸网站建设-珠海专业h5建站公司「了了网」 |