python sklearn包——混淆矩阵、分类报告等自动生成方式

脚本专栏 2025/2/8 佚名

3 2 1

帝王谷资源网 Design By www.wdxyy.com

preface：做着最近的任务，对数据处理，做些简单的提特征，用机器学习算法跑下程序得出结果，看看哪些特征的组合较好，这一系列流程必然要用到很多函数，故将自己常用函数记录上。应该说这些函数基本上都会用到，像是数据预处理，处理完了后特征提取、降维、训练预测、通过混淆矩阵看分类效果，得出报告。

1.输入

从数据集开始，提取特征转化为有标签的数据集，转为向量。拆分成训练集和测试集，这里不多讲，在上一篇博客中谈到用StratifiedKFold()函数即可。在训练集中有data和target开始。

2.处理

def my_preprocessing(train_data):
  from sklearn import preprocessing
  X_normalized = preprocessing.normalize(train_data ,norm = "l2",axis=0)#使用l2范式，对特征列进行正则
  return X_normalized
 
def my_feature_selection(data, target):
  from sklearn.feature_selection import SelectKBest
  from sklearn.feature_selection import chi2
  data_new = SelectKBest(chi2, k= 50).fit_transform(data,target)
  return data_new
 
def my_PCA(data):#data without target, just train data, withou train target.
  from sklearn import decomposition
  pca_sklearn = decomposition.PCA()
  pca_sklearn.fit(data)
  main_var = pca_sklearn.explained_variance_
  print sum(main_var)*0.9
  import matplotlib.pyplot as plt
  n = 15
  plt.plot(main_var[:n])
  plt.show()
 
def clf_train(data,target):
  from sklearn import svm
  #from sklearn.linear_model import LogisticRegression
  clf = svm.SVC(C=100,kernel="rbf",gamma=0.001)
  clf.fit(data,target)
 
  #clf_LR = LogisticRegression()
  #clf_LR.fit(x_train, y_train)
  #y_pred_LR = clf_LR.predict(x_test)
  return clf
 
def my_confusion_matrix(y_true, y_pred):
  from sklearn.metrics import confusion_matrix
  labels = list(set(y_true))
  conf_mat = confusion_matrix(y_true, y_pred, labels = labels)
  print "confusion_matrix(left labels: y_true, up labels: y_pred):"
  print "labels\t",
  for i in range(len(labels)):
    print labels[i],"\t",
  print 
  for i in range(len(conf_mat)):
    print i,"\t",
    for j in range(len(conf_mat[i])):
      print conf_mat[i][j],'\t',
    print 
  print 
 
def my_classification_report(y_true, y_pred):
  from sklearn.metrics import classification_report
  print "classification_report(left: labels):"
  print classification_report(y_true, y_pred)

my_preprocess()函数：

主要使用sklearn的preprocessing函数中的normalize()函数，默认参数为l2范式，对特征列进行正则处理。即每一个样例，处理标签，每行的平方和为1.

my_feature_selection()函数：

使用sklearn的feature_selection函数中SelectKBest()函数和chi2()函数，若是用词袋提取了很多维的稀疏特征，有必要使用卡方选取前k个有效的特征。

my_PCA()函数：

主要用来观察前多少个特征是主要特征，并且画图。看看前多少个特征占据主要部分。

clf_train()函数：

可用多种机器学习算法，如SVM, LR, RF, GBDT等等很多，其中像SVM需要调参数的，有专门调试参数的函数如StratifiedKFold()（见前几篇博客）。以达到最优。

my_confusion_matrix()函数：

主要是针对预测出来的结果，和原来的结果对比，算出混淆矩阵，不必自己计算。其对每个类别的混淆矩阵都计算出来了，并且labels参数默认是排序了的。

my_classification_report()函数：

主要通过sklearn.metrics函数中的classification_report()函数，针对每个类别给出详细的准确率、召回率和F-值这三个参数和宏平均值，用来评价算法好坏。另外ROC曲线的话，需要是对二分类才可以。多类别似乎不行。

主要参考sklearn官网

补充拓展：[sklearn] 混淆矩阵——多分类预测结果统计

调用的函数：confusion_matrix(typeTrue, typePred)

typeTrue：实际类别，list类型

typePred：预测类别，list类型

结果如下面的截图：

第i行：实际为第i类，预测到各个类的样本数

第j列：预测为第j类，实际为各个类的样本数

true↓ predict→

以上这篇python sklearn包——混淆矩阵、分类报告等自动生成方式就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

python,sklearn包,混淆矩阵,分类报告

标签：

python,sklearn包,混淆矩阵,分类报告

帝王谷资源网 Design By www.wdxyy.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

帝王谷资源网 Design By www.wdxyy.com

评论“python sklearn包——混淆矩阵、分类报告等自动生成方式”

暂无评论...

www.wdxyy.com 帝王谷资源网

139,976互联网资源

144,792高清电影

21,817无损音乐

631,128技术资源

最新文章

转载一个别人收藏的精典网站Ruby,HIBERNATE

2025/2/8

可与Spreadsheets媲美的在线表格系统:EditG

2025/2/8

cygwin使用心得

2025/2/8

脚本的DVD开发

2025/2/8

局域网设置自动配置脚本文件的写法与用途

2025/2/8

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2025/2/8

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

python sklearn包——混淆矩阵、分类报告等自动生成方式

python,sklearn包,混淆矩阵,分类报告

Python接口测试get请求过程详解

python GUI库图形界面开发之PyQt5工具栏控件QToolBar的详细使用方法与实例

评论“python sklearn包——混淆矩阵、分类报告等自动生成方式”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

python sklearn包——混淆矩阵、分类报告等自动生成方式

python,sklearn包,混淆矩阵,分类报告

Python接口测试get请求过程详解

python GUI库图形界面开发之PyQt5工具栏控件QToolBar的详细使用方法与实例

评论“python sklearn包——混淆矩阵、分类报告等自动生成方式”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存