以上各阶颜色矩均可以直接利用
numpy
库进行计算,并采用pandas
库保存为.csv
文件以便后续处理
1 | import os |
此处我们采用以下四种分类模型对该问题进行模型的构建:
首先读取数据,并将其按照 80% 训练集和 20% 测试集的比例进行划分:
1 | datas = pd.read_csv('image_datas.csv') |
然后通过 sklearn.tree.DecisionTreeClassifier
构建模型,并且利用 sklearn.model_selection.GridSearchCV
进行参数寻优:
1 | def tree_train(): |
1 | def mlp_train(): |
1 | def boost_train(): |
1 | def svm_train(): |
完成模型的建立与参数选取后,我们得到了四个不同模型对于本问题的最优参数及其准确率:
其中,准确率定义如下:
为了更好地对比以上各模型对本问题的分类效果和性能表现,我们通过 混淆矩阵、ROC曲线和 Precsion-Recall 曲线 等多个指标对各模型的性能进行描述。
https://www.kaggle.com/code/harshbhatnagar/bankrupt-prediction-model