1
我之前做个一个,kaggle的比赛项目,就是针对贷款违约损失的预测问题来使用机器学习构建一个模型,最后计算MAE值,通过MAE值进行排名。kaggle提供的数据是每一个违约的损失值,是由700多个特征决定的,当时为了包含用户隐私都将这些特征的名称隐私化了。我的建议是特征越多越好,然后你再去分析这些特征与个人信用的关系,最好根据你的模型选择最合适的特征。模型的话,当时我使用了两个模型,一个做分类xgboost,一个做回归。
2
征信报告里面字段一共也没多少呀。
如果是线性模型,完全可以把每个字段都加进去单独测试去除某个字段对auc的影响。
数据足够的话,上复杂模型,可以考虑全部字段丢进去,让模型自己去选吧。
现在工业级的机器学习应用都越来越少的依赖特征工程这种苦力活了。