风控建模中变量缺失值率多少应该删除?如何处理缺失值?
在风控建模中有很多小细节总会让人纠结,比如变量的缺失率达到多少需要删除该变量?如果保留存在缺失值的变量,缺失值应该用什么值填充?随着业务经验的积累,也有了一些思考。本文根据业务经验,提出一点自己的看法,欢迎大家在评论区提出自己的看法。
文章目录
- 一、风控建模中的缺失值是什么?
- 二、风控建模中变量缺失值率多少应该删除?
- 三、风控建模中如何处理缺失值?
- 1、替代法
- 2、删除法
- 3、构建新特征
- 4、注意事项
一、风控建模中的缺失值是什么?
在风控建模中,数据中的缺失值(Missing Values)是指数据集中某些变量(特征)没有值或值未知的情况。这些缺失值可能是由于数据收集过程中的错误、遗漏、数据录入错误、数据清洗不彻底等原因造成的。缺失值的存在对风控建模过程具有重要影响,因为它们可能会干扰数据分析的准确性和可靠性,进而影响模型的预测能力和稳定性。具体来说,缺失值可能导致以下问题:
1.信息损失:缺失值意味着在数据集中丢失了部分信息,这可能会降低模型的预测能力。
2.偏差引入:如果不恰当地处理缺失值,比如简单地删除含有缺失值的记录或随意填充缺失值,可能会引入偏差,导致模型结果不准确。
3.模型复杂度增加:在建模过程中,需要考虑如何处理缺失值,这可能会增加模型的复杂度。