银行业数据科学家的 6 条经验教训
一个扎心的现实教训是:数据科学并不像你所期望的那样。
原本希望在计算机科学、统计学和机器学习领域工作。运用新方法获得独特见解,实现一切自动化。简而言之,最终成了这个职业炒作的牺牲品。
我想和你们分享一下。希望我们能够摆脱炒作,提高你对数据科学家工作的理解。
第 1 课:逻辑回归大有裨益
我的工作涉及建立信用风险和欺诈模型。这些都是有影响力的模型。它们被用于大规模自动化贷款。我说的是每年价值数十亿的应用程序。你可能会认为,在如此高的风险下,会从事先进的机器学习。你错了。
我专门使用逻辑回归来构建模型。我并不是唯一一个这样做的人。从银行业到保险业,金融界的很多领域都依赖回归。为什么?
因为这些模型有效。
回归模型的表现已经足够好了。它们也被银行广泛理解和接受。要采用一种新算法,它不仅要优于回归。改进还必须证明解释算法的努力是合理的。
通过回归分析,我最终得到了具有 8 到 10 个特征的模型。每个特征都必须得到彻底解释。非技术同事必须同意他们捕捉到了现实中存在的关系。
回归分析很简单。黑盒模型会更难解释。当然,可以使用[SHAP](Python 中的 SHAP 简介)或[PDP