SHAP
SHAP(Shapley Additive exPlanation)
一种模型事后解释方法,可以对复杂机器学习模型进行解释。
起源:合作博弈论,一个简单的例子是ABC三个人测量叶片面积,分配酬劳。这个例子中的体现是边际贡献加权平均的方法来规划酬劳的分配。
SHAP的核心是计算每个特征变量的shapley value
Shapley Additive exPlanation,代表对每个样本中的每一个特征变量都计算出SV,而且SV是可加的,目的是解释每个特征变量是如何影响模型的预测值的。
SHAP三个重要性质:
- 局部保真性local accuracy
- 缺失性missingness
- 连续性consistency
SHAP最大的优势
反映出每一个样本的特征的影响力,并且表现出贡献的正负性SHAP的两个不足
- 计算量庞大,计算非常耗时
- 有可能会造成误导,这是由于
特征值的shapley值不是从模型训练中删除特征后的预测值之差。而是给定当前的一组特征值,特征值对于实际预测值和平均预测值之差的贡献就是估计的shapley值。一个样本中各个特征的SHAP值加上基线值等于该样本的预测值。
针对这两种问题,有了SHAP的一些变体。其中TreeSHAP专门适用于基于树的机器学习模型,比如决策树,随机森林和GBDT。很快而且很精确。
SHAP可视化的一些图类型
- 力图
- 总体特征图
- 部份依赖图(PDP)
- 热图
- 交互分析图
参考文献
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.