Command Palette
Search for a command to run...
Sundararajan Mukund Taly Ankur Yan Qiqi

摘要
我们研究了将深度网络的预测结果归因于其输入特征的问题,这一问题此前已被多项研究探讨。我们识别出两个基本公理——敏感性(Sensitivity)与实现不变性(Implementation Invariance),这些公理应为所有归因方法所遵循。我们证明,大多数现有的归因方法均不满足这两个公理,我们认为这是这些方法的根本性缺陷。基于这些公理,我们设计了一种新的归因方法,称为积分梯度(Integrated Gradients)。该方法无需对原始网络进行任何修改,实现极为简便,仅需调用几次标准梯度算子即可完成。我们将该方法应用于若干图像模型、文本模型以及化学模型,验证了其在调试神经网络、从网络中提取规则,以及提升用户与模型交互能力方面的有效性。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-attribution-on-celeba | Integrated Gradients | Deletion AUC score (ArcFace ResNet-101): 0.0680 Insertion AUC score (ArcFace ResNet-101): 0.3578 |
| image-attribution-on-cub-200-2011-1 | Integrated Gradients | Deletion AUC score (ResNet-101): 0.0728 Insertion AUC score (ResNet-101): 0.0422 |
| image-attribution-on-vggface2 | Integrated Gradients | Deletion AUC score (ArcFace ResNet-101): 0.0749 Insertion AUC score (ArcFace ResNet-101): 0.5399 |
| interpretability-techniques-for-deep-learning-1 | Integrated Gradients | Insertion AUC score: 0.3578 |