机器学习中的可解释性
可解释性可谓是机器学习广受诟病的原因。线性方法的可解释性来源于统计学,核方法的可解释性可以证明,树方法的可解释性的根基更像是规则对于空间的划分,神经网络就更不用说了,连收敛都没有找到很好的方法,各种trick却在大行其道。那么,一门看起来一点也不优雅甚至会失控的学科,却是近十年推动社会进步最主要的方法,这很cs。
那么,机器学习究竟有根基吗?
在牛顿和莱布尼兹发明了微积分方法后,这个方法慢慢演变成了分析学的根基,但由于两位大神所创立的理论并不严格,对作为基本概念的无穷小量的理解与运用有些混乱,所以这个方法遭受了广泛的攻击,知道柯西用极限的方法定义了无穷小量,微积分理论得以发展和完善,才让数学大厦变得稳固。
理论的建设都是逐步完善的,哪怕像牛顿和莱布尼兹也是在凭借天才的直觉和智慧发明了微积分并应用后再等待后人完善。Theory of Deep Learning正在进行新一轮的快速推进,这两年的研究飞速发展,假以时日,DL不仅会成为业界的主流,更会有完善的理论体系。
这里简单聊一下对DL可解释性的朴素理解。神经网络中有哪些概念呢?w,b,传播方式(forward,bp,bi...),神经元个数、层数、组合方式,梯度,而能够可够探讨并得出可解释部分的动态信息是什么呢?神经元状态(w和b)和梯度。
1、神经元状态:神经元在接受刺激P(X)后会产生变化,P(Y|X)是后验概率,所以在监控神经元状态的统计量变化可以探查出刺激P(X)的不同,是对于刺激和输出监控的补充。
2、边权重: 假设第一隐层(连接输入层)的边权重,该层共有272*256条边,每一条边的权重都由图中的一个像素点的颜色表示,纵轴为输入向量的维度(272维),横轴为输出的维度(256维) 。过拟合的模型中,边权重的大小分布很不均匀,出现了大量权重(绝对值)极大的边,且集中在一条带状区域内。这一条带状区域为某一组特征输入所连接的所有边,表明模型过度拟合了该组特征的信息。我们更进一步发现,无法通过正则或dropout来防止这种过拟合状况并提升模型效果。这表明问题出在该组特征输入上,需要针对该组特征进行进一步分析和处理。
3、梯度:通过观测输出对于神经元状态的倒数,即梯度的特征重要性,可以发现, 过拟合的模型过度看中少量几组特征。
4、 扰动:在一组特征输入中引入随机扰动,通过对比是否有扰动的效果之差,来衡量该组特征对于该模型的平均主要性。
5、 构造简单模型探测网络隐层的效用: 用该隐层神经元的状态为输入,训练一个简单的LR模型同样来预估结果。该LR模型的效果可以反映该隐层提炼的信息的效用。