Simple expressions interpreting the gradientCompound expressions chain ruleIntuitive understanding of backpropagationModularity Sigmoid exampleBackprop in practice Staged computationPatterns in backward flowGradients for vectorized operations
Simple expressions, interpreting the gradient
一些梯度的内容
Compound expressions, chain rule
链式法则
Intuitive understanding of backpropagation
前向:计算变量(包括中间变量值)前向结束之后,每个节点知道自己关于前一个变量的偏导 后向:回传梯度*自己对输入的局部梯度,利用链式法则可以得到整个网络对于每个输入值的梯度
Modularity: Sigmoid example
看懂计算线路图 sigmoid function 1/(exp^(-x)),导数((1−σ(x))σ(x)) staged backpropagation: create intermediate variable
Backprop in practice: Staged computation
一些注意点:注意存储中间值,在不同分支的相同变量要累加!
Patterns in backward flow
不同门单元 add gate 进行了梯度直接传递 max gate 将梯度传递给取值大的变量,其余取0 multiply gate 注意相互交换,大梯度分给小变量,小梯度分给大变量。因为经常处理内积,说明x对w的梯度有影响,所以要进行数据预处理
Gradients for vectorized operations
Matrix-Matrix multiply gradient 要通过维度去推导,这样快很多!
转载请注明原文地址: https://ju.6miu.com/read-37233.html