Basic_1
2025年2月22日 星期六
16:06
|
|
|||
|
|
![]() ![]() |
||
|
|
|||
|
|


关于神经网络计算梯度时,是将参数W看成是矩阵还是向量的疑问。
参考:
https://www.jasonosajima.com/backprop.html
以及gradient-notes.pdf 这篇cs课程的pdf。
我的答案:计算Jacobian矩阵的时候是将参数W看成向量,此时Jacobian矩阵偏J/偏W是个1*nm向量,但是为了梯度更新时做减法方便,会将这个向量rearrange成n*m的矩阵。
以手写数字识别为例 |
neural networks function |
Loss function |
Input |
784个pixel |
13002个weights/bias |
output |
10个number |
1 number(loss) |
parameters(参数是固定的) |
13002个weights/bias |
Training data |

已使用 OneNote 创建。