「矩阵求导」学习笔记

标量求导

导数的定义：假设有一个函数$f:\mathbb{R} \rightarrow \mathbb{R}$，其输入输出都是标量。如果$f$的导数存在，那么这个极限被定义为：

$$ f’(x)= \lim_{h \to 0}\frac{f(x+h)-f(x)}{h} $$

来个代码演示下：

In [1]: def f(x):  # 定义一个函数
   ...:     return 3 * x ** 2 - 4 * x
   ...:

In [2]: def numerical_lim(f, x, h):  # 定义求导的计算方法
   ...:     return (f(x+h) - f(x)) / h
   ...:

In [3]: h = 0.1

In [4]: for i in range(5):  # 循环逐渐逼近求导
   ...:     print(f'h={h}, numerical limit={numerical_lim(f, 1, h, ):.5f}')
   ...:     h *= .1
   ...:
h=0.1, numerical limit=2.30000
h=0.010000000000000002, numerical limit=2.03000
h=0.0010000000000000002, numerical limit=2.00300
h=0.00010000000000000003, numerical limit=2.00030
h=1.0000000000000004e-05, numerical limit=2.00003

另$y=3x^2-4x$，所以$y'=6x-4$，即$y'(1)=6-4=2$。

常见导数

一元一次函数的求导：

$y$	$a$	$x^n$	$a^x$	$Inx$	$sin(x)$
$\frac{dy}{dx}$	0	$nx^{n-1}$	$(Ina)(a^x)$	$\frac{1}{x}$	$cos(x)$

$a$不是关于$x$的函数。

复合函数的求导：

$y$	$u+v$	$uv$	$y=f(u), u=g(x)$
$\frac{dy}{dx}$	$\frac{du}{dx} + \frac{dv}{dx}$	$\frac{du}{dx}v + \frac{dv}{dx}u$	$\frac{dy}{du}·\frac{du}{dx}$

导数拓展到向量与矩阵

可能出现的情况

Tips / 提示
没有特殊说明，本博文中提到的$x,y$都为标量，$\mathbf{x,y}$为一维Tensor——向量，$\mathbf{X,Y}$为二维Tensor——矩阵。

-	$x$	$\mathbf{x}$	$\mathbf{X}$
$y$	$\frac{\partial y}{\partial x}$	$\frac{\partial y}{\partial \mathbf{x}}$	$\frac{\partial y}{\partial \mathbf{X}}$
$\mathbf{y}$	$\frac{\partial \mathbf{y}}{\partial x}$	$\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$	$\frac{\partial \mathbf{y}}{\partial \mathbf{X}}$
$\mathbf{Y}$	$\frac{\partial \mathbf{Y}}{\partial x}$	$\frac{\partial \mathbf{Y}}{\partial \mathbf{x}}$	$\frac{\partial \mathbf{Y}}{\partial \mathbf{X}}$

举个?

对于一个多元函数：

$$ f(x_1,x_2,x_3) = x_1^2+x_1x_2+x_2x_3 $$

可以将$f$对$x_1,x_2,x_3$的偏导数分别求出来，即：

$$ \begin{equation} \begin{cases} \frac{\partial f}{\partial x_1} = 2x_1+x_2 \\ \frac{\partial f}{\partial x_2} = x_1+x_3 \\ \frac{\partial f}{\partial x_3} = x_2 \end{cases} \end{equation} $$

所谓向量的求导，其实与多元函数的求导类似，只不过写成了向量的形式。

上式就可以理解为一个$f$关于向量$[x_1,x_2,x_3]^T$的函数：

$$ f([x_1,x_2,x_3]^T) = x_1^2+x_1x_2+x_2x_3 $$

对其进行求导的结果是：

$$ \frac{\partial f(\mathbf{x})}{\partial \mathbf{x}_{3×1}}= \left [ \begin{matrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \frac{\partial f}{\partial x_3} \end{matrix} \right ] = \left [ \begin{matrix} 2x_1+x_2 \\ x_1+x_3 \\ x_2 \end{matrix} \right ] $$

上面这个形式就是一个标量$f$对一个向量求导的情况。

矩阵、向量的求导, 本质就是每个$f$分别对变元中的每个元素逐个求偏导，只不过写成了向量、矩阵形式而已。所以，如果function中有m个$f$，变元中有n个元素，那么每个$f$对变元中的每个元素逐个求偏导后，我们就会产生$m×n$个结果。

求导秘术

标量不变，向量拉伸；
前面横向拉，后面纵向拉；
分母布局——YX拉伸，分子布局——XY拉伸，通常$(分母布局)^T=(分子布局)$。

该方法来自Bilibili @GRNovmbrain¹。

例如，当$\mathbf{f}(\mathbf{x})$以及$\mathbf{x}_{n×1}$都为向量时：

$$ \mathbf{f}(\mathbf{x})= \left [ \begin{matrix} f_1(\mathbf{x}) \\ f_2(\mathbf{x}) \\ ... \\ f_n(\mathbf{x}) \end{matrix} \right ], \ \mathbf{x} = \left [ \begin{matrix} x_1 \\ x_2 \\ ... \\ x_n \end{matrix} \right ] $$

那么求导结果为：

$$ \frac{\partial \mathbf{f}(\mathbf{x})}{\partial \mathbf{x}}= \left [ \begin{matrix} \frac{\partial \mathbf{f}}{\partial x_1} \\ \frac{\partial \mathbf{f}}{\partial x_2} \\ \cdots \\ \frac{\partial \mathbf{f}}{\partial x_n} \end{matrix} \right ] = \left [ \begin{matrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_2}{\partial x_1} & \cdots & \frac{\partial f_n}{\partial x_1} \\ \frac{\partial f_1}{\partial x_2} & \frac{\partial f_2}{\partial x_2} & \cdots & \frac{\partial f_n}{\partial x_2} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_1}{\partial x_n} & \frac{\partial f_2}{\partial x_n} & \cdots & \frac{\partial f_n}{\partial x_n} \end{matrix} \right ] $$

Tips / 提示
由上式可以看出，先对后面（X）进行了纵向拉伸，在对前面（Y）进行了横向拉伸。
同时也可以看出，一个$n×1$的向量对一个$n×1$的向量求导后，得到了一个$n×n$的矩阵。

导数拓展到矩阵

矩阵求导结果的布局

包括：分子布局或分母布局。

分子布局：求导结果的维度以分子为主。拿标量对向量求导的例子来说，假如向量是一个行向量，那么求导结果是列向量，假如向量是一个列向量，那么求导结果是行向量。
分母布局：求导结果的维度以分母为主。拿标量对向量求导的例子来说，假如向量是一个行向量，那么求导结果是行向量，假如向量是一个列向量，那么求导结果是列向量。

可见，分子布局和分母布局两者相差一个转置。

分子布局，就是分子是列向量形式，分母是行向量形式：

$$ \frac{\partial f_{2×1}(\mathbf{x})}{\partial \mathbf{x}_{3×1}^T}= \left [ \begin{matrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} & \frac{\partial f_1}{\partial x_3}\\ \frac{\partial f_2}{\partial x_1} & \frac{\partial f_2}{\partial x_2} & \frac{\partial f_2}{\partial x_3} \end{matrix} \right ]_{2×3} $$

分母布局，就是分母是列向量形式，分母是行向量形式：

$$ \frac{\partial f^T_{2×1}(\mathbf{x})}{\partial \mathbf{x}_{3×1}}= \left [ \begin{matrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_2}{\partial x_1} \\ \frac{\partial f_1}{\partial x_2} & \frac{\partial f_2}{\partial x_2} \\ \frac{\partial f_1}{\partial x_3} & \frac{\partial f_2}{\partial x_3} \end{matrix} \right ]_{3×2} $$

Expand / 拓展
可以看出，$(分母布局)^T=(分子布局)$，且分子布局中求导后的结果行数与分子相同，分母布局中求导后的结果行数与分母相同。

举个?

设存在函数：

$$ f(\mathbf{x}), \ \mathbf{x}= \left [ \begin{matrix} x_1 \\ x_2 \\ \cdots \\ x_n \end{matrix} \right ]_{n×1} $$

求导可以得：

$$ \frac{\partial f(\mathbf{x})}{\partial \mathbf{x}}= \left [ \begin{matrix} \frac{\partial f}{\partial x_1}\\ \frac{\partial f}{\partial x_2}\\ \cdots \\ \frac{\partial f}{\partial x_n} \end{matrix} \right ]_{n×1} $$

因为$f(\mathbf{x})$为标量函数，所以行数为1，$\mathbf{x}$为$n×1$向量，求导的结果为$n×1$向量，求导后的结果与分母具有相同得行数，所以上述为分母布局。

求导方式也可以写为行向量形式：

$$ \frac{\partial f(\mathbf{x})}{\partial \mathbf{x}}= \left [ \begin{matrix} \frac{\partial f}{\partial x_1}, \ \frac{\partial f}{\partial x_2}, \ \cdots, \ \frac{\partial f}{\partial x_n} \end{matrix} \right ]_{1×n} $$

求导的结果为$1×n$向量，求导后的结果与分子具有相同得行数，所以上述为分母布局。

证明：$(分母布局)^T=(分子布局)$，另

$$ f(x_1, \ x_2)=x_1^2+x_2^2, \ \mathbf{x}= \left [ \begin{matrix} x_1\\ x_2 \end{matrix} \right ]_{2×1} $$

对应的分母布局为：

$$ \frac{\partial f(\mathbf{x})}{\partial \mathbf{x}}= \left [ \begin{matrix} \frac{\partial f}{\partial x_1}\\ \frac{\partial f}{\partial x_2} \end{matrix} \right ]_{2×1}= \left [ \begin{matrix} 2x_1\\ 2x_2 \end{matrix} \right ]_{2×1} $$

对应的分子布局为：

$$ \frac{\partial f(\mathbf{x})}{\partial \mathbf{x}}= \left [ \begin{matrix} \frac{\partial f}{\partial x_1}, \ \frac{\partial f}{\partial x_2} \end{matrix} \right ]_{1×2}= \left [ \begin{matrix} 2x_1, \ 2x_2 \end{matrix} \right ]_{1×2} = \left [ \begin{matrix} 2x_1\\ 2x_2 \end{matrix} \right ]_{2×1}^T $$

该方法来自Bilibili @DR_CAN²。
梯度指向值变化最大的方向。

常用公式推导

1、如果存在$f(x)=A^T\mathbf{x}$，那么：

$$ \frac{\partial f}{\partial \mathbf{x}}=A^T $$

另：

$$ A= \left [ \begin{matrix} a_1 \\ a_2 \\ \cdots \\ a_n \end{matrix} \right ]_{n×1}, \ \mathbf{x}= \left [ \begin{matrix} x_1 \\ x_2 \\ \cdots \\ x_n \end{matrix} \right ]_{n×1}, \ $$

$f(x)=A^T\mathbf{x}$为一个标量：

$$ f(x) = A^T\mathbf{x} = \sum_{i=1}^{n}a_ix_i $$

所以，对其求导得：

$$ \frac{\partial f(\mathbf{x})}{\partial \mathbf{x}}= \left [ \begin{matrix} \frac{\partial f}{\partial \mathbf{x_1}} \\ \frac{\partial f}{\partial \mathbf{x_2}} \\ \cdots \\ \frac{\partial f}{\partial \mathbf{x_n}} \\ \end{matrix} \right ] = \left [ \begin{matrix} \frac{\partial (\sum_{n}^{i=1}a_ix_i)}{\partial \mathbf{x_1}} \\ \frac{\partial (\sum_{n}^{i=1}a_ix_i)}{\partial \mathbf{x_2}} \\ \cdots \\ \frac{\partial (\sum_{n}^{i=1}a_ix_i)}{\partial \mathbf{x_n}} \\ \end{matrix} \right ] = \left [ \begin{matrix} a_1 \\ a_2 \\ \cdots \\ a_n \end{matrix} \right ] = A $$

上面是分子布局的结果，如果是分母布局，结果应该为：

$$ \frac{\partial f(\mathbf{x})}{\partial \mathbf{x}}=A^T $$

由线性代数基本公式可以推导出：$A^T \mathbf{x}=\sum_{i=1}^{n} a_ix_i=\mathbf{x}^TA$，所以说对于$\mathbf{x}^TA$也适用于本结论。

2、如果存在$\mathbf{y}=A\mathbf{x}$，则：

$$ \frac{\partial \mathbf{y}}{\partial \mathbf{x}}=\frac{\partial (A\mathbf{x})}{\partial \mathbf{x}}=A $$

讲解

矩阵的求导是真抽象啊?，参考学习链接：

【手推机器学习】矩阵求导--合集：https://www.bilibili.com/video/BV1xk4y1B7RQ/ ↩
【矩阵的导数运算】1\_标量向量方程对向量求导\_分母布局\_分子布局：https://www.bilibili.com/video/BV1av4y1b7MM/ ↩

当前页面是本站的「Baidu MIP」版。发表评论请点击：完整版 »

「 矩阵求导」学习笔记

标量求导

常见导数

导数拓展到向量与矩阵

可能出现的情况

Tips / 提示

举个?

求导秘术

Tips / 提示

导数拓展到矩阵

矩阵求导结果的布局

Expand / 拓展

举个?

常用公式推导

讲解

「矩阵求导」学习笔记