公司资讯

总结优化算法收敛性证明的两类方法

发布时间：2024-04-29 04:29人气：

这篇文章中，我们总结两类做数值优化迭代算法收敛性证明的方法，同时也讨论了优化算法设计的思路。

数值优化在工程应用中有非常重要的作用。但在使用优化算法时候，算法的收敛性是我们需要认真考虑的东西，例如我们需要知道梯度下降是一阶收敛而牛顿法是二阶收敛，因此一般情况下，牛顿法会比梯度下降运行更快。了解收敛性后，我们才能更好地应用算法。这里，我们总结两类做数值算法收敛性证明的方法，同时讨论以后我们自己设计算法的思路。

该类中，收敛性的证明多使用不动点定理(Fixed Point Theorems)进行证明。不动点定理(Fixed Point Theorems)是数学证明中一个非常重要的定理，许多重要的数学定理都是由不动点定理证明的，例如偏微分方程解的存在性、博弈论中纳什均衡点的存在性以及我们这里即将介绍的数值算法的收敛性等。我们首先介绍一下不动点定理，然后介绍如何使用不动点定理进行算法收敛性证明。

简单地说，对一个函数 $f$ , 如果有一个点 $x$ ，使得 $f(x)=x$ ，那么我们称 $x$ 为 $f$ 的一个不动点。例如对于函数 $f(x)=x$ ，任意一点都是 $f$ 的不动点，对于 $f(x)=x^3$ ， $x=1$ 为 $f$ 的不动点。但并不是所有的函数都是有不动点的，例如 $f(x)=x+1$ 就不具有不动点。那么一个自然的问题就是 $f$ 在具有什么样的条件下有不动点呢？这里我们介绍巴拿赫固定点定理(Banach Fixed Point Theorem)。

巴拿赫固定点定理：对于函数 $f:B(y,r)\\rightarrow B(y,r)$ ，其中 $B(y,r)$ 为以 $y$ 为源点， $r$ 为半径的球，如果存在一个数 $q$ , $0\\leq q<1$ 使得
$|f(x)-f(y)|\\leq q|x-y|，\\qquad (2.1) \\\\$ 那么， $f$ 具有唯一一个不动点 $x^*\\in B(y,r)$ ，即 $f(x^*)=x^*$ ,并且我们能通过下列方法来找到 $x^*$ ：找一个初始点 $x_0$ ，并按照 $x_{n+1}=f(x_n)$ 的方法生成一个序列 $\\{x_n\\}$ ，那么我们有 $x_n$ 收敛到 $x^*$ 。我们称 $f$ 为压缩映射(contraction mapping)。

注意到巴拿赫固定点定理不仅给出了不动点的存在性，而且给出了唯一性以及构造不动点的办法。那么我们如何使用这个不动点定理来进行算法收敛性证明和指导算法设计呢？给定一个算法，为了证明其收敛性，我们可以将算法的每一次迭代看做一个函数 $f$ ，算法第 $n$ 次的输入为 $x_n$ 而输出为 $x_{n+1}$ ，那么我们首先需要证明 $f$ 为压缩映射，即满足性质 $(2.1)$ ，根据巴拿赫固定点定理，我们就有 $f$ 的固定点存在，即我们的整个算法收敛。反过来，如果我们要设计一个迭代算法，求解一个值 $x$ ，那么我们需要构造一个压缩映射 $f$ ，将 $x$ 作为 $f$ 的一个不动点，再以任意一个初值 $x_0$ 出发，按照 $x_{n+1}=f(x_n)$ 的迭代方式，生成序列 $\\{x_n\\}$ ，最终当迭代次数足够多的时候， $x_n$ 将离 $x$ 非常接近，即为 $x$ 的一个好的估计值。

下面我们通过例子来介绍巴拿赫固定点定理如何指导算法的设计，详细的证明可以参见更专业的书籍或者论文。

这里我们考虑下列问题

$\\min f(x). \\qquad (2.1.1) \\\\$

这里我们假设 $f$ 足够的光滑，具有很好的性质。那么根据微积分里的定理，如果 $x^*$ 为上述问题的解，那么 $x^*$ 满足

$\ abla f(x^*)=0. \\qquad (2.1.2) \\\\$

其中 $\ abla f$ 为 $f$ 的梯度。如果我们想使用巴拿赫不动点定理来设计一个算法求解 $(2.1.1)$ ，那么，我们必须找到一个函数 $G$ ，将 $x^*$ 作为 $G$ 的不动点，并且在不动点处， $x^*$ 能满足条件 $(2.1.2)$ 。如何寻找这么一个函数 $G$ 呢？我们可以从最简单的开始，将 $(2.1.2)$ 取负后两边同时加上一个 $x^*$ ，我们得到

$x^*-\ abla f(x^*)=x^*，\\qquad (2.1.3) \\\\$

我们定义 $G(x)=x-\ abla f(x)$ ，那么 $x^*$ 即为 $G$ 的一个不动点，所以我们可能会期望按照算法 $x_{n+1}=G(x_n)$ 的方式生成一个序列 $\\{x_n\\}$ 并且 $x_n$ 会收敛到 $x^*$ 。这时，我们需要使用巴拿赫固定点定理。我们得去验证 $G$ 是否是一个压缩映射，即是否满足条件 $(2.1)$ ，我们会做下列的计算。假设 $x,y$ 为 $\\mathbb{R}^n$ 中的一点，我们有

$\\begin{align*}|G(x)-G(y)|^2=&|x-y-(\ abla f(x)-\ abla f(y))|^2\\\\=&|x-y|^2-2\\langle x-y, \ abla f(x)-\ abla f(y)\\rangle+|\ abla f(x)-\ abla f(y)|^2。 \\end{align*}\\qquad (2.1.4) \\\\$

观察上述式子，我们知道对于一般的函数 $f$ ，上述式子并不会给出 $(2.1)$ 的结果。因此，我们需要限定 $f$ 的讨论范围。我们假设 $f$ 满足下列性质：存在 $\\mu>0$ , $L>0$ ，使得

那么，根据 $(2.1.4)-(2.1.6)$ ，我们有

$\\begin{align*}|G(x)-G(y)|^2\\leq (1-2\\mu+L)|x-y|^2\\qquad (2.1.7) \\end{align*}\\\\$

因此，要使得 $G$ 满足条件 $(2.1)$ ，我们需要 $0\\leq 1-2\\mu+L<1$ ，即 $2\\mu-1\\leq L<2\\mu$ 。那么我们可以有下列定理

假设 $f$ 足够光滑且满足 $(2.1.5)$ 和 $(2.1.6)$ ，并且 $2\\mu-1\\leq L<2\\mu$ ，定义函数 $G(x)=x-\ abla f(x)$ ，那么 $G$ 有唯一一个不动点 $x^*$ ，且 $x^*$ 满足 $\ abla f(x^*)=0$ 。从 $x_0$ 开始，我们按照下列方式生成一个序列 $\\{x_n\\}$ ，
$x_{n+1}=G(x_n)=x_n-\ abla f(x_n)，(2.1.8) \\\\$ 则 $x_n$ 收敛到 $x^*$ 。

可以观察到，如果我们取 $G(x)=x+\ abla f(x)$ ，在 $G(x)$ 的不动点 $x^*$ 处，我们仍然有 $\ abla f(x^*)=0$ ，看起来如此定义的 $G$ 也是一个生成迭代算法的好的函数。但是 $G$ 是否满足压缩映射的假设呢？读者可以试着进行 $(2.1.4)$ 的计算来查看会发生什么事情。并且思考如何改变 $(2.1.5)$ 与 $(2.1.6)$ 的假设使得计算能够进行下去，思考你改的假设是否合理等等问题。

对算法熟悉的读者知道，由 $G(x)=x-\ abla f(x)$ 生成的迭代算法 $(2.1.8)$ 即为梯度下降算法。类似的构造算法还有牛顿法，我们可以取

$G(x)=x-(\ abla^2 f(x))^{-1}\ abla f(x), \\qquad (2.1.9) \\\\$

其中 $\ abla^2 f$ 为 $f$ 的二阶导数。因此，如果在 $G$ 的不动点 $x^*$ 处， $\ abla^2 f(x^*)$ 可逆，我们有 $G(x^*)=x^*$ ，即

$x^*=x^*-(\ abla^2 f(x^*))^{-1}\ abla f(x^*)，\\qquad (2.1.10) \\\\$

上述式子给出 $\ abla f(x^*)=0$ ，即 $x^*$ 为 $f$ 的一个极值点。读者可以搜索相关文献查阅 $G$ 为压缩映射需要满足的条件。

这里我们考虑下列优化问题

$\\min_x \\varphi(x)+\\psi(x), \\qquad (2.2.1) \\\\$

问题 $(2.2.1)$ 在图像处理、最优传输，最优控制等问题中都有出现。我们可以将 $\\varphi+\\psi$ 看做一个函数，再使用梯度下降来求解。然而由于 $\\varphi+\\psi$ 是两个函数的和，我们又可以采用这个特点设计新的算法。为了更清楚的说明整个思想，我们假设 $\\varphi$ 和 $\\psi$ 都是足够光滑的，即我们可以求 $\\varphi$ 和 $\\psi$ 的导数。虽然以下算法的威力在 $\\varphi$ 和 $\\psi$ 其中一个不可求导的时候才能体现出来，但这样可以让我们在这里避免讨论像子导数(Subgradient)的概念，专注算法的设计思想。

根据微积分的定理，我们知道如果 $x^*$ 为 $(2.2.1)$ 中 $\\varphi+\\psi$ 的最小值点，那么我们有

$0=\ abla \\varphi(x^*)+\ abla \\psi(x^*), \\qquad (2.2.2) \\\\$

类似上一节中我们构造梯度下降的生成函数的思路，我们需要根据 $(2.2.2)$ 的条件，将 $x^*$ 表示为某个函数 $G$ 的不动点。下面我们介绍几种算子的划分算法。

Forward-Backward Splitting. 从 $(2.2.2)$ ，我们可以得到

$-\ abla \\varphi(x^*)=\ abla \\psi(x^*)。\\qquad (2.2.3) \\\\$

将 $(2.2.3)$ 的两边同时加上 $x^*$ ，我们得到

$x^*-\ abla\\varphi(x^*)=x+\ abla\\psi(x^*)=(I+\ abla \\psi)(x^*)，\\qquad (2.2.4) \\\\$

其中 $I$ 为Identity Map，即对任意的 $x$ ，我们有 $I(x)=x$ 。在 $(2.2.4)$ 中，我们将算子 $(I+\ abla \\psi)$ 求逆，得到

$x^*=(I+\ abla \\psi)^{-1}(x^*-\ abla \\varphi(x^*)). \\qquad (2.2.5) \\\\$

因此，我们可以定义

$G(x)=(I+\ abla \\psi)^{-1}(x-\ abla \\varphi(x)). \\qquad (2.2.6) \\\\$

$x^*$ 即为 $G$ 的一个不动点。我们可以使用 $G$ 生成算法

$\\begin{align*}y^{n+1}=&x^n-\ abla \\varphi(x^n),\\qquad (2.2.7)\\\\ x^{n+1}=&(I+\ abla \\psi)^{-1}y^{n+1}. \\qquad (2.2.8) \\end{align*}\\\\$

可以看出 $(2.2.7)$ 为沿着 $\\varphi$ 的负梯度方向进行一次梯度下降，而 $(2.2.8)$ 为沿着 $\\psi$ 的梯度方向找到梯度上升后能够到达 $y^{n+1}$ 的位置的点。因此， $(2.2.7)-(2.2.8)$ 被称作Forward-Backward Splitting。读者可以查看相关文献查阅 $G$ 为压缩算子所需要的的条件。

Douglas-Rachford Splitting 这里，为了书写的方便，我们定义

$R_{\\varphi}=(I+\ abla \\varphi)^{-1}, \\ R_{\\psi}=(I+\ abla \\psi)^{-1}, \\qquad (2.2.9) \\\\$ $x=(I+\ abla \\varphi)^{-1}z， \\qquad (2.2.10) \\\\$

并定义

$G(z)=((1-\\alpha)I+\\alpha R_\\psi R_\\varphi) z, \\qquad (2.2.11) \\\\$

其中 $\\alpha$ 为 $(0,1)$ 区间的一个实数。读者可以验证如果 $z^*$ 是 $G(z)$ 的不动点，那么根据 $(2.2.10)$ 得到的 $x^*$ 满足 $(2.2.2)$ ，因此，我们可以使用函数 $G(z)$ 来生成迭代算法。读者可以参考论文Linear Convergence and Metric Selection for Douglas-Rachford Splitting and ADMM查阅 $G$ 为压缩映射所需要的条件。

注: 可以从上面例子看出，我们有非常多的方法来将优化算法的解表示为某个函数 $G$ 的不动点，然后根据函数 $G$ 来生成算法。但是并不是每一个这样构造的算法都收敛。为了保证收敛性，我们需要构造的函数 $G$ 是压缩映射。

这里我们仍然考虑单个函数的优化，我们试图解决下列优化问题

$\\min_x f(x). \\qquad (3.1) \\\\$

假设 $x^*$ 为函数 $f$ 的最小值点。我们采用某种迭代算法来计算 $(3.1)$ ，记 $x_n$ 为第 $n$ 步迭代计算所得的值。为了证明该算法的收敛性，我们找到一个能量函数，（一般叫做Lyapunov函数），该函数度量了 $x_n$ 与 $x^*$ 之间的某种距离。我们将该能量函数记做 $E(x^*, x_n)$ ，能量函数必须是大于等于零的。然后我们证明 $E(x^*,x_n)$ 为递减的函数，即对任意的 $n$ ，我们有

$E(x^*,x_{n+1})\\leq E(x^*, x_n). \\qquad (3.2) \\\\$

直觉上讲， $(3.2)$ 描述的是在迭代过程中，随着迭代次数增加， $x_n$ 离 $x^*$ 越来越近，我们的算法在收敛。

下面是几种常见的能量函数:

$E(x^*,x_n)=|x^*-x_n|^2$ 。该函数度量了 $x_n$ 到 $x^*$ 的欧几里得距离，如果 $|x^*-x_n|^2$ 减小到足够小，那么 $x_n$ 可作为最小值点的近似值。读者可以参考Newton's Method中对牛顿法的收敛性证明。
$E(x^*,x_n)=f(x_n)-f(x^*)$ 。该函数度量的是函数值之间的距离，如果 $E$ 很小，那么 $f(x_n)$ 离 $f(x^*)$ 很近，但是可能 $x_n$ 离 $x^*$ 可能并不近，例如函数 $f$ 的底部非常的平坦，如下图所示，那么算法可能在离 $x^*$ 很远的地方就停下来了。因此使用该距离可能会产生较大的误差，需要根据函数的特性来定。对于此距离函数证明收敛性，可以参见 Gradient Descent and Acceleration对Nesterov加速算法的证明。

$E(x^*,x_n)=h(x^*)-h(x_n)-<\ abla h(x_n), x^*-x_n>$ ，其中 $h$ 为一个凸函数。函数 $E$ 定义了 $x^*$ 与 $x_n$ 之间的Bregman距离。可以参见A Variational Perspective on Accelerated Methods in Optimization。

当然，这里列出的能量函数并不完整，例如Fast alteranting direction optimization methods这篇文章中，使用原问题与对偶问题的优化条件的残差(Primal dual residuals)来定义能量函数。在实际问题中，对于具体的问题如何设计好能量函数，仍然是比较靠科研人员的直觉和经验。

这篇文章中，我们介绍了两类证明算法收敛性的方法：固定点类与能量函数类。对于固定点类的算法，我们讨论了如何基于固定点的思想来设计新的算法。这里的总结一定是不完全的，随着更多地阅读论文，以后有机会将更多的方法纳入这个归纳中。

上一篇：抖音无水印视频怎么下载？

下一篇：带飞全场电竞小说

020-88888888s

总结优化算法收敛性证明的两类方法

020-88888888

微信扫码关注我们

020-88888888s

总结优化算法收敛性证明的两类方法

020-88888888

微信扫码 关注我们

微信号：WX8888888微信二维码

微信扫码关注我们