求解大型线性最小二乘问题的贪婪Gauss-Seidel方法

李寒宇，张彦钧; LI Hanyu; ZHANG Yanjun

网刊加载中。。。

使用Chrome浏览器效果最佳，继续浏览，你可能不会看到最佳的展示效果，

确定继续浏览么?

复制成功，请在其他浏览器进行阅读

求解大型线性最小二乘问题的贪婪Gauss-Seidel方法 PDF

- ORCID：
李寒宇
✉
- ORCID：
张彦钧

重庆大学数学与统计学院，重庆 401331

中图分类号： O241.6

最近更新：2021-11-25

DOI：10.11908/j.issn.0253-374x.21201

摘要

基于一种选择系数矩阵 $A$ 的工作列的策略，提出了求解大型线性最小二乘问题的一种不同的贪婪Gauss-Seidel方法，并对该方法进行了收敛性分析。数值实验表明，在相同的精度下，所提方法在计算时间上优于文献提出的贪婪随机坐标下降方法。

关键词

贪婪Gauss-Seidel方法; 贪婪随机坐标下降方法; 随机的Gauss-Seidel方法; 大型线性最小二乘问题

线性最小二乘问题是数值代数与科学计算中一个经典问题，经常出现于参数估计、反演与预测等问题之中。常见的直接法包括带旋转的QR分解法和奇异值分解法^［

1-2］等。然而，当矩阵规模较大时，此类方法通常需要很大的存储量并且计算成本较高。因此，迭代法成为求解大型线性最小二乘问题的重要选择，如著名的Gauss-Seidel方法^{［参考文献 3

百度学术}3］。

众所周知， Gauss-Seidel方法与Kaczmarz方法密切相关，如它们均可视为坐标下降法对应于特殊半正定线性系统的变形。具体地，对于线性系统 $A x = b$ ， Kaczmarz方法的迭代格式与坐标下降法应用于半正定系统 $A A^{T} u = b$ ，并结合标准的原始-对偶映射 $x = A^{T} u$ 的迭代格式一致， Gauss-Seidel方法 $的迭代格式则$ 等同于坐标下降法应用于半正定系统 $A^{T} A x = A^{T} b$ 的迭代格式^［

4］。2009年， Strohmer和Vershynin^{［参考文献 5

百度学术}5］首次证明了随机Kaczmarz方法具有线性收敛性。随后， Leventhal和Lewis^{［参考文献 6

百度学术}6］证明了随机Gauss-Seidel（RGS）方法也具有类似的结果，该方法也称为随机坐标下降方法。它是根据适当的概率分布随机投影于矩阵A的列，达到最小化

‖ b - A x ‖_{2}^{2}

的目的，因而具有很好的性能，从而引起了广泛的关注，可参见文献［7-14］及其参考文献。

Bai和Wu^［

15］提出了贪婪随机坐标下降（GRCD）方法，该方法引入了一种贪婪的概率准则，避免了RGS方法的一些缺点，从而使得其在迭代次数和计算时间上都优于RGS方法。文献［15］提出的贪婪思想具有广泛的应用，参见文献［16-24］及其参考文献。

本文提出一种求解大型线性最小二乘问题的贪婪Gauss-Seidel（GGS）方法，与GRCD方法相比，它采用了完全不同的方式来确定矩阵 $A$ 的工作列，使得其每次迭代所需的计算时间更少。从理论上证明GGS方法的收敛性；在数值实验中，利用文献［

15］中的例子比较了GGS和GRCD这2种方法的性能。

1 预备知识

对于向量 $z ϵ R^{n}$ ， $z^{(j)}$ 表示它的第 $j$ 个分量。对于矩阵 $G = (g_{i j}) ϵ R^{m \times n}$ ， $G_{(j)}$ 、 $| | G | |_{2}$ 以及 $| | G | |_{F}$ 分别表示它的第 $j$ 列、谱范数以及F范数。此外，如果 $G ϵ R^{n \times n}$ 是一个正定矩阵，那么任意一个向量 $x ϵ R^{n}$ 的能量范数定义为 $| | x | |_{G} = \sqrt[]{x^{T} G x}$ ，其中 ${(\cdot)}^{T}$ 表示一个向量或者一个矩阵的转置。另外，用 $I$ 表示单位矩阵，用 $e_{j}$ 表示它的第 $j$ 列，用 $λ_{m i n} (G^{T} G)$ 表示 $G^{T} G$ 的最小正特征值，用 $| W |$ 表示集合W的元素个数。

类似文献［

15］，本文以

x_{*} = A^{†} b

，其中

A^{†} = (A^{T} {A)}^{- 1} A^{T}

表示A的Moore-Penrose广义逆，表示如下线性最小二乘问题的唯一最小范数最小二乘解：

\underset{x ϵ ℛ^{n}}{m i n} ‖ b - A x ‖_{2}^{2}

（1）

其中矩阵 $A ϵ R^{m \times n}$ 列满秩，向量 $b ϵ R^{m}$ . 众所周知， $x_{*} ≔ a r g \underset{x ϵ R^{n}}{m i n} ‖ b - A x ‖_{2}^{2}$ 是关于式（1）的如下正规方程组^［

25］的解：

A^{T} A x = A^{T} b

（2）

基于正规方程组（2），文献［

15］提出了如下贪婪随机坐标下降方法，即算法1，其中

r_{k} = b - A x_{k}

表示残差向量。

算法1 　贪婪随机坐标下降方法。 ①置 $k : = 0$ 。计算 $δ_{k} = \frac{1}{2} (\frac{1}{| | A^{T} r_{k} | |_{2}^{2}} \underset{1 \leq j \leq n}{m a x} \{\frac{{|A_{(j)}^{T} r_{k}|}^{2}}{‖ A_{(j)} ‖_{2}^{2}}\} + \frac{1}{| | A | |_{F}^{2}})$ 。 ②定义正整数指标集 $v_{k} = \{j | {|A_{(j)}^{T} r_{k}|}^{2} \geq δ_{k} | | A^{T} r_{k} | |_{2}^{2} ‖ A_{(j)} ‖_{2}^{2}}$ 。③令 $s_{k} = A^{T} r_{k}$ ，计算 ${\tilde{s_{k}}}^{(j)} = \{\begin{matrix} {s_{k}}^{(j)}, 如果 j \in v_{k}, \\ 0, 其他情形。 \end{matrix}$ ④根据概率 $P r (c = j_{k}) = \frac{| {\tilde{s_{k}}}^{(j_{k})} |^{2}}{| | \tilde{s_{k}} | |_{2}^{2}}$ 选取指标 $j_{k} \in v_{k} 。$ ⑤计算 $x_{k + 1} = x_{k} + \frac{{s_{k}}^{(j_{k})}}{‖ A_{(j_{k})} ‖_{2}^{2}} e_{j_{k}}$ 。 ⑥置 $k = k + 1$ ，转步骤①。

由贪婪随机坐标下降方法中 $δ_{k}$ 和 $v_{k}$ 的定义可知，如果 $l \in v_{k}$ ，那么

\frac{{|A_{(l)}^{T} r_{k}|}^{2}}{‖ A_{(l)} ‖_{2}^{2}} \geq \frac{1}{2} (\underset{1 \leq j \leq n}{m a x} \{\frac{{|A_{(j)}^{T} r_{k}|}^{2}}{‖ A_{(j)} ‖_{2}^{2}}\} + \frac{‖ A^{T} r_{k} ‖_{2}^{2}}{| | A | |_{F}^{2}})

注意到

\underset{1 \leq j \leq n}{m a x} \{\frac{{|A_{(j)}^{T} r_{k}|}^{2}}{‖ A_{(j)} ‖_{2}^{2}}\} \geq \overset{}{\sum_{j = 1}^{n}} \frac{‖ A_{(j)} ‖_{2}^{2}}{| | A | |_{F}^{2}} \frac{{|A_{(j)}^{T} r_{k}|}^{2}}{‖ A_{(j)} ‖_{2}^{2}} = \frac{‖ A^{T} r_{k} ‖_{2}^{2}}{| | A | |_{F}^{2}}

因此，不能得到如下结论：如果 $l \in v_{k}$ ，那么 $\frac{{|A_{(l)}^{T} r_{k}|}^{2}}{‖ A_{(l)} ‖_{2}^{2}} \geq \underset{1 \leq j \leq n}{m a x} \{\frac{{|A_{(j)}^{T} r_{k}|}^{2}}{‖ A_{(j)} ‖_{2}^{2}}\}$ ，也即

\frac{{|A_{(l)}^{T} r_{k}|}^{2}}{‖ A_{(l)} ‖_{2}^{2}} = \underset{1 \leq j \leq n}{m a x} \{\frac{{|A_{(j)}^{T} r_{k}|}^{2}}{‖ A_{(j)} ‖_{2}^{2}}\}

由此可知，可能存在一些 $l \in v_{k}$ 使得

\frac{{|A_{(l)}^{T} r_{k}|}^{2}}{‖ A_{(l)} ‖_{2}^{2}} < \underset{1 \leq j \leq n}{m a x} \{\frac{{|A_{(j)}^{T} r_{k}|}^{2}}{‖ A_{(j)} ‖_{2}^{2}}\}

（3）

与此同时，对于任意的 $j_{k} \in v_{k}$ ，由迭代格式可以得到

| | A x_{k + 1} - A x_{k} | |_{2}^{2} = \frac{{|A_{(j_{k})}^{T} r_{k}|}^{2}}{‖ A_{(j_{k})} ‖_{2}^{2}}

（4）

结合式（3）和式（4）可以发现，在更新得到 $x_{k + 1}$ 的时候，指标集合 $v_{k}$ 中的列指标并不能保证 $A x_{k + 1} 与 A x_{k}$ 之间的距离最大。此外，在计算 $δ_{k}$ 的时候需要计算矩阵 $A$ 的所有列范数。

2 基于残差-距离的贪婪Gauss-Seidel方法

考虑到贪婪随机坐标下降方法里指标集合 $v_{k}$ 中的列指标并不能保证 $A x_{k + 1} 与 A x_{k}$ 之间的距离最大，并且计算 $δ_{k}$ 的时候需要计算矩阵 $A$ 的所有列范数；同时，考虑到最近很多工作按照最大残差^［

26-30］策略选择迭代指标，提出了基于残差-距离的贪婪Gauss-Seidel方法，即算法2。

算法2 　贪婪Gauss-Seidel方法。①置 $k : = 0$ 。确定正整数指标集

R_{k} = \{\tilde{j_{k}} | \tilde{j_{k}} = a r g \underset{1 \leq j \leq n}{m a x} |A_{(j)}^{T} r_{k}|}

②计算

j_{k} = a r g \underset{\tilde{j_{k}} \in R_{k}}{m a x} \{\frac{{|A_{(\tilde{j_{k}})}^{T} r_{k}|}^{2}}{‖ A_{(\tilde{j_{k}})} ‖_{2}^{2}}\}

③计算

x_{k + 1} = x_{k} + \frac{A_{(j_{k})}^{T} r_{k}}{‖ A_{(j_{k})} ‖_{2}^{2}} e_{j_{k}}

④置 $k = k + 1$ ，转步骤①。

贪婪Gauss-Seidel方法主要包括2步：①通过正规方程组（2）的残差向量 $s_{k}$ 的最大元素确定指标集合 $R_{k}$ 。②按照 $A x_{k + 1} 与 A x_{k}$ 之间的距离最大准则从集合 $R_{k}$ 中选择迭代所需列指标。粗略看来，该方法似乎改变了贪婪随机坐标下降方法的2个主要步骤的顺序。然而，与贪婪随机坐标下降方法相比，贪婪Gauss-Seidel方法除了在求 $x_{k + 1}$ 时使得 $A x_{k + 1} 与 A x_{k}$ 之间的距离最大之外，也不再需要计算矩阵 $A$ 每一列的范数。此外，由于 $R_{k}$ 是由向量 $s_{k}$ 的最大项决定的，还可以发现集合 $R_{k}$ 中的元素个数可能小于集合 $v_{k}$ 中的元素个数，即 $| R_{k} | < | v_{k} |$ 。因此，该方法可以减少每次迭代的计算成本，从而可期待在计算时间上会有更好的表现，这一点将在第3节中的数值实验中进行验证。

注1 　如果 $|A_{(j_{k})}^{T} r_{k}|$ = $\underset{1 \leq j \leq n}{m a x} |A_{(j)}^{T} r_{k}|$ ，则 $j_{k} \in R_{k} 。$ 由此可知贪婪Gauss-Seidel方法中的集合 $R_{k}$ 非空。

注2 　类似于贪婪随机坐标下降方法，贪婪Gauss-Seidel方法可利用 $\frac{{|A_{(\tilde{j_{k}})}^{T} r_{k}|}^{2}}{‖ A_{(\tilde{j_{k}})} ‖_{2}^{2}}$ ，其中 $\tilde{j_{k}} \in R_{k},$ 作为概率选择标准得到相应的随机算法。在这种情况下，它的收敛因子可能比贪婪Gauss-Seidel方法稍差，因为贪婪Gauss-Seidel方法是根据 $\frac{{|A_{(\tilde{j_{k}})}^{T} r_{k}|}^{2}}{‖ A_{(\tilde{j_{k}})} ‖_{2}^{2}}$ 最大的值来选择指标的，其使得 $A x_{k + 1} 与 A x_{k}$ 之间的距离最大。

注3 　在贪婪Gauss-Seidel方法中确定了指标集合 $R_{k}$ 之后，类似文献［

31-34］中的思想，可以得到关于贪婪Gauss-Seidel方法的分块算法。

接下来，给出贪婪Gauss-Seidel方法的收敛性分析。

定理1 　由贪婪Gauss-Seidel方法生成的迭代序列 ${x_{k}}_{k = 0}^{\infty}$ ，从初始向量 $x_{0} ϵ R^{n}$ 开始，线性收敛于唯一的最小范数最小二乘解 $x_{*} = A^{†} b$ ，并且

‖ x_{1} - x_{*} ‖_{A^{T} A}^{2} \leq (1 - \frac{1}{| R_{0} |} \cdot \sum_{j_{0} \in R_{0}} \frac{1}{‖ A_{(j_{0})} ‖_{2}^{2}} \cdot \frac{1}{n} \cdot λ_{m i n} (A^{T} A)) ‖ x_{0} - x_{*} ‖_{A^{T} A}^{2}

（5）

对于 $k = 1, 2, \dots$ ，有

‖ x_{k + 1} - x_{*} ‖_{A^{T} A}^{2} \leq (1 - \frac{1}{|R_{k}|} \cdot \sum_{j_{k} \in R_{k}} \frac{1}{‖ A_{(j_{k})} ‖_{2}^{2}} \cdot \frac{1}{n - 1} \cdot λ_{m i n} (A^{T} A)) ‖ x_{k} - x_{*} ‖_{A^{T} A}^{2}

（6）

此外，令 $β = m i n {\frac{1}{|R_{k}|} \cdot \sum_{j_{k} \in R_{k}} \frac{1}{‖ A_{(j_{k})} ‖_{2}^{2}}}$ ， $k = 1, 2, \dots,$ 则对于 $k = 1, 2, \dots$ ，有

‖ x_{k} - x_{*} ‖_{A^{T} A}^{2} \leq {(1 - \frac{β \cdot λ_{m i n} (A^{T} A)}{n - 1})}^{k - 1} (1 - \sum_{j_{0} \in R_{0}} \frac{λ_{m i n} (A^{T} A)}{| R_{0} | \cdot ‖ A_{(j_{0})} ‖_{2}^{2} \cdot n}) \cdot ‖ x_{0} - x_{*} ‖_{A^{T} A}^{2}

（7）

证明　由贪婪Gauss-Seidel方法的迭代格式可知

A (x_{k + 1} - x_{k}) = \frac{A_{(j_{k})}^{T} r_{k}}{‖ A_{(j_{k})} ‖_{2}^{2}} A_{(j_{k})}

这意味着 $A (x_{k + 1} - x_{k})$ 平行于 $A_{(j_{k})}$ 。与此同时

A (x_{k + 1} - x_{*}) = A (x_{k} - x_{*} + \frac{A_{(j_{k})}^{T} r_{k}}{‖ A_{(j_{k})} ‖_{2}^{2}} e_{j_{k}}) = A (x_{k} - x_{*}) + \frac{A_{(j_{k})}^{T} r_{k}}{‖ A_{(j_{k})} ‖_{2}^{2}} A_{(j_{k})}

结合 $A^{T} A x_{*} = A^{T} b$ 可以得到

A (x_{k + 1} - x_{*}) = (I - \frac{A_{(j_{k})} A_{(j_{k})}^{T}}{‖ A_{(j_{k})} ‖_{2}^{2}}) A (x_{k} - x_{*})

则

\begin{array}{l} A_{(j_{k})}^{T} A (x_{k + 1} - x_{*}) = \\ A_{(j_{k})}^{T} (I - \frac{A_{(j_{k})} A_{(j_{k})}^{T}}{‖ A_{(j_{k})} ‖_{2}^{2}}) A (x_{k} - x_{*}) = 0 \end{array}

故 $A (x_{k + 1} - x_{*})$ 垂直于 $A_{(j_{k})}$ 。因此，向量 $A (x_{k + 1} - x_{k})$ 垂直于向量 $A (x_{k + 1} - x_{*})$ . 由勾股定理可得

\begin{array}{l} ‖ A (x_{k + 1} - x_{*}) ‖_{2}^{2} = \\ ‖ A (x_{k} - x_{*}) ‖_{2}^{2} - ‖ A (x_{k + 1} - x_{k}) ‖_{2}^{2} \end{array}

其等价形式为

\begin{array}{l} ‖ x_{k + 1} - x_{*} ‖_{A^{T} A}^{2} = \\ ‖ x_{k} - x_{*} ‖_{A^{T} A}^{2} - ‖ x_{k + 1} - x_{k} ‖_{A^{T} A}^{2} \end{array}

（8）

另一方面，由贪婪Gauss-Seidel方法可知

| A_{(j_{k})}^{T} r_{k} | = \underset{1 \leq j \leq n}{m a x} |A_{(j)}^{T} r_{k}|

并且

\frac{| A_{(j_{k})}^{T} r_{k} |^{2}}{‖ A_{(j_{k})} ‖_{2}^{2}} = \underset{j \in R_{k}}{m a x} \{\frac{{|A_{(j)}^{T} r_{k}|}^{2}}{‖ A_{(j)} ‖_{2}^{2}}\}

则

‖ x_{k + 1} - x_{k} ‖_{A^{T} A}^{2} = ‖ A (x_{k + 1} - x_{k}) ‖_{2}^{2} =

\frac{{|A_{(j_{k})}^{T} r_{k}|}^{2}}{‖ A_{(j_{k})} ‖_{2}^{2}} \geq

\sum_{j_{k} \in R_{k}} \frac{\frac{| A_{(j_{k})}^{T} r_{k} |^{2}}{‖ A_{(j_{k})} ‖_{2}^{2}}}{\sum_{j \in R_{k}} \frac{{|A_{(j)}^{T} r_{k}|}^{2}}{‖ A_{(j)} ‖_{2}^{2}}} \cdot \frac{| A_{(j_{k})}^{T} r_{k} |^{2}}{‖ A_{(j_{k})} ‖_{2}^{2}}

\geq

\sum_{j_{k} \in R_{k}} \frac{1}{| R_{k} |} \cdot \frac{| A_{(j_{k})}^{T} r_{k} |^{2}}{‖ A_{(j_{k})} ‖_{2}^{2}}

\sum_{j_{k} \in R_{k}} \frac{1}{| R_{k} |} \cdot \frac{\underset{1 \leq j \leq n}{m a x} | A_{(j)}^{T} r_{k} |^{2}}{‖ A_{(j_{k})} ‖_{2}^{2}}

（9）

因此，将式（9）代入式（8）可得

‖ x_{k + 1} - x_{*} ‖_{A^{T} A}^{2} \leq ‖ x_{k} - x_{*} ‖_{A^{T} A}^{2} - \sum_{j_{k} \in R_{k}} \frac{1}{|R_{k}|} \cdot \frac{\underset{1 \leq j \leq n}{m a x} | A_{(j)}^{T} r_{k} |^{2}}{‖ A_{(j_{k})} ‖_{2}^{2}}

（10）

当 $k = 0$ 时，有

\underset{1 \leq j \leq n}{m a x} {|A_{(j)}^{T} r_{0}|}^{2} = \underset{1 \leq j \leq n}{m a x} {|A_{(j)}^{T} r_{0}|}^{2} \cdot \frac{‖ A^{T} r_{0} ‖_{2}^{2}}{\sum_{j = 1}^{n} {|A_{(j)}^{T} r_{0}|}^{2}} \geq \frac{1}{n} \cdot ‖ A^{T} r_{0} ‖_{2}^{2}

结合文献［

16］中的结果：

‖ A^{T} x ‖_{2}^{2} \geq λ_{m i n} (A^{T} A) ‖ x ‖_{2}^{2}

（11）

其中向量x属于A的列空间，可得到

\underset{1 \leq j \leq n}{m a x} {|A_{(j)}^{T} r_{0}|}^{2} \geq \frac{1}{n} \cdot λ_{m i n} (A^{T} A) \cdot ‖ A x_{*} - A x_{0} ‖_{2}^{2} = \frac{1}{n} \cdot λ_{m i n} (A^{T} A) \cdot ‖ x_{0} - x_{*} ‖_{A^{T} A}^{2}

（12）

因此，将式（12）代入式（10）可得

‖ x_{1} - x_{*} ‖_{A^{T} A}^{2} \leq ‖ x_{0} - x_{*} ‖_{A^{T} A}^{2} -

\sum_{j_{0} \in R_{0}} \frac{1}{| R_{0} |} \cdot \frac{1}{‖ A_{(j_{0})} ‖_{2}^{2}} \cdot \frac{1}{n} \cdot λ_{m i n} (A^{T} A) \cdot ‖ x_{0} - x_{*} ‖_{A^{T} A}^{2} = (1 - \frac{1}{| R_{0} |} \cdot

\sum_{j_{0} \in R_{0}} \frac{1}{‖ A_{(j_{0})} ‖_{2}^{2}} \cdot \frac{1}{n} \cdot λ_{m i n} (A^{T} A)) ‖ x_{0} - x_{*} ‖_{A^{T} A}^{2}

这即是式（5）。

当 $k \geq 1$ 时，有

\underset{1 \leq j \leq n}{m a x} {|A_{(j)}^{T} r_{k}|}^{2} = \underset{1 \leq j \leq n}{m a x} {|A_{(j)}^{T} r_{k}|}^{2} \cdot \frac{‖ A^{T} r_{k} ‖_{2}^{2}}{\sum_{j = 1}^{n} {|A_{(j)}^{T} r_{k}|}^{2}}

根据贪婪Gauss-Seidel方法的迭代格式，立刻可得

A_{(j_{k - 1})}^{T} r_{k} = A_{(j_{k - 1})}^{T} (r_{k - 1} - \frac{A_{(j_{k - 1})}^{T} r_{k - 1}}{‖ A_{(j_{k - 1})} ‖_{2}^{2}} A_{(j_{k - 1})}) = A_{(j_{k - 1})}^{T} r_{k - 1} - A_{(j_{k - 1})}^{T} r_{k - 1} = 0

则

\underset{1 \leq j \leq n}{m a x} {|A_{(j)}^{T} r_{k}|}^{2} = \underset{1 \leq j \leq n}{m a x} {|A_{(j)}^{T} r_{k}|}^{2} \cdot \frac{‖ A^{T} r_{k} ‖_{2}^{2}}{\sum_{\begin{matrix} j = 1 \\ j \neq j_{k - 1} \end{matrix}}^{n} {|A_{(j)}^{T} r_{k}|}^{2}} \geq \frac{1}{n - 1} \cdot ‖ A^{T} r_{k} ‖_{2}^{2}

结合式（11）得到

\begin{array}{l} \underset{1 \leq j \leq n}{m a x} {|A_{(j)}^{T} r_{k}|}^{2} \geq \\ \frac{1}{n - 1} \cdot λ_{m i n} (A^{T} A) ‖ A x_{*} - A x_{k} ‖_{2}^{2} \\ = \frac{1}{n - 1} \cdot λ_{m i n} (A^{T} A) ‖ x_{k} - x_{*} ‖_{A^{T} A}^{2} \end{array}

（13）

因此，将式（13）代入式（10）可得

‖ x_{k + 1} - x_{*} ‖_{A^{T} A}^{2} \leq ‖ x_{k} - x_{*} ‖_{A^{T} A}^{2} - \sum_{j_{k} \in R_{k}} \frac{1}{|R_{k}|} \cdot \frac{1}{‖ A_{(j_{k})} ‖_{2}^{2}} \cdot \frac{1}{n - 1} \cdot λ_{m i n} (A^{T} A) ‖ x_{k} - x_{*} ‖_{A^{T} A}^{2} = (1 - \frac{1}{|R_{k}|} \cdot \sum_{j_{k} \in R_{k}} \frac{1}{‖ A_{(j_{k})} ‖_{2}^{2}} \cdot \frac{1}{n - 1} \cdot λ_{m i n} (A^{T} A)) ‖ x_{k} - x_{*} ‖_{A^{T} A}^{2}

这即是式（6）。关于迭代指标 $k$ 递归可得到式（7）。

注4 　运用下面不等式

1 - \frac{λ_{m i n} (A^{T} A)}{‖ A ‖_{F}^{2} - \underset{1 \leq j \leq n}{m i n} ‖ A_{(j)} ‖_{2}^{2}} < 1 - \frac{λ_{m i n} (A^{T} A)}{‖ A ‖_{F}^{2}} < 1

可以得到

0 < \frac{λ_{m i n} (A^{T} A)}{\underset{1 \leq j \leq n}{m a x} ‖ A_{(j)} ‖_{2}^{2} \cdot (n - 1)} \leq \frac{λ_{m i n} (A^{T} A)}{‖ A ‖_{F}^{2} - \underset{1 \leq j \leq n}{m i n} ‖ A_{(j)} ‖_{2}^{2}} < 1

再结合

\frac{1}{\underset{1 \leq j \leq n}{m a x} ‖ A_{(j)} ‖_{2}^{2}} \leq β \leq \frac{1}{n} \cdot \sum_{j_{k} = 1}^{n} \frac{1}{‖ A_{(j_{k})} ‖_{2}^{2}}

可得到

1 - \frac{β \cdot λ_{m i n} (A^{T} A)}{n - 1} \leq 1 - \frac{λ_{m i n} (A^{T} A)}{\underset{1 \leq j \leq n}{m a x} ‖ A_{(j)} ‖_{2}^{2} \cdot (n - 1)} < 1

因此，贪婪Gauss-Seidel方法的收敛因子确实是小于1的。

注5 　贪婪随机坐标下降方法^［

15］的误差估计如下：

Ε_{k} [‖ x_{k + 1} - x_{*} ‖_{A^{T} A}^{2}] \leq (1 - \frac{1}{2} (\frac{1}{‖ A ‖_{F}^{2} - \underset{1 \leq j \leq n}{m i n} ‖ A_{(j)} ‖_{2}^{2}} + \frac{1}{‖ A ‖_{F}^{2}}) λ_{m i n} (A^{T} A)) ‖ x_{k} - x_{*} ‖_{A^{T} A}^{2}

其中 $k = 1, 2, \dots 。$ 由此可知贪婪随机坐标下降方法的收敛因子为

1 - \frac{1}{2} (\frac{1}{‖ A ‖_{F}^{2} - \underset{1 \leq j \leq n}{m i n} ‖ A_{(j)} ‖_{2}^{2}} + \frac{1}{‖ A ‖_{F}^{2}}) λ_{m i n} (A^{T} A)

由于直接比较贪婪Gauss-Seidel（GGS）和贪婪随机坐标下降（GRCD）2种方法的收敛因子并不容易，所以采用2个数值例子进行比较。此外，还绘制了2种方法的实际收敛速率，其定义^［

17］如下：

ρ_{k} = {(\frac{Ε [‖ x_{k} - x_{*} ‖_{2}^{2}]}{‖ x_{0} - x_{*} ‖_{2}^{2}})}^{\frac{1}{k}}, k \geq 1

图1表明，贪婪Gauss-Seidel方法和贪婪随机坐标下降方法的收敛因子基本相同，但前者的实际收敛速率略好于后者。

图1 GGS和GRCD方法的收敛因子与实际收敛速率

Fig. 1 Convergence factors and rates of the GGS and GRCD methods

3 数值实验

通过数值实验比较贪婪Gauss-Seidel （GGS）方法和贪婪随机坐标下降（GRCD）方法在求解线性最小二乘问题上的表现，其中矩阵 $A$ 来自2类集合，一类是由Matlab函数randn随机生成，一类是来自不同应用的稀疏矩阵^［

35］。为了公正直接地比较GGS和GRCD方法，采用的例子都来自文献［15］。

主要依据迭代次数（IT）和CPU计算时间比较这2种方法。数值结果中的迭代次数和计算时间表示的是50次重复运行相应方法的平均值。此外，为了直观地比较2种方法，给出了GGS方法相对于GRCD方法的迭代次数加速比（ $I T s p e e d$ -up），其定义为GRCD方法所需的迭代次数除以GGS方法所需的迭代次数，同时给出了GGS方法相对于GRCD方法的计算时间加速比（ $C P U s p e e d$ -up），其定义为GRCD方法所需的计算时间除以GGS方法所需的计算时间。对于来自文献［

35］的稀疏矩阵，其稠密度定义为矩阵非零元素个数除以矩阵元素个数。

在数值实验中，解向量 $x_{*}$ 由Matlab函数randn随机生成。对于相容的系统，令右边 $b = A x_{*} 。$ 对于不相容的系统，取 $b = A x_{*} + r_{0}$ ，其中 $r_{0}$ 是属于 $A^{T}$ 的零空间的一个非零向量，由Matlab函数null生成。本节所有的数值实验，均取初始向量 $x_{0} = 0$ ，停机准则为近似解的相对误差 $\frac{‖ x_{k} - x_{*} ‖_{2}^{2}}{‖ x_{*} ‖_{2}^{2}} < 10^{- 6},$ 或者迭代次数超过20万步。

对于第一类随机生成的矩阵，线性系统相容时， 2类迭代法的迭代次数和计算时间的数值结果如表1所示；当线性系统不相容时，其数值结果如表2所示。从表1和表2可以看出， GGS方法的迭代次数与GRCD方法几乎相同，但在计算时间上， GGS方法的效率更高，计算时间加速比至少可达到1.626。

表1 GGS和GRCD 2种方法在随机数据矩阵时求解相容系统的数值结果

Tab. 1 Numerical results of solving consistent systems with random data matrices by using the GGS and the GRCD methods

$阶数$	IT			CPU计算时间
$阶数$	GGS	GRCD	IT speed-up	GGS	GRCD	CPU speed-up
1 000×50	126.000 0	128.240 0	1.017 8	0.013 8	0.063 1	4.590 9
1 000×100	374.000 0	361.500 0	0.966 6	0.046 6	0.170 3	3.657 7
1 000×150	603.000 0	600.560 0	0.996 0	0.104 4	0.319 4	3.059 9
2 000×50	108.000 0	106.260 0	0.983 9	0.012 5	0.052 5	4.200 0
2 000×100	246.000 0	245.720 0	0.998 9	0.046 6	0.131 3	2.818 8
2 000×150	439.000 0	445.680 0	1.015 2	0.109 4	0.269 1	2.460 0
3 000×50	105.000 0	104.960 0	0.999 6	0.017 2	0.055 6	3.236 4
3 000×100	231.000 0	236.880 0	1.025 5	0.061 9	0.144 4	2.333 3
3 000×150	409.000 0	409.040 0	1.000 1	0.140 0	0.283 4	2.024 6
4 000×50	96.000 0	99.740 0	1.039 0	0.019 4	0.057 2	2.951 6
4 000×100	205.000 0	209.120 0	1.020 1	0.067 8	0.138 8	2.046 1
4 000×150	337.000 0	343.660 0	1.019 8	0.163 8	0.266 2	1.626 0
5 000×50	96.000 0	95.380 0	0.993 5	0.025 0	0.060 0	2.400 0
5 000×100	195.000 0	203.080 0	1.041 4	0.072 8	0.156 9	2.154 5
5 000×150	340.000 0	337.020 0	0.991 2	0.181 9	0.297 8	1.637 5

表2 GGS和GRCD 2种方法在随机数据矩阵时求解不相容系统的数值结果

Tab. 2 Numerical results of solving inconsistent systems with random data matrices by using the GGS and the GRCD methods

$阶数$	IT			CPU计算时间
$阶数$	GGS	GRCD	IT speed-up	GGS	GRCD	CPU speed-up
1 000×50	120.000 0	124.860 0	1.040 5	0.012 5	0.059 1	4.725 0
1 000×100	329.000 0	321.380 0	0.976 8	0.040 0	0.159 1	3.976 6
1 000×150	589.000 0	579.560 0	0.984 0	0.099 4	0.300 9	3.028 3
2 000×50	113.000 0	110.200 0	0.975 2	0.011 9	0.056 6	4.763 2
2 000×100	245.000 0	250.060 0	1.020 7	0.053 1	0.132 2	2.488 2
2 000×150	434.000 0	444.720 0	1.024 7	0.111 3	0.266 6	2.396 1
3 000×50	107.000 0	105.080 0	0.982 1	0.019 4	0.055 3	2.854 8
3 000×100	235.000 0	232.360 0	0.988 8	0.060 9	0.141 2	2.317 9
3 000×150	399.000 0	401.460 0	1.006 2	0.140 3	0.276 9	1.973 3
4 000×50	95.000 0	97.480 0	1.026 1	0.019 4	0.053 7	2.774 2
4 000×100	220.000 0	216.740 0	0.985 2	0.069 4	0.144 4	2.081 1
4 000×150	348.000 0	356.800 0	1.025 3	0.152 5	0.277 2	1.817 6
5 000×50	87.000 0	91.940 0	1.056 8	0.018 7	0.055 9	2.983 3
5 000×100	212.000 0	215.960 0	1.018 7	0.086 2	0.156 6	1.815 2
5 000×150	336.000 0	339.260 0	1.009 7	0.164 1	0.305 0	1.859 0

对于第二类矩阵，即文献［

35］中的稀疏列满秩矩阵，线性系统相容时， 2类迭代方法的迭代次数和计算时间的数值结果如表3所示；当线性系统不相容时，其数值结果如表4所示。从这2个表中可见，除了非常病态的矩阵Trefethen_300外，GGS方法和GRCD方法的迭代次数几乎相同。但对于所有矩阵， GGS方法的计算时间都小于GRCD方法，计算时间加速比至少可达到1.531 5。

表3 GGS和GRCD 2种方法在真实数据矩阵时求解相容系统的数值结果

Tab. 3 Numerical results of solving consistent systems with real‑world data matrices by using the GGS and the GRCD methods

矩阵名称	$阶数$	稠密度/%	$条件数$	IT			CPU计算时间
矩阵名称	$阶数$	稠密度/%	$条件数$	GGS	GRCD	IT speed-up	GGS	GRCD	CPU speed-up
abtaha1	14 596×209	1.68	12.23	14 888	13 966	0.938 0	8.255 0	12.642 8	1.531 5
Cities	55×46	53.04	207.15	29 181	40 937	1.402 9	0.174 7	1.849 7	10.588 6
divorce	50×9	50.00	19.39	634	647	1.020 0	0.002 8	0.031 6	11.222 2
WorldCities	315×100	23.87	66.00	5 011	5 011	1.000 0	0.077 2	0.291 6	3.777 3
Trefethen_300	300×300	5.20	1 772.69	3 210	1 374	0.428 0	0.041 6	0.073 4	1.766 9
cage5	37×37	17.02	15.42	1 477	1 624.4	1.099 8	0.006 6	0.070 0	10.666 7

表4 GGS和GRCD 2种方法在真实数据矩阵时求解不相容系统的数值结果

Tab. 4 Numerical results of solving inconsistent systems with real‑world data matrices by using the GGS and the GRCD methods

矩阵名称	$阶数$	稠密度/%	$条件数$	IT			CPU计算时间
矩阵名称	$阶数$	稠密度/%	$条件数$	GGS	GRCD	IT speed-up	GGS	GRCD	CPU speed-up
abtaha1	14 596×209	1.68	12.23	11 264	12 571	1.116 0	6.275 0	11.303 4	1.801 3
Cities	55×46	53.04	207.15	28 449	39 752	1.397 3	0.171 6	1.827 8	10.653 9
divorce	50×9	50.00	19.39	552	497	0.899 8	0.002 8	0.021 3	7.555 6
WorldCities	315×100	23.87	66.00	3 532	3 576	1.012 5	0.055 0	0.205 0	3.727 3

因此，数值实验显示GGS方法的迭代次数与GRCD方法几乎相同，但在所有情形中，贪婪Gauss-Seidel方法在计算时间上总是优于贪婪随机坐标下降方法。

4 结论与展望

针对大型线性最小二乘问题，提出了一类新的贪婪Gauss-Seidel方法，理论分析了新方法的收敛性。数值实验表明，本文方法虽然与贪婪随机坐标下降方法的迭代次数几乎相同，但所需计算时间更少。主要原因在于本文方法不仅避免了矩阵 $A$ 所有列范数的计算，而且指标集合的元素个数更少，从而减少了每次迭代的计算时间。

众所周知，对于Gauss-Seidel方法而言，工作列的选取准则在整个迭代过程都有着十分重要的影响。如何设计一个随机的列选取准则改进贪婪Gauss-Seidel方法需要进行进一步的研究。

作者贡献声明

李寒宇：主要负责本文的指导和修订工作，包括文章框架结构、方法分析和验证等。

张彦钧：主要负责本文的初稿撰写工作，包括算法推导、理论证明与数值实现。

参考文献

BJÖRCK Å. Numerical methods for least squares problems ［M］. Philadelphia：Society for Industrial and Applied Mathematics， 1996. [百度学术]

HIGHAM N J. Accuracy and stability of numerical algorithms ［M］. Philadelphia：Society for industrial and applied mathematics， 2002. [百度学术]

SAAD Y. Iterative methods for sparse linear systems ［M］. Philadelphia：Society for Industrial and Applied Mathematics， 2003. [百度学术]

HEFNY A， Needell D， Ramdas A. Rows versus columns： Randomized Kaczmarz or Gauss-Seidel for ridge regression ［J］. SIAM Journal on Scientific Computing， 2017， 39（5）： S528. [百度学术]

STROHMER T， VERSHYNIN R. A randomized Kaczmarz algorithm with exponential convergence ［J］. Journal of Fourier Analysis and Applications， 2009， 15（2）： 262. [百度学术]

LEVENTHAL D， LEWIS A S. Randomized methods for linear constraints： Convergence rates and conditioning ［J］. Mathematics of Operations Research， 2010， 35（3）： 641. [百度学术]

MA A， NEEDELL D， RAMDAS A. Convergence properties of the randomized extended Gauss-Seidel and Kaczmarz methods ［J］. SIAM Journal on Matrix Analysis and Applications， 2015， 36（4）： 1590. [百度学术]

EDALATPOUR V， HEZARI D， SALKUYEH D K. A generalization of the Gauss-Seidel iteration method for solving absolute value equations ［J］. Applied Mathematics and Computation， 2017， 293： 156. [百度学术]

TU S， VENKATARAMAN S， WILSON A C， et al. Breaking locality accelerates block Gauss-Seidel ［C］//International Conference on Machine Learning. Sydney： PMLR， 2017： 3482-3491. [百度学术]

CHEN L， SUN D， TOH K C. An efficient inexact symmetric Gauss-Seidel based majorized ADMM for high-dimensional convex composite conic programming ［J］. Mathematical Programming， 2017， 161（1/2）： 237. [百度学术]

TIAN Z， TIAN M， LIU Z， et al. The Jacobi and Gauss–Seidel-type iteration methods for the matrix equation AXB= C ［J］. Applied Mathematics and Computation， 2017， 292： 63. [百度学术]

XU Y. Hybrid Jacobian and Gauss-Seidel proximal block coordinate update methods for linearly constrained convex programming ［J］. SIAM Journal on Optimization， 2018， 28（1）： 646. [百度学术]

DU K. Tight upper bounds for the convergence of the randomized extended Kaczmarz and Gauss-Seidel algorithms ［J］. Numerical Linear Algebra with Applications， 2019， 26（3）： e2233. [百度学术]

RAZAVIYAYN M， HONG M， REYHANIAN N， et al. A linearly convergent doubly stochastic Gauss-Seidel algorithm for solving linear equations and a certain class of over-parameterized optimization problems ［J］. Mathematical Programming， 2019， 176（1/2）： 465. [百度学术]

BAI Z Z， WU W T. On greedy randomized coordinate descent methods for solving large linear least-squares problems ［J］. Numerical Linear Algebra with Applications， 2019， 26（4）： e2237. [百度学术]

BAI Z Z， WU W T. On greedy randomized Kaczmarz method for solving large sparse linear systems ［J］. SIAM Journal on Scientific Computing， 2018， 40（1）： A592. [百度学术]

BAI Z Z， WU W T. On relaxed greedy randomized Kaczmarz methods for solving large sparse linear systems ［J］. Applied Mathematics Letters， 2018， 83： 21. [百度学术]

杜亦疏，殷俊锋，张科.求解大型稀疏线性方程组的贪婪距离随机Kaczmarz方法［J］.同济大学学报（自然科学版），2020，48（8）：1224. [百度学术]

DU Yishu， YIN Junfeng， ZHANG Ke. Greedy randomized-distance Kaczmarz method for solving large sparse linear systems［J］. Journal of Tongji University（Natural Science），2020，48（8）：1224. [百度学术]

NUTINI J. Greed is good： Greedy optimization methods for large-scale structured problems ［D］. Vancouver ： University of British Columbia， 2018. [百度学术]

ZHANG J J. A new greedy Kaczmarz algorithm for the solution of very large linear systems ［J］. Applied Mathematics Letters， 2019， 91： 207. [百度学术]

DU K， GAO H. A new theoretical estimate for the convergence rate of the maximal weighted residual Kaczmarz algorithm ［J］. Numerical Mathematics： Theory， Methods and Applications， 2019， 12（2）： 627. [百度学术]

LIU Y， GU C Q. Variant of greedy randomized Kaczmarz for ridge regression ［J］. Applied Numerical Mathematics， 2019， 143： 223. [百度学术]

NIU Y Q， ZHENG B. A greedy block Kaczmarz algorithm for solving large-scale linear systems ［J］. Applied Mathematics Letters， 2020， 104： 106294. [百度学术]

ZHANG J， GUO J. On relaxed greedy randomized coordinate descent methods for solving large linear least-squares problems ［J］. Applied Numerical Mathematics， 2020， 157： 372. [百度学术]

OSBORNE E E. On least squares solution of linar equations ［J］. Journal of the Association for Computing Machinery， 1961， 8： 628. [百度学术]

HADDOCK J， NEEDELL D. On Motzkin’s method for inconsistent linear systems ［J］. BIT Numerical Mathematics， 2019， 59（2）： 387. [百度学术]

REBROVA E， NEEDELL D. Sketching for Motzkin’s iterative method for linear systems ［C］//53rd Asilomar Conference on Signals， Systems， and Computers. Pacific Grove： IEEE， 2019： 271-275. [百度学术]

MOTZKIN T S， SCHOENBERG I J. The relaxation method for linear inequalities ［J］. Canadian Journal of Mathematics， 1954， 6： 393. [百度学术]

NUTINI J， SEPEHRY B， LARADJI I， et al. Convergence rates for greedy Kaczmarz algorithms， and faster randomized Kaczmarz rules using the orthogonality graph ［J］. arXiv preprint arXiv，2016：1612.07838. [百度学术]

PETRA S， POPA C. Single projection Kaczmarz extended algorithms ［J］. Numerical Algorithms， 2016， 73（3）： 791. [百度学术]

DU K， SI W， SUN X. Randomized extended average block Kaczmarz for solving least squares ［J］. SIAM Journal on Scientific Computing， 2020， 42（6）： A3541. [百度学术]

DU K， SUN X. A doubly stochastic block Gauss-Seidel algorithm for solving linear equations ［J］. Applied Mathematics and Computation， 2021， 408： 126373. [百度学术]

NECOARA I. Faster randomized block Kaczmarz algorithms ［J］. SIAM Journal on Matrix Analysis and Applications， 2019， 40（4）： 1425. [百度学术]

LI H， ZHANG Y. Greedy block Gauss-Seidel methods for solving large linear least squares problem ［J］. arXiv preprint arXiv， 2020： 2004.02476. [百度学术]

DAVIS T A， HU Y. The University of Florida sparse matrix collection ［J］. ACM Transactions on Mathematical Software （TOMS）， 2011， 38（1）： 1. [百度学术]