求解大型稀疏线性系统的贪婪双子空间随机Kaczmarz方法

荆燕飞，李彩霞，胡少亮; JING Yanfei; LI Caixia; HU Shaoliang

网刊加载中。。。

使用Chrome浏览器效果最佳，继续浏览，你可能不会看到最佳的展示效果，

确定继续浏览么?

复制成功，请在其他浏览器进行阅读

求解大型稀疏线性系统的贪婪双子空间随机Kaczmarz方法 PDF

- ORCID：
荆燕飞 ¹
✉
- ORCID：
李彩霞 ¹
✉
- ORCID：
胡少亮 ²

1. 电子科技大学数学科学学院，四川成都611731； 2. 中国工程物理研究院高性能数值模拟软件中心，北京100088

中图分类号： O241.6

最近更新：2021-10-14

DOI：10.11908/j.issn.0253-374x.21054

摘要

基于一种有效的从系数矩阵中选取两个工作行的贪婪概率准则，提出一类求解大型稀疏线性系统的贪婪双子空间随机Kaczmarz方法。理论证明该方法收敛到相容线性系统的最小范数解，而且该方法的理论收敛因子小于原始双子空间随机Kaczmarz方法的收敛因子。数值实验表明，该方法在求解性能方面较原始双子空间随机Kaczmarz方法更具优势。

关键词

双子空间投影法; 随机Kaczmarz方法; 大型稀疏线性系统; 收敛性分析

考虑求解具有如下形式的相容线性系统：

A x = b

（1）

其中，系数矩阵 $A \in R^{m \times n} (m > n)$ 可为满秩或秩亏矩阵，且 $b \in R^{m}$ 。通常考虑求式（1）的最小范数解

x_{*} : = a r g \underset{x}{m i n} {‖x‖}_{2} s . t . A x = b

当系数矩阵 $A$ 为列满秩时， $x_{*}$ 为式（1）的惟一解；当线性系统（1）有无穷多组解时， $x_{*}$ 为式（1）的最小范数解（这里的范数指欧式范数）。

为求解线性系统（1），许多迭代方法^［

1-5］已被开发和进一步研究。其中， Kaczmarz^{［参考文献 5

百度学术}5］于1937年首次提出的Kaczmarz方法，因其成本低廉、易于操作而迅速得到数值计算领域的专家学者的认可和广泛关注，进而使其获得巨大的理论发展^{［参考文献 6-9}6-9］。因其是一种具有代表性的行处理迭代方法且在计算机上易于实现和并行化，因此被广泛应用于计算机断层扫描^{［参考文献 10-13}10-13］，图像重建^{［参考文献 14-16}14-16］，分布式计算^{［参考文献 17-18}17-18］和信号处理^{［参考文献 19-21}19-21］等领域。

若以随机顺序而不是以给定顺序选用系数矩阵的行可以极大地提高Kaczmarz方法的收敛速度^［

13，16，21］。尽管这些随机选行的Kaczmarz方法在应用中颇具吸引力，但尚不能保证其收敛速率。Strohmer等^{［参考文献 22

百度学术}22］首次采用选取工作行的概率与其所对向量的欧式范数的平方成正比这样的选行准则，提出能保证收敛速率的随机Kaczmarz方法，并证明其误差的期望具有指数收敛速率。Dai等^{［参考文献 23

百度学术}23］通过求解最小化收敛速度的上限这个凸优化问题来获得选择行的最佳概率分布，提出最优的随机Kaczmarz方法；Bai等^{［参考文献 24

百度学术}24］结合贪婪和随机的数学思想引入一种有效的行选择准则提出贪婪随机Kaczmarz方法。此后，松弛贪婪随机Kaczmarz方法^{［参考文献 25

百度学术}25］和贪婪距离随机Kaczmarz方法^{［参考文献 26

百度学术}26］也被提出并深入研究。随机Kaczmarz方法的各种变种^{［参考文献 27-39}27-39］和收敛理论^{［参考文献 30-35}30-35］获得了大量研究和发展。另一方面， Leventhal等^{［参考文献 36

百度学术}36］采用同样的随机思想，提出了求解最小二乘问题的随机坐标下降方法。因随机Kaczmarz方法和随机坐标下降方法存在一定的共性，后期有学者将两者同时比对研究^{［参考文献 37-38}37-38］。

尽管随机Kaczmarz方法适用于任何相容线性系统的求解，但当系数矩阵有许多相关行时（常出现于地球物理学中），收敛可能停滞。为克服这一缺点，Needell和Ward采用等可能地随机选择两个不同工作行的选择准则，提出了随机Kaczmarz方法的双子空间拓展‒双子空间随机Kaczmarz方法^［

27］，并从理论和数值上说明了该方法至少与随机Kaczmarz方法有相同的指数收敛速率。此外，当系数矩阵高度相干时，它能极大程度地提高随机Kaczmarz方法的收敛速率。此后同时选用多个工作行的随机块方法^{［参考文献 39-40}39-40］也被陆续提出并加以深入研究。

Nutini等^［

41］研究表明，采用非等可能概率准则选取工作行的Kaczmnarz方法收敛速度至少与采用等可能概率准则选取工作行的Kaczmarz方法收敛速度一样快。在原始双子空间随机Kaczamrz方法^{［参考文献 27

百度学术}27］中，等可能地随机选择两个不同的工作行，然后将当前解投影到由这两行所确定的解的超平面上获得下一个近似解。基于上一次迭代所生成的残差或基于当前解离系数矩阵各行所形成的超平面的距离来选取工作行都能较大程度地提高Kaczmarz方法的收敛速率^{［参考文献 41

百度学术}41］。受该思想启发，笔者通过引入控制参数

θ

建立了一种基于残差的准则来选择工作行，导出一类贪婪双子空间随机Kaczmarz方法。理论证明新方法收敛到相容线性方程组的最小范数解，而且新方法的理论收敛因子小于原始双子空间随机Kaczmarz方法的收敛因子。数值实验验证了新方法的有效性，其在迭代步数和计算时间上均优于原始双子空间随机Kaczmarz方法。

1 贪婪双子空间随机Kaczmarz方法

在经典的随机Kaczmarz方法（RK）中，Strohmer和Vershynin将各行所对向量的欧式范数与 ${‖A‖}_{F}$ 比值的平方作为概率，然后根据此概率分布随机选取工作行。具体地说，如果定义 $A^{(i)}$ 代表系数矩阵 $A$ 的第 $i$ 行， $b^{(i)}$ 代表向量 $b$ 的第 $i$ 个分量，初始向量为 $x_{0}$ ，则随机Kaczmarz方法的具体过程见算法1。

算法1 ^［

22］随机Kaczmarz方法。①置

k : = 0

。②根据概率

P (r = i_{k}) = \frac{{‖A^{(i_{k})}‖}_{2}^{2}}{{‖A‖}_{F}^{2}}

选取指标

i_{k} \in \{1,2, \dots, m\}

。

③计算 $x_{k + 1} = x_{k} + \frac{b^{(i_{k})} - A^{(i_{k})} x_{k}}{{‖A^{(i_{k})}‖}_{2}^{2}} {(A^{(i_{k})})}^{T}$ 。 ④置 $k = k + 1$ ，转步骤②。

算法1中， $P (r = i_{k}) = \frac{{‖A^{(i_{k})}‖}_{2}^{2}}{{‖A‖}_{F}^{2}}$ 代表选取矩阵 $A$ 的第 $i_{k}$ 行作为本次迭代工作行的概率为 $\frac{{‖A^{(i_{k})}‖}_{2}^{2}}{{‖A‖}_{F}^{2}}$ 。

关于随机Kaczmarz方法，有如下收敛性定理。

定理1^［

22，24］若线性系统（1）相容，其中系数矩阵

A \in R^{m \times n}

且右端项

b \in R^{m}

。初始向量

x_{0} \in R a n (A^{T})

，其中

R a n (A^{T})

表示

A^{T}

的列空间，令

x_{k}

为通过随机Kaczmarz方法生成的第

k

个迭代值，则

E {‖x_{*} - x_{k}‖}_{2}^{2} \leq {(1 - \frac{σ_{_{m i n}}^{2} (A)}{{‖A‖}_{F}^{2}})}^{k} {‖x_{*} - x_{0}‖}_{2}^{2}

其中 $σ_{m i n} (\cdot)$ 表示矩阵的最小非零奇异值。

Needell和Ward发现当线性系统是超定且高度相干时，随机Kaczmarz方法的求解效率低下甚至无效，因此提出同时启用两个工作行的双子空间随机Kaczmarz方法（2S‒RK）去求解这类特殊系统。

为了简便，Needell和Ward假设系数矩阵是标准化的，这意味着其每行都具有单位欧几里得范数，在接下来的部分，仍沿用该假设。在原始双子空间随机Kaczmarz方法中，等可能地随机选取两个不同工作行，再将当前解投影到由两个工作行所确定的超平面上获得下一个估计值，具体过程见算法2。

算法2 ^［

31］双子空间随机Kaczmarz方法。①置

k : = 0

。②随机均匀地选择行指标

r_{k}

和

s_{k}

。③计算

μ_{r_{k}, s_{k}} = < A^{(r_{k})}, A^{(s_{k})} >

。④计算

y_{k} = x_{k} + (b^{(s_{k})} - A^{(s_{k})} x_{k}) {(A^{(s_{k})})}^{T}

。 ⑤计算

ν_{k} = \frac{A^{(r_{k})} - μ_{r_{k}, s_{k}} A^{(s_{k})}}{\sqrt[]{1 - {|μ_{r_{k}, s_{k}}|}^{2}}}

。⑥计算

β_{k} = \frac{b^{(r_{k})} - μ_{r_{k}, s_{k}} b^{(s_{k})}}{\sqrt[]{1 - {|μ_{r_{k}, s_{k}}|}^{2}}}

。⑦计算

x_{k + 1} = y_{k} + (β_{k} - ν_{k} y_{k}) {(ν_{k})}^{T} 。

置

k = k + 1

，转步②。

关于双子空间随机Kaczmarz方法，有如下收敛性定理。

定理2 ^［

31］若线性系统（1）相容，其中系数矩阵

A \in R^{m \times n}

且右端项

b \in R^{m}

。初始向量

x_{0} \in R a n (A^{T})

，其中

R a n (A^{T})

表示

A^{T}

的列空间，令

x_{k + 1}

为通过双子空间随机Kaczmarz方法生成的第

(k + 1)

个迭代值，则

\begin{array}{l} E {‖x_{*} - x_{k + 1}‖}_{2}^{2} \leq {(1 - \frac{σ_{_{m i n}}^{2} (A)}{m})}^{2} {‖x_{*} - x_{k}‖}_{2}^{2} - \\ \frac{1}{m (m - 1)} \sum_{r \neq s} |\frac{μ_{r, s}^{2}}{\sqrt[]{1 - μ_{r, s}^{2}}} < e_{k}^{T}, A^{(r)} > - \\ {\frac{μ_{r, s}}{\sqrt[]{1 - μ_{r, s}^{2}}} < e_{k}^{T}, A^{(s)} >|}^{2} \end{array}

（2）

这里， $e_{k} = x_{*} - x_{k}$ ， $μ_{r, s} = < A^{(r)}, A^{(s)} >$ 。

通过算法2，可知双子空间随机Kaczmarz方法的相应误差向量的2‒范数的平方满足

\begin{array}{l} {‖x_{*} - x_{k + 1}‖}_{2}^{2} = {‖x_{*} - x_{k}‖}_{2}^{2} - \\ {|< e_{k}^{T}, A^{(s_{k})} >|}^{2} - {|< (x_{*} - y_{k})^{T}, ν_{k} >|}^{2} = \\ {‖x_{*} - x_{k}‖}_{2}^{2} - {|b^{(s_{k})} - A^{(s_{k})} x_{k}|}^{2} - \\ \frac{{|b^{(r_{k})} - A^{(r_{k})} y_{k}|}^{2}}{1 - {|μ_{r_{k}, s_{k}}|}^{2}} \end{array}

（3）

若式（3）的最后两项的和取到最大值，则 $x_{*}$ 和 $x_{k + 1}$ 之间的距离可以最小化。基于这个想法，设计最优的贪婪距离选行准则为

(r_{k}, s_{k}) = \underset{1 \leq s, r \leq m}{m a x} \{{|b^{(s)} - A^{(s)} x_{k}|}^{2} + \frac{{|b^{(r)} - A^{(r)} y_{k}|}^{2}}{1 - {|< A^{(r)}, A^{(s)} >|}^{2}}\}

（4）

若双子空间随机Kaczmarz方法采用式（4）的选行准则，则其定能以一个极快的速率收敛到线性系统（1）的解。因此，可采用式（4）的规则来建立双子空间随机Kaczmarz方法的最佳版本。但在实践中计算满足式（4）行指标 $r_{k}$ 和 $s_{k}$ 的成本非常昂贵。为克服其耗时的缺点，笔者将通过依次构造两个具有控制参数 $θ$ 的行索引集来构造次优版本的贪婪双子空间随机Kaczmarz方法（2S‒GRK（θ）），具体过程见算法3。

首先，构造与 $x_{k}$ 有关的指标集 $U_{k}$

U_{k} = \{s || b^{(s)} - A^{(s)} x_{k} |^{2} \geq (1 - θ) \underset{1 \leq i \leq m}{m a x} \{{|b^{(i)} - A^{(i)} x_{k}|}^{2}\}\}, θ \in [0,1]

（5）

并以概率 $P (r = s_{k}) = \frac{{|{\hat{r}}_{x_{k}}^{^{(s_{k})}}|}^{2}}{{‖{\hat{r}}_{x_{k}}‖}_{2}^{2}}$ 选取指标 $s_{k} \in U_{k}$ ，其中向量 ${\hat{r}}_{x_{k}}$ 的定义见算法3的步3。将当前解 $x_{k}$ 投影到解空间 $\{z | A^{(s_{k})} z = b^{(s_{k})}\}$ 得到中间解向量 $y_{k}$

y_{k} = x_{k} + (b^{(s_{k})} - A^{(s_{k})} x_{k}) {(A^{(s_{k})})}^{T}

由此可得，对于 $k = 1,2, 3 \dots$ 成立

r_{y_{k}}^{(s_{k})} = b^{(s_{k})} - A^{(s_{k})} y_{k} = b^{(s_{k})} - A^{(s_{k})} x_{k} - (b^{(s_{k})} - A^{(s_{k})} x_{k}) A^{(s_{k})} {(A^{(s_{k})})}^{T} = 0

即是 ${‖b - A y_{k}‖}_{2}^{2} = {\sum_{j \neq s_{k}} |b^{(j)} - A^{(j)} y_{k}|}^{2}$ 。

其次，构造与 $y_{k}$ 有关的指标集 ${\hat{U}}_{k}$

{\hat{U}}_{k} = \{r || b^{(r)} - A^{(r)} y_{k} |^{2} \geq (1 - θ) \underset{1 \leq j \leq m}{m a x} \{{|b^{(j)} - A^{(j)} y_{k}|}^{2}\}\}, θ \in [0,1]

并以概率 $P (r = r_{k}) = \frac{{|{\hat{r}}_{y_{k}}^{^{(r_{k})}}|}^{2}}{{‖{\hat{r}}_{y_{k}}‖}_{2}^{2}}$ 选取指标 $r_{k} \in {\hat{U}}_{k}$ ，其中向量 ${\hat{r}}_{y_{k}}$ 的定义见算法3的步8。将当前解 $y_{k}$ 投影到解空间 $\{z | A^{(r_{k})} z = b^{(r_{k})}\}$ 得到满足 $A^{(s_{k})} x_{k + 1} = b^{(s_{k})}$ 的解向量 $x_{k + 1}$

\begin{array}{l} x_{k + 1} = y_{k} + (\frac{b^{(r_{k})} - < A^{(r_{k})}, A^{(s_{k})} > b^{(s_{k})}}{\sqrt[]{1 - {|< A^{(r_{k})}, A^{(s_{k})} >|}^{2}}} - \\ \frac{A^{(r_{k})} - < A^{(r_{k})}, A^{(s_{k})} > A^{(s_{k})}}{\sqrt[]{1 - {|< A^{(r_{k})}, A^{(s_{k})} >|}^{2}}} y_{k}) \times \\ {(\frac{A^{(r_{k})} - < A^{(r_{k})}, A^{(s_{k})} > A^{(s_{k})}}{\sqrt[]{1 - {|< A^{(r_{k})}, A^{(s_{k})} >|}^{2}}})}^{T} \end{array}

由指标集 ${\hat{U}}_{k}$ 的定义，对于 $\forall r \in {\hat{U}}_{k}$ ，可得 $\begin{array}{l} {|r_{y_{k}}^{(r)}|}^{2} = {|b^{(r)} - A^{(r)} y_{k}|}^{2} \geq \\ (1 - θ) \underset{1 \leq j \leq m}{m a x} \{{|b^{(j)} - A^{(j)} y_{k}|}^{2}\} = \end{array}$

\begin{array}{l} (1 - θ) {‖b - A y_{k}‖}_{2}^{2} \frac{\underset{1 \leq j \leq m}{m a x} \{{|b^{(j)} - A^{(j)} y_{k}|}^{2}\}}{{‖b - A y_{k}‖}_{2}^{2}} = \\ (1 - θ) {‖b - A y_{k}‖}_{2}^{2} \frac{\underset{1 \leq j \leq m}{m a x} \{{|b^{(j)} - A^{(j)} y_{k}|}^{2}\}}{\sum_{j \neq s_{k}} {|b^{(j)} - A^{(j)} y_{k}|}^{2}} \geq \\ (1 - θ) {‖b - A y_{k}‖}_{2}^{2} \frac{\underset{1 \leq j \leq m}{m a x} \{{|b^{(j)} - A^{(j)} y_{k}|}^{2}\}}{(m - 1) \underset{1 \leq j \leq m}{m a x} \{{|b^{(j)} - A^{(j)} y_{k}|}^{2}\}} = \\ \frac{1 - θ}{m - 1} {‖b - A y_{k}‖}_{2}^{2} \end{array}

（6）

对于 $k = 1,2, 3 \dots$ ，同样可得 $r_{x_{k + 1}}^{(s_{k})} = b^{(s_{k})} - A^{(s_{k})} x_{k + 1} = 0$ 和 $r_{x_{k + 1}}^{(r_{k})} = b^{(r_{k})} - A^{(r_{k})} x_{k + 1} = 0$ ，即是 ${‖b - A x_{k + 1}‖}_{2}^{2} = {\sum_{i \neq s_{k}, r_{k}} |b^{(i)} - A^{(i)} x_{k + 1}|}^{2}$ 。同理，由指标集 $U_{k}$ 的定义，对于 $\forall s \in U_{k}$ ，可得

\begin{array}{l} {|r_{x_{k}}^{(s)}|}^{2} = {|b^{(s)} - A^{(i)} x_{k}|}^{2} \geq \\ (1 - θ) \underset{1 \leq i \leq m}{m a x} \{{|b^{(i)} - A^{(i)} x_{k}|}^{2}\} = \\ (1 - θ) {‖b - A x_{k}‖}_{2}^{2} \frac{\underset{1 \leq i \leq m}{m a x} \{{|b^{(i)} - A^{(i)} x_{k}|}^{2}\}}{{‖b - A x_{k}‖}_{2}^{2}} = \\ (1 - θ) {‖b - A x_{k}‖}_{2}^{2} \frac{\underset{1 \leq i \leq m}{m a x} \{{|b^{(i)} - A^{(i)} x_{k}|}^{2}\}}{\sum_{i \neq s_{k - 1}, r_{k - 1}} {|b^{(i)} - A^{(i)} x_{k}|}^{2}} \geq \\ (1 - θ) {‖b - A x_{k}‖}_{2}^{2} \frac{\underset{1 \leq i \leq m}{m a x} \{{|b^{(i)} - A^{(i)} x_{k}|}^{2}\}}{(m - 2) \underset{1 \leq i \leq m}{m a x} \{{|b^{(i)} - A^{(i)} x_{k}|}^{2}\}} = \\ \frac{1 - θ}{m - 2} {‖b - A x_{k}‖}_{2}^{2} \end{array}

（7）

算法3 　贪婪双子空间随机Kaczmarz方法。

步1 置 $k : = 0$ 。计算 $ε_{k} = (1 - θ) \underset{1 \leq i \leq m}{m a x} \{{|b^{(i)} - A^{(i)} x_{k}|}^{2}\} 。$ 定义正整数指标集 $U_{k} = \{s || b^{(s)} - A^{(s)} x_{k} |^{2} \geq ε_{k}\} 。$ 计算 ${\hat{r}}_{x_{k}}$ 的第 $s$ 个分量 ${\hat{r}}_{x_{k}}^{(s)} = \{\begin{array}{l} b^{(s)} - A^{(s)} x_{k}, & s \in U_{k} \\ 0, & s \notin U_{k} \end{array}$

步2 根据概率 $P (r = s_{k}) = \frac{{|{\hat{r}}_{x_{k}}^{(s_{k})}|}^{2}}{{‖{\hat{r}}_{x_{k}}‖}_{2}^{2}}$ 选取指标 $s_{k} \in U_{k}$ 。

步3 计算 $y_{k} = x_{k} + (b^{(s_{k})} - A^{(s_{k})} x_{k}) {(A^{(s_{k})})}^{T}$ ， ${\hat{ε}}_{k} = (1 - θ) \underset{1 \leq j \leq m}{m a x} \{{|b^{(j)} - A^{(j)} y_{k}|}^{2}\} 。$

步4 定义正整数指标集 ${\hat{U}}_{k} = \{r | | b^{(r)} - A^{(r)} y_{k} |^{2} \geq {\hat{ε}}_{k}\} 。$ 计算 ${\hat{r}}_{y_{k}}$ 的第 $r$ 个分量 ${\hat{r}}_{y_{k}}^{(r)} = \{\begin{array}{l} b^{(r)} - A^{(r)} y_{k}, & r \in {\hat{U}}_{k} \\ 0, & r \notin {\hat{U}}_{k} \end{array}$

步5 根据概率 $P (r = r_{k}) = \frac{{|{\hat{r}}_{y_{k}}^{(r_{k})}|}^{2}}{{‖{\hat{r}}_{y_{k}}‖}_{2}^{2}}$ 选取指标 $r_{k} \in {\hat{U}}_{k}$ 。

步6 计算 $μ_{r_{k}, s_{k}} = < A^{(r_{k})}, A^{(s_{k})} >;$ $ν_{k} = \frac{A^{(r_{k})} - μ_{r_{k}, s_{k}} A^{(s_{k})}}{\sqrt[]{1 - {|μ_{r_{k}, s_{k}}|}^{2}}}$ ； $β_{k} = \frac{b^{(r_{k})} - μ_{r_{k}, s_{k}} b^{(s_{k})}}{\sqrt[]{1 - {|μ_{r_{k}, s_{k}}|}^{2}}} 。$

步7 计算 $x_{k + 1} = y_{k} + (β_{k} - ν_{k} y_{k}) {(ν_{k})}^{T} 。$

步8 置 $k = k + 1$ ，转步1。

此外，由 $y_{k}$ 和 $x_{k + 1}$ 的递推式可以推得相对应的残量的递推公式如下：

\begin{array}{l} r_{y_{k}} = b - A y_{k} = \\ b - A (x_{k} + (b^{(s_{k})} - A^{(s_{k})} x_{k}) {(A^{(s_{k})})}^{T}) = \\ b - A x_{k} - (b^{(s_{k})} - A^{(s_{k})} x_{k}) A {(A^{(s_{k})})}^{T} = \\ r_{x_{k}} - r_{x_{k}}^{(s_{k})} A {(A^{(s_{k})})}^{T} = \\ r_{k} - r_{x_{k}}^{(s_{k})} B_{(s_{k})} \end{array}

\begin{array}{l} r_{x_{k + 1}} = b - A x_{k + 1} = \\ b - A (y_{k} + (β_{k} - ν_{k} y_{k}) {(ν_{k})}^{T}) = \\ b - A y_{k} - (β_{k} - ν_{k} y_{k}) A {(ν_{k})}^{T} = \\ r_{y_{k}} - \frac{r_{^{y_{k}}}^{(r_{k})} - μ_{k} r_{^{y_{k}}}^{(s_{k})}}{\sqrt[]{1 - {|μ_{k}|}^{2}}} \frac{A A_{(r_{k})}^{T} - μ_{k} A A_{(s_{k})}^{T}}{\sqrt[]{1 - {|μ_{k}|}^{2}}} = \\ r_{y_{k}} - \frac{r_{^{y_{k}}}^{(r_{k})} - μ_{k} r_{^{y_{k}}}^{(s_{k})}}{1 - {|μ_{k}|}^{2}} (B_{(r_{k})} - μ_{k} B_{(s_{k})}) \end{array}

其中 $B = A A^{T}$ 且 $B_{(s_{k})}$ 、 $B_{(r_{k})}$ 表示矩阵 $B$ 的第 $s_{k}$ 、 $r_{k}$ 列。若迭代前已知 $A A^{T}$ ，则可进一步提高贪婪双子空间随机Kaczmarz方法的求解性能，参见文献［

24］。关于采用随机策略近似计算矩阵

A A^{T}

，参见文献［42］。

若每次迭代仅选择一个工作行，则算法3成为一类广义贪婪随机Kaczmarz（GRK（θ））方法。通过改变参数 $θ$ ，可得到一系列常用算法作为特殊情况。取 $θ = 0$ ， $θ = \frac{1}{2}$ ， $θ = \frac{1}{2} (1 - \frac{‖b - A x_{k}‖}{m \underset{1 \leq i \leq m}{m a x} \{{|b^{(i)} - A^{(i)} x_{k}|}^{2}\}})$ ， $θ = (1 - ϑ) (1 - \frac{‖b - A x_{k}‖}{m \underset{1 \leq i \leq m}{m a x} \{{|b^{(i)} - A^{(i)} x_{k}|}^{2}\}})$ $(ϑ \in [0,1])$ 时，GRK（θ）方法分别简化为贪婪Kaczmarz方法^［

41］，贪婪距离随机Kaczmarz方法^{［参考文献 25

百度学术}25］，贪婪随机Kaczmarz方法^{［参考文献 24

百度学术}24］和松弛贪婪随机Kaczmarz方法^{［参考文献 33

百度学术}33］。

2 贪婪双子空间随机Kaczmarz方法的收敛性分析

相容线性系统（1）的最小范数解 $x_{*}$ 形如

x_{*} : = a r g \underset{A x = b}{m i n} {‖x‖}_{2} ≜ A^{†} b \in R a n (A^{T})

其中 $R a n (A^{T})$ 表示 $A^{T}$ 的列空间。若初始向量 $x_{0} \in R a n (A^{T})$ ，由算法3的步5和步13可知，算法3生成的迭代序列 ${\{x_{k}\}}_{k = 0}^{\infty}$ 一定在 $R a n (A^{T})$ 中，故若算法3收敛，则一定收敛到相容线性系统（1）的最小范数解。

关于算法3特殊情况（每次迭代仅选一个工作行）——广义贪婪随机Kaczmarz方法，有如下收敛性定理。

定理 3 　若线性系统（1）相容，其中系数矩阵 $A \in R^{m \times n}$ 且右端项 $b \in R^{m}$ 。初始向量 $x_{0} \in R a n (A^{T})$ ，令 $x_{k + 1}$ 为通过广义贪婪随机Kaczmarz方法生成的第 $(k + 1)$ 个迭代值，则有

E {‖x_{*} - x_{k + 1}‖}_{2}^{2} \leq (1 - \frac{1 - θ}{m - 1} σ_{_{m i n}}^{2} (A)) {‖x_{*} - x_{k}‖}_{2}^{2}

（8）

和

E {‖x_{*} - x_{k + 1}‖}_{2}^{2} \leq {(1 - \frac{1 - θ}{m - 1} σ_{_{m i n}}^{2} (A))}^{k + 1} {‖x_{*} - x_{0}‖}_{2}^{2}, k = 0,1, 2 \dots

证明：　由广义贪婪随机Kaczmarz方法（算法3的前5步）可得

x_{k + 1} = x_{k} + (b^{(s_{k})} - A^{(s_{k})} x_{k}) {(A^{(s_{k})})}^{T}

根据概率 $P (r = s_{k}) = \frac{{|{\hat{r}}_{x_{k}}^{(s_{k})}|}^{2}}{{‖{\hat{r}}_{x_{k}}‖}_{2}^{2}}$ 选指标 $s_{k} \in U_{k}$ 。由 $A^{(s_{k})} (x_{*} - x_{k + 1}) = 0$ ，即 $x_{*} - x_{k}$ 与 $x_{k + 1} - x_{k}$ 正交，可得

{‖x_{*} - x_{k + 1}‖}_{2}^{2} = {‖x_{*} - x_{k}‖}_{2}^{2} - {‖x_{k} - x_{k + 1}‖}_{2}^{2}

（9）

对等式（9）两侧取期望，有

\begin{array}{l} E {‖x_{*} - x_{k + 1}‖}_{2}^{2} = \\ {‖x_{*} - x_{k}‖}_{2}^{2} - E {‖x_{k} - x_{k + 1}‖}_{2}^{2} = \\ {‖x_{*} - x_{k}‖}_{2}^{2} - \sum_{s \in U_{k}} \frac{{|{\hat{r}}_{x_{k}}^{(s_{k})}|}^{2}}{{‖{\hat{r}}_{x_{k}}‖}_{2}^{2}} {‖(b^{(s_{k})} - A^{(s_{k})} x_{k}) {(A^{(s_{k})})}^{T}‖}_{2}^{2} = \\ {‖x_{*} - x_{k}‖}_{2}^{2} - \sum_{s \in U_{k}} \frac{{|{\hat{r}}_{x_{k}}^{(s_{k})}|}^{2}}{{‖{\hat{r}}_{x_{k}}‖}_{2}^{2}} {|b^{(s_{k})} - A^{(s_{k})} x_{k}|}^{2} \end{array}

（10）

由 $r_{x_{k + 1}}^{(s_{k})} = b^{(s_{k})} - A^{(s_{k})} x_{k + 1} = 0, k = 0,1, 2 \dots$ ，则 ${‖b - A x_{k + 1}‖}_{2}^{2} = {\sum_{i \neq s_{k}} |b^{(i)} - A^{(i)} x_{k + 1}|}^{2}$ 。类似不等式（6），对于 $\forall r \in {\hat{U}}_{k}$ ，可以推得

{|r_{x_{k}}^{(s)}|}^{2} = {|b^{(s)} - A^{(s)} x_{k}|}^{2} \geq \frac{1 - θ}{m - 1} σ_{_{m i n}}^{2} (A) {‖x_{*} - x_{k}‖}_{2}^{2}

（11）

其中式（11）最后一个不等式需要用到不等式（12），即对于任意 $u \in R a n (A^{T})$ ，成立

{‖A u‖}_{2}^{2} \geq σ_{_{m i n}}^{2} (A) {‖u‖}_{2}^{2}

（12）

联立等式（11）和不等式（12）可得

\begin{array}{l} E {‖x_{*} - x_{k + 1}‖}_{2}^{2} = {‖x_{*} - x_{k}‖}_{2}^{2} - \\ \sum_{s \in U_{k}} \frac{{|{\hat{r}}_{x_{k}}^{(s)}|}^{2}}{{‖{\hat{r}}_{x_{k}}‖}_{2}^{2}} {|b^{(s)} - A^{(s)} x_{k}|}^{2} \leq \\ {‖x_{*} - x_{k}‖}_{2}^{2} - \frac{1 - θ}{m - 1} σ_{_{m i n}}^{2} (A) ‖x_{*} - \\ {x_{k}‖}_{2}^{2} \sum_{s \in U_{k}} \frac{{|b^{(s)} - A^{(s)} x_{k}|}^{2}}{{‖{\hat{r}}_{x_{k}}‖}_{2}^{2}} = \\ {‖x_{*} - x_{k}‖}_{2}^{2} - \frac{1 - θ}{m - 1} σ_{_{m i n}}^{2} (A) {‖x_{*} - x_{k}‖}_{2}^{2} = \\ (1 - \frac{1 - θ}{m - 1} σ_{_{m i n}}^{2} (A)) {‖x_{*} - x_{k}‖}_{2}^{2} \end{array}

通过归纳法，可得

\begin{array}{l} E {‖x_{*} - x_{k + 1}‖}_{2}^{2} \leq {(1 - \frac{1 - θ}{m - 1} σ_{_{m i n}}^{2} (A))}^{k + 1} {‖x_{*} - x_{0}‖}_{2}^{2} \\ K = 0,1, 2 \dots \end{array}

关于贪婪双子空间随机Kaczmarz方法，有如下的收敛性定理。

定理4 　若线性系统（1）相容，其中系数矩阵 $A \in R^{m \times n}$ 且右端项 $b \in R^{m}$ 。初始向量 $x_{0} \in R a n (A^{T})$ ，令 $x_{k + 1}$ 为通过贪婪双子空间随机Kaczmarz方法生成的第 $(k + 1)$ 个迭代值，则

\begin{array}{l} E {‖x_{*} - x_{k + 1}‖}_{2}^{2} \leq \\ M (θ) {‖x_{*} - x_{k}‖}_{2}^{2} - \\ \sum_{r \in {\hat{U}}_{k}}^{} \frac{{|{\hat{r}}_{y_{k}}^{(r)}|}^{2}}{{‖{\hat{r}}_{y_{k}}‖}_{2}^{2}} \sum_{s \in U_{k}}^{} \frac{{|{\hat{r}}_{x_{k}}^{(s)}|}^{2}}{{‖{\hat{r}}_{x_{k}}‖}_{2}^{2}} {|μ_{r, s}|}^{2} {|< e_{k}^{T}, ν_{r, s} >|}^{2} \end{array}

（13）

这里， $M (θ) = (1 - \frac{1 - θ}{m - 1} σ_{_{m i n}}^{2} (A)) (1 - \frac{1 - θ}{m - 2} σ_{_{m i n}}^{2} (A))$ ， $e_{k} = x_{*} - x_{k}$ ， $μ_{r, s} = < A^{(r)}, A^{(s)} >$ ， $ν_{r, s} = \frac{A^{(r)} - μ_{k} A^{(s)}}{\sqrt[]{1 - {|μ_{r, s}|}^{2}}}$ 。进一步放缩可得一个松弛但更简单的收敛界

E {‖x_{*} - x_{k + 1}‖}_{2}^{2} \leq M_{k} (θ) {‖x_{*} - x_{k}‖}_{2}^{2}

其中 $M_{k} (θ) = (1 - \frac{(1 + D_{k}) (1 - θ)}{m - 1} σ_{_{m i n}}^{2} (A)) (1 - \frac{1 - θ}{m - 2} σ_{_{m i n}}^{2} (A))$ ， $D_{k} = \underset{r \in {\hat{U}}_{k}, s \in U_{k}}{m i n} \{\frac{{|μ_{r, s}|}^{2}}{1 - {|μ_{r, s}|}^{2}}\}$ 。

证明：　由算法3的步5和步13可得

\begin{array}{l} y_{k} = x_{k} + (b^{(s_{k})} - A^{(s_{k})} x_{k}) {(A^{(s_{k})})}^{T} = \\ x_{k} + < e_{k}^{T}, A^{(s_{k})} > {(A^{(s_{k})})}^{T} \\ x_{k + 1} = y_{k} + (β_{k} - ν_{k} y_{k}) {(ν_{k})}^{T} = \\ x_{k} + < e_{k}^{T}, A^{(s_{k})} > {(A^{(s_{k})})}^{T} + < e_{k}^{T}, ν_{k} > {(ν_{k})}^{T} \end{array}

记 $ξ_{k} = < A^{(r_{k})}, ν_{k} >$ 。为了便利，在后续的证明中， $A^{(r_{k})}$ 、 $A^{(s_{k})}$ 、 $μ_{k}$ 、 $ν_{k}$ 、 $ξ_{k}$ 分别简记为 $A^{(r)}$ 、 $A^{(s)}$ 、 $μ$ 、 $ν$ 、 $ξ$ 。由于 $< A^{(s)}, ν > = 0$ ，即向量 $ν$ 正交于向量 $A^{(s)}$ ，展开 ${‖x_{*} - x_{k + 1}‖}_{2}^{2}$ 可得

{‖x_{*} - x_{k + 1}‖}_{2}^{2} = {‖e_{k}‖}_{2}^{2} - {|< e_{k}^{T}, A^{(s)} >|}^{2} - {|< e_{k}^{T}, ν >|}^{2}

（14）

在算法3中，一次迭代需执行两次投影。因此，将式（14）中的误差与广义贪婪随机Kaczmarz 方法两次迭代后获得的误差进行比较。设 $z$ 是广义贪婪随机Kaczmarz 方法基于 $y_{k}$ 的下一次迭代值，则有

\begin{array}{l} z = y_{k} + (b^{(r)} - A^{(r)} y_{k}) {(A^{(r)})}^{T} = \\ x_{k} + < e_{k}^{T}, A^{(s)} > {(A^{(s)})}^{T} + \\ < x_{*}^{T} - y_{k}^{T}, A^{(r)} > {(A^{(r)})}^{T} \end{array}

（15）

由 $y_{k}$ 的递推式可得

\begin{array}{l} < x_{*}^{T} - y_{k}^{T}, A^{(r)} > = \\ < e_{k}^{T}, A^{(r)} > - < e_{k}^{T}, A^{(s)} > < A^{(s)}, A^{(r)} > = \\ < e_{k}^{T}, A^{(r)} > - μ < e_{k}^{T}, A^{(s)} > = \\ < e_{k}^{T}, A^{(r)} - μ A^{(s)} > \end{array}

（16）

由 $μ$ 、 $ν$ 、 $ξ$ 的定义可得

A^{(r)} = μ A^{(r)} + ν, ξ^{2} + μ^{2} = 1

（17）

联立式（15）~（17）可得

\begin{array}{l} z = x_{k} + < e_{k}^{T}, A^{(s)} > {(A^{(s)})}^{T} + \\ < e_{k}^{T}, A^{(r)} - μ A^{(s)} > {(A^{(r)})}^{T} = \\ x_{k} + < e_{k}^{T}, A^{(s)} > {(A^{(s)})}^{T} + \\ < e_{k}^{T}, ξ ν > {(μ A^{(s)} + ξ ν)}^{T} = \\ x_{k} + < e_{k}^{T}, A^{(s)} > {(A^{(s)})}^{T} + \\ ξ μ < e_{k}^{T}, ν > {(A^{(s)})}^{T} + \\ ξ^{2} < e_{k}^{T}, ν > {(ν)}^{T} = \\ x_{k} + < e_{k}^{T}, A^{(s)} > {(A^{(s)})}^{T} + \\ ξ μ < e_{k}^{T}, ν > {(A^{(s)})}^{T} + < e_{k}^{T}, ν > {(ν)}^{T} - \\ μ^{2} < e_{k}^{T}, ν > {(ν)}^{T} \end{array}

利用向量 $ν$ 与向量 $A^{(s)}$ 的正交性，展开 ${‖x_{*} - z‖}_{2}^{2}$ 可得

\begin{array}{l} {‖x_{*} - z‖}_{2}^{2} = ‖e_{k} - < e_{k}^{T}, A^{(s)} > {(A^{(s)})}^{T} - \\ ξ μ < e_{k}^{T}, ν > {(A^{(s)})}^{T} - \\ {{|< e_{k}^{T}, ν >|}^{2} ν^{T} + μ^{2} < e_{k}^{T}, ν > ν^{T}‖}_{2}^{2} = \\ {‖e_{k}‖}_{2}^{2} - {|< e_{k}^{T}, A^{(s)} >|}^{2} - \\ {|< e_{k}^{T}, ν >|}^{2} + μ^{2} {|< e_{k}^{T}, ν >|}^{2} \end{array}

（18）

联立式（14）和式（18）可得

{‖x_{*} - x_{k + 1}‖}_{2}^{2} = {‖x_{*} - z‖}_{2}^{2} - {|μ < e_{k}^{T}, ν >|}^{2}

（19）

对式（19）两端取期望可得

E {‖x_{*} - x_{k + 1}‖}_{2}^{2} = E {‖x_{*} - z‖}_{2}^{2} - E {|μ < e_{k}^{T}, ν >|}^{2}

（20）

由定理3可得

E {‖x_{*} - z‖}_{2}^{2} \leq (1 - \frac{1 - θ}{m - 1} σ_{_{m i n}}^{2} (A)) E {‖x_{*} - y_{k}‖}_{2}^{2}

（21）

再由

\begin{array}{l} E {‖x_{*} - y_{k}‖}_{2}^{2} = \\ {‖x_{*} - x_{k}‖}_{2}^{2} - E {|b^{(s_{k})} - A^{(s_{k})} x_{k}|}^{2} = \\ {‖x_{*} - x_{k}‖}_{2}^{2} - \sum_{s \in U_{k}} \frac{{|{\hat{r}}_{x_{k}}^{(s)}|}^{2}}{{‖{\hat{r}}_{x_{k}}‖}_{2}^{2}} {|b^{(s)} - A^{(s)} x_{k}|}^{2} \leq \\ {‖x_{*} - x_{k}‖}_{2}^{2} - \frac{1 - θ}{m - 2} {‖b - A x_{k}‖}_{2}^{2} (由 等 式 (7)) \leq \\ (1 - \frac{1 - θ}{m - 2} σ_{_{m i n}}^{2} (A)) {‖x_{*} - x_{k}‖}_{2}^{2} \end{array}

因此，可得

E {‖x_{*} - z‖}_{2}^{2} \leq (1 - \frac{1 - θ}{m - 1} σ_{_{m i n}}^{2} (A)) (1 - \frac{1 - θ}{m - 2} σ_{_{m i n}}^{2} (A)) {‖x_{*} - x_{k}‖}_{2}^{2}

（22）

再由期望的定义可得

E {|μ < e_{k}^{T}, ν >|}^{2} = \sum_{r \in {\hat{U}}_{k}}^{} \frac{{|{\hat{r}}_{y_{k}}^{(r)}|}^{2}}{{‖{\hat{r}}_{y_{k}}‖}_{2}^{2}} \sum_{s \in U_{k}}^{} \frac{{|{\hat{r}}_{x_{k}}^{(s)}|}^{2}}{{‖{\hat{r}}_{x_{k}}‖}_{2}^{2}} {|μ_{r, s}|}^{2} {|< e_{k}^{T}, ν_{r, s} >|}^{2}

（23）

把式（22）和式（23）带入式（20）可得式（13）。

把式（16）和式（17）带入式（23），同时再结合式（6）可得

\begin{array}{l} E {|μ < e_{k}^{T}, ν >|}^{2} = \\ \sum_{r \in {\hat{U}}_{k}}^{} \frac{{|{\hat{r}}_{y_{k}}^{(r)}|}^{2}}{{‖{\hat{r}}_{y_{k}}‖}_{2}^{2}} \sum_{s \in U_{k}}^{} \frac{{|{\hat{r}}_{x_{k}}^{(s)}|}^{2}}{{‖{\hat{r}}_{x_{k}}‖}_{2}^{2}} {|μ_{r, s}|}^{2} {|< e_{k}^{T}, ν_{r, s} >|}^{2} = \\ \sum_{r \in {\hat{U}}_{k}}^{} \frac{{|{\hat{r}}_{y_{k}}^{(r)}|}^{2}}{{‖{\hat{r}}_{y_{k}}‖}_{2}^{2}} \frac{{|μ_{r, s}|}^{2}}{1 - {|μ_{r, s}|}^{2}} {|< x_{*}^{T} - y_{k}^{T}, A^{(r)} >|}^{2} \geq \\ D_{k} \sum_{r \in {\hat{U}}_{k}}^{} \frac{{|{\hat{r}}_{y_{k}}^{(r)}|}^{2}}{{‖{\hat{r}}_{y_{k}}‖}_{2}^{2}} {|< x_{*}^{T} - y_{k}^{T}, A^{(r)} >|}^{2} \geq \\ D_{k} \frac{1 - θ}{m - 1} σ_{_{m i n}}^{2} (A) {‖x_{*} - y_{k}‖}_{2}^{2} \end{array}

（24）

其中 $D_{k} = \underset{r \in {\hat{U}}_{k}, s \in U_{k}}{m i n} \{\frac{{|μ_{r, s}|}^{2}}{1 - {|μ_{r, s}|}^{2}}\}$ 。把式（21）和式（24）带入式（20）可得 $\begin{array}{l} E {‖x_{*} - x_{k + 1}‖}_{2}^{2} = \\ (1 - \frac{1 - θ}{m - 1} σ_{_{m i n}}^{2} (A)) ‖x_{*} - \end{array}$

{y_{k}‖}_{2}^{2} - D_{k} \frac{1 - θ}{m - 1} σ_{_{m i n}}^{2} (A) {‖x_{*} - y_{k}‖}_{2}^{2} =

\begin{array}{l} (1 - \frac{(1 + D_{k}) (1 - θ)}{m - 1} σ_{_{m i n}}^{2} (A)) {‖x_{*} - y_{k}‖}_{2}^{2} = \\ (1 - \frac{(1 + D_{k}) (1 - θ)}{m - 1} σ_{_{m i n}}^{2} (A)) E {‖x_{*} - y_{k}‖}_{2}^{2} \leq \\ (1 - \frac{(1 + D_{k}) (1 - θ)}{m - 1} σ_{_{m i n}}^{2} (A)) \\ (1 - \frac{1 - θ}{m - 2} σ_{_{m i n}}^{2} (A)) {‖x_{*} - x_{k}‖}_{2}^{2} \end{array}

收敛因子越小，方法收敛得越快。通过定理4收敛界可知，参数 $θ$ 越小，收敛因子 $M_{k} (θ)$ 越小，即贪婪双子空间随机Kaczmarz方法收敛速度越快。为便于比较，用 $θ$ 取值特殊的贪婪双子空间随机Kaczmarz方法与原双子空间随机Kaczmarz方法作比较，但对实际问题，因贪婪双子空间随机Kaczmarz方法选行概率更具优势性，对于 $\forall θ \in [0,1]$ ，贪婪双子空间随机Kaczmarz方法都比原双子空间随机Kaczmarz方法收敛更快。

事实 ①令 $t_{1}, t_{2}, \dots, t_{l}$ 是在概率分别为 $p_{1}, p_{2}, \dots, p_{l}$ 的某个概率空间上定义的一组随机变量。若越大的 $|t_{i}|$ 所对应的概率 $p_{i}$ 越大，则值 $\sum_{i = 1}^{l} |t_{i}| p_{i}$ 越大；②对于任意数组 $Γ = \{t_{1}, t_{2}, \dots, t_{l}\}$ ， $t_{i} \in R$ ， $a v e (Γ)$ 表示数组 $Γ$ 的平均值。令 $\hat{Γ} = \{t_{i} \geq a v e (Γ), t_{i} \in Γ\}$ ，有 $a v e (\hat{Γ}) \geq a v e (Γ)$ 。

当 $θ \leq \frac{1}{m}$ 时，显然成立

\begin{array}{l} 1 - \frac{1 - θ}{m - 2} σ_{_{m i n}}^{2} (A) \leq 1 - \frac{1 - θ}{m - 1} σ_{_{m i n}}^{2} (A) \leq 1 - \frac{σ_{_{m i n}}^{2} (A)}{m} \\ 即 M (θ) \leq {(1 - \frac{σ_{_{m i n}}^{2} (A)}{m})}^{2} 。 \end{array}

同时，当 $θ \leq \frac{1}{m}$ 时，对于任意 $r \in {\hat{U}}_{k}$ ，显然成立

\begin{array}{l} {|r_{y_{k}}^{(r)}|}^{2} \geq \\ (1 - θ) \underset{1 \leq j \leq m}{m a x} \{{|b^{(j)} - A^{(j)} y_{k}|}^{2}\} \geq \\ \frac{m - 1}{m} \underset{1 \leq j \leq m}{m a x} \{{|b^{(j)} - A^{(j)} y_{k}|}^{2}\} \geq \\ \frac{{‖b - A y_{k}‖}_{2}^{2}}{m} 。 \end{array}

基于事实①和②可得 $\begin{array}{l} E {|μ < e_{k}^{T}, ν >|}^{2} = \\ \sum_{r \in {\hat{U}}_{k}}^{} \frac{{|{\hat{r}}_{y_{k}}^{(r)}|}^{2}}{{‖{\hat{r}}_{y_{k}}‖}_{2}^{2}} \sum_{s \in U_{k}}^{} \frac{{|{\hat{r}}_{x_{k}}^{(s)}|}^{2}}{{‖{\hat{r}}_{x_{k}}‖}_{2}^{2}} {|μ_{r, s}|}^{2} {|< e_{k}^{T}, ν_{r, s} >|}^{2} = \end{array}$

\begin{array}{l} \sum_{r \in {\hat{U}}_{k}}^{} \frac{{|{\hat{r}}_{y_{k}}^{(r)}|}^{2}}{{‖{\hat{r}}_{y_{k}}‖}_{2}^{2}} \sum_{s \in U_{k}}^{} \frac{{|{\hat{r}}_{x_{k}}^{(s)}|}^{2}}{{‖{\hat{r}}_{x_{k}}‖}_{2}^{2}} \frac{{|μ_{r, s}|}^{2}}{1 - {|μ_{r, s}|}^{2}} {|< x_{*}^{T} - y_{k}^{T}, A^{(r)} >|}^{2} \geq \\ \frac{1}{|{\hat{U}}_{k}|} \frac{1}{|U_{k}|} \sum_{r \in {\hat{U}}_{k}} \sum_{s \in U_{k}}^{} \frac{{|μ_{r, s}|}^{2}}{1 - {|μ_{r, s}|}^{2}} {|< x_{*}^{T} - y_{k}^{T}, A^{(r)} >|}^{2} \geq \\ \frac{1}{m - 1} \frac{1}{m} \sum_{r \neq s} \sum_{s \in m}^{} \frac{{|μ_{r, s}|}^{2}}{1 - {|μ_{r, s}|}^{2}} {|< x_{*}^{T} - y_{k}^{T}, A^{(r)} >|}^{2} = \\ \frac{1}{m (m - 1)} \sum_{r \neq s} |\frac{μ_{r, s}^{2}}{\sqrt[]{1 - μ_{r, s}^{2}}} < e_{k}^{T}, A^{(r)} > - \\ {\frac{μ_{r, s}^{}}{\sqrt[]{1 - μ_{r, s}^{2}}} < e_{k}^{T}, A^{(s)} >|}^{2} \end{array}

因此，贪婪双子空间随机Kaczmarz方法收敛因子小于原双子空间随机Kaczmarz方法的收敛因子。

浮点运算量方面，原双子空间随机Kaczmarz方法每次迭代需要 $12 n + 4$ 个浮点运算量。若残差由递推公式计算，则贪婪双子空间随机Kaczmarz方法每次迭代需要 $16 m + 6 n + 7$ 个浮点运算量。因此，当 $m < \frac{6 n - 3}{16}$ 时，贪婪双子空间随机Kaczmarz方法计算量小于原双子空间随机Kaczmarz方法。

3 数值实验

在本节中，分别通过数值实验比较随机Kaczmarz方法（RK）、双子空间随机Kaczmarz方法（2S‒RK）和贪婪双子空间随机Kaczmarz方法（2S‒GRK（θ）），并显示后者无论在迭代步数（IT）还是计算时间（CPU）上均优于前两者。这里，迭代步数（IT）和计算时间（CPU）取30次计算结果的平均值。

在实验中，通过Matlab函数 $r a n d n$ 随机生成解 $x_{*} \in R^{n}$ ，右端项 $b \in R^{m}$ 由 $A x_{*}$ 给出。此外，需要指出2S‒GRK（θ）方法按照算法3中定义的过程精确执行，并没有显式地计算矩阵 $B = A A^{T}$ 来计算残量。本节的所有数值实验，均取初始向量为 $x_{0} = 0$ ，停机准则为近似解的相对误差 $R_{S E}$ 满足

R_{S E} = \frac{{‖x_{*} - x_{k}‖}_{2}^{2}}{{‖x_{*}‖}_{2}^{2}} < 10^{- 6}

或者迭代步数超过30万。在实验表格中，若在30万步内未达到指定精度，即用“ $- -$ ”表示。

为了测试这些方法，选取了两类矩阵进行实验。一类是通过Matlab函数 $u n i f r n d$ 生成的500×100的相干矩阵。矩阵元素是在区间 $[d, 1]$ 上独立且均匀分布的随机变量。通过改变 $d$ 的值，可以得到具有不同相干系数对的矩阵，相干系数对 $(σ, Δ)$ 定义如下

σ = σ (A) = \underset{i \neq j}{m i n} |< A^{(i)}, A^{(j)} >|, Δ = Δ (A) = \underset{i \neq j}{m a x} |< A^{(i)}, A^{(j)} >|

表1列出了测试的相干矩阵的相关信息。包含不同相干程度的500×100矩阵。

表1 相干矩阵信息

Tab.1 Information of coherent matrices

矩阵名称	阶数	取值区间	相干系数对
A1	$500 \times 100$	$[- 0.4,1]$	$(0.008 4,1)$
A2	$500 \times 100$	$[- 0.1,1]$	$(0.477 9,1)$
A3	$500 \times 100$	$[0.2,1]$	$(0.799 3,1)$
A4	$500 \times 100$	$[0.5,1]$	$(0.944 8,1)$
A5	$500 \times 100$	$[0.8,1]$	$(0.993 5,1)$

对于测试的矩阵，表2给出了RK， 2S‒RK， 2S‒GRK（θ）3种方法的迭代步数（IT）与计算时间（CPU），以及2S‒GRK（θ）方法对于2S‒RK方法的加速比。

表2 相干矩阵数值结果

Tab.2 Numerical results of coherent matrices

算法	A1		A2		A3		A4		A5
算法	IT	CPU	IT	CPU	IT	CPU	IT	CPU	IT	CPU
RK	2 530.0	0.133 8	5 020.0	0.255 2	12 120.0	0.618 7	43 870.0	2.236 4	$- -$	$- -$
2S‒RK	1 130.6	0.034 5	1 474.7	0.036 0	1 644.8	0.039 1	1 752.6	0.041 5	1 745.8	0.041 1
2S‒GRK（θ）	124.0	0.013 7	136.0	0.011 0	142.0	0.011 3	150	0.011 7	141.0	0.011 2
加速比	2.48		3.27		3.46		3.55		3.64

由表2可知， 2S‒RK与2S‒GRK（θ）方法总能计算出符合精度的解，而RK方法有时在迭代步数达到30万步后仍不能计算出符合精度的解。而且即便RK方法收敛， 2S‒RK与2S‒GRK（θ）方法在迭代步数与计算时间上也均少于RK方法。此外，2S‒GRK（θ）方法进一步优化了2S‒RK方法，其关于2S‒RK方法迭代时间的加速比最大可以达到3.64，最小可以达到2.48。值得注意的是，无论矩阵的相干程度如何，2S‒GRK（θ）方法均收敛，且其迭代步数与计算时间均优于原始的2S‒RK方法。

图1描绘了相干矩阵A2（图1a）和A4（图1b）的近似解的相对误差 $R_{S E}$ 以10为底的对数随着迭代步数变化的曲线，进一步验证了2S‒GRK（θ）方法比经典的2S‒RK方法收敛更快。

图1 以A2和A4为系数矩阵的线性系统的近似解的相对误差随着迭代步数变化的曲线

Fig.1 $l g (R_{S E})$ versus IT for linear systems with coefficient matrices:A2 and A4

表3列出了测试的稀疏矩阵的相关信息。

表3 稀疏矩阵信息

Tab.3 Information of sparse matrices

矩阵名称	阶数	非零元个数	相干系数对
Abtaha1	$14 596 \times 209$	51 307	$(0.816 5,1)$
Ash219	$219 \times 85$	438	$(0,1)$
Ash331	$331 \times 104$	662	$(0,1)$
Ash608	$608 \times 188$	1 216	$(0,1)$
Ash958	$958 \times 292$	1 916	$(0,1)$

对于测试的稀疏矩阵，表4给出了RK、2S‒RK、2S‒GRK（θ）3种方法的迭代步数（IT）与计算时间（CPU），以及2S‒GRK（θ）方法对于2S‒RK方法的加速比。

表4 稀疏矩阵数值结果

Tab.4 Numerical results of sparse matrices

算法	Abtaha1		Ash219		Ash331		Ash608		Ash958
算法	IT	CPU	IT	CPU	IT	CPU	IT	CPU	IT	CPU
RK	81 883	26.572 9	1 896	0.123 1	2 183	0.145 1	4 119	0.302 7	5.885	0.512 8
2S‒RK	24 931	12.346 3	901	0.065 0	1 050	0.078 4	2 056	0.184 3	3.005	0.316 3
2S‒GRK（θ）	254	7.059 6	127	0.010 6	129	0.012 7	237	0.030 2	353	0.055 7
加速比	1.75		6.13		6.17		6.10		5.68

由表4可得与表2类似结论，即 2S‒GRK（θ）与2S‒RK方法在迭代步数与计算时间上也均少于RK方法。此外， 2S‒GRK（θ）方法进一步优化了2S‒RK方法，其关于2S‒RK方法迭代时间的加速比最大可以达到6.17，最小可以达到1.75。因此，无论对于相干矩阵还是稀疏（不相干）矩阵， 2S‒GRK（θ）方法均收敛，且其迭代步数与计算时间均优于传统的 2S‒RK方法。

图2描绘了矩阵Ash219（图2a）和Ash958（图2b）的近似解的相对误差以10为底的对数随着迭代步数变化的曲线，进一步验证了 2S‒GRK（θ）方法方法比经典的2S‒RK方法收敛更快。

图2 以Ash219和Ash958为系数矩阵的线性系统的近似解的相对误差随着迭代步数变化的曲线

Fig.2 $l g (R_{S E})$ versus IT for linear systems with coefficient matrices:Ash219 and Ash958

对于4个测试矩阵A2、A4、Ash219和Ash958，图3描绘了2S‒GRK（θ）方法的计算时间（图3a）和迭代步数（图3b）随控制参数 $θ$ 变化的曲线。由图3可知，只要在计算时采用合适的控制参数 $θ$ ， 2S‒GRK（θ）方法的性能就会得到很大提升。结合表2和表4可知，无论 $θ \in [0,1]$ 取何值， 2S‒GRK（θ）方法方法总比经典的2S‒RK方法收敛更快。

图3 2S‒GRK（θ）方法的计算时间和迭代步数随控制参数θ变化的曲线

Fig.3 CPU and IT versus θ of 2S‒GRK(θ)

4 结论

提出一类贪婪双子空间随机Kaczmarz方法，理论分析证明新方法的收敛性，还表明收敛因子小于传统的双子空间随机Kaczmarz方法的收敛因子。数值实验结果也表明所提出的新方法在迭代步数和计算时间上均优于传统的双子空间随机Kaczmarz方法。贪婪双子空间随机Kaczmarz方法能够快速求解大规模稀疏相容线性方程组，主要原因在于新方法定义的随机选取工作行的概率更具优势。如何随机选取工作行以加速Kaczmarz方法及其应用^［

43］仍然是一个值得研究的问题。

作者贡献声明

荆燕飞：核心思想提炼、论文修改。

李彩霞：论文撰写。

胡少亮：论文修改。

参考文献

BREZINSKI C. Projection methods for systems of equations ［M］. Amsterdam：North-Holland Publishing Co，1997. [百度学术]

SAAD Y. Iterative methods for sparse linear systems ［M］. Philadelphia： SIAM Publisher， 2003. [百度学术]

GALÁNTAI A. Projectors and projection methods ［M］. Boston： Kluwer Academic Publishers， 2003. [百度学术]

GOLUB G H. Matrix computations［M］. 3rd ed. Baltimore： Johns Hopkins UP， 2008. [百度学术]

KACZMARZ S. Angenäherte auflösung von systemen linearer gleichungen ［J］. Bulletin International de l'Academie Polonaise des Sciences et des Lettres， 1937， 35： 355. [百度学术]

ANSORGE R. Connections between the Cimmino-method and the Kaczmarz-method for the solution of singular and regular systems of equations ［J］. Computing， 1984， 33： 367. [百度学术]

CENSOR Y. Row-action methods for huge and sparse systems and their applications ［J］. SIAM Review， 1981， 23： 444. [百度学术]

KNIGHT P A. Error analysis of stationary iteration and associated problems ［D］. Manchester： Manchester University， 1993. [百度学术]

BAI Z Z， LIU X G. On the meany inequality with applications to convergence analysis of several row-action iteration methods ［J］. Numerische Mathematik， 2013， 124： 215. [百度学术]

CENSOR Y. Parallel application of block-iterative methods in medical imaging and radiation therapy ［J］. Mathematical Programming， 1988， 42： 307. [百度学术]

HERMAN G T. Fundamentals of computerized tomography： image reconstruction from projection ［M］. 2nd ed. London： Springer， 2009. [百度学术]

KAK A C， SLANEY M. Principles of computerized tomographic imaging ［M］. Philadelphia： SIAM Publisher， 2003. [百度学术]

NATTERER F. The mathematics of computerized tomography ［M］. Philadelphia： SIAM Publisher， 2001. [百度学术]

GORDON R， BENDER R， HERMAN G T. Algebraic reconstruction techniques （ART） for three-dimensional electron microscopy and X-ray photography ［J］. Journal of Theoretical Biology， 1970， 29（3）： 471. [百度学术]

HERMAN G T， DAVIDI R. Image reconstruction from a small number of projections ［J］. Inverse Problems， 2008， 24（4）： 45011. [百度学术]

HERMEN G T， MEYER L B. Algebraic reconstruction techniques can be made computationally efficient ［J］. IEEE Trans Medical Imaging， 1993， 12（3）： 600. [百度学术]

ELBLE J M， SAHINIDIS N V， VOUZIS P. GPU computing with Kaczmarz’s and other iterative algorithms for linear systems ［J］. Parallel Computing， 2010， 36（5）： 215. [百度学术]

PASQUALETTI F， CARLI R，BULLO F. Distributed estimation via iterative projections with application to power network monitoring ［J］. Automatica， 2012， 48（5）： 747. [百度学术]

BYRNE C. A unified treatment of some iterative algorithms in signal processing and image reconstruction ［J］. Inverse Problems， 2004， 20（1）： 103. [百度学术]

LORENZ D， MAGNOR M， WENGER S， et al. A sparse Kaczmarz solver and a linearized Bregman method for online compressed sensing ［C］// IEEE International Conference on Image Processing （ICIP）.［S.l.］：ICIP， 2014： 1347-1351. [百度学术]

CENKER C， FEICHTINGER H G， MAYER M， et al. New variants of the POCS method using affine subspaces of finite codimension， with applications to irregular sampling ［J］. Proceedings of SPIE - The International Society for Optical Engineering， 1992， 1818： 299. [百度学术]

STROHMER T， VERSHYNIN R. A randomized Kaczmarz algorithm with exponential convergence ［J］. Journal of Fourier Analysis and Applications， 2009， 15（2）： 262. [百度学术]

DAI L， SOLTANALIAN M， PELCKMANS K. On the randomized Kaczmarz algorithm［J］. IEEE Signal Processing Letters， 2014， 21（3）： 330. [百度学术]

BAI Z Z， WU W T. On greedy randomized Kaczmarz method for solving large sparse linear systems ［J］. SIAM Journal on Scientific Computing， 2018， 40（1）： 592. [百度学术]

BAI Z Z， WU W T. On relaxed greedy randomized Kaczmarz methods for solving large sparse linear systems ［J］. Applied Mathematics Letters， 2018， 83： 21. [百度学术]

杜亦疏，殷俊锋，张科. 求解大型稀疏线性方程组的贪婪距离随机Kaczmarz方法［J］. 同济大学学报（自然科学版）， 2020， 48（8）： 1224. [百度学术]

DU Yishu， YIN Junfeng， ZHANG Ke. Greedy randomized-distance Kaczmarz method for solving large sparse linear systems ［J］. Journal of Tongji University （Natural Science）， 2020， 48（8）： 1224. [百度学术]

NEEDELL D， WARD R. Two-subspace projection method for coherent over-determined systems ［J］. Journal of Fourier Analysis and Applications， 2013， 19（2）： 256. [百度学术]

ZOUZIAS A， FRERIS N. M. Randomized extended Kaczmarz for solving least squares ［J］. SIAM Journal on Matrix Analysis and Applications， 2013， 34（2）： 773. [百度学术]

BAI Z Z，WU W T. On partially randomized extended Kaczmarz method for solving large sparse overdetermined inconsistent linear systems ［J］. Linear Algebra and Its Applications， 2019， 578： 225. [百度学术]

DAI L， SCHON T. On the exponential convergence of the kaczmarz algorithm［J］. IEEE Signal Processing Letters， 2015， 22（10）： 1571. [百度学术]

OSWALD P， ZHOU W Q. Convergence analysis for Kaczmarz-type methods in a Hilbert space framework ［J］. Linear Algebra and Its Applications， 2015， 478： 131. [百度学术]

BAI Z Z， WU W T. On convergence rate of the randomized Kaczmarz method ［J］. Linear Algebra and Its Applications， 2018， 553： 252. [百度学术]

POPA C. Convergence rates for Kaczmarz-type algorithms ［J］. Numerical Algorithms， 2018， 79（1）： 1. [百度学术]

ELDAR Y C， NEEDELL D. Acceleration of randomized Kaczmarz method via the Johnson-Lindenstrauss lemma ［J］. Numerical Algorithms， 2011， 58（2）： 163. [百度学术]

XIANG X， CHENG L Z. An accelerated randomized Kaczmarz method via low-rank approximation ［J］. International Journal of Computer Mathematics， 2015， 92（7）： 1413. [百度学术]

LEVENTHAL D， LEWIS A S. Randomized methods for linear constraints： convergence rates and conditioning ［J］. Mathematics of Operations Research， 2010， 35（3）： 641. [百度学术]

MA A， NEEDELL D， RAMDAS A. Convergence properties of the randomized extended Gauss–Seidel and Kaczmarz methods ［J］. SIAM Journal on Matrix Analysis and Applications， 2015， 36（4）： 1590. [百度学术]

DU K. Tight upper bounds for the convergence of the randomized extended Kaczmarz and Gauss-Seidel algorithms ［J］. Numerical Linear Algebra with Applications， 2019， 26（3）： e2233. [百度学术]

NEEDELL D， TROPP J A. Paved with good intentions： analysis of a randomized block Kaczmarz method ［J］. Linear Algebra and Its Applications， 2014， 441： 199. [百度学术]

NEEDELL D， ZHAO R， ZOUZIAS A. Randomized block Kaczmarz method with projection for solving least squares ［J］. Linear Algebra and Its Applications， 2015， 484： 322. [百度学术]

NUTINI J， SEPEHRY B， LARADJI I， et al. Convergence rates for greedy Kaczmarz algorithms， and faster randomized Kaczmarz rules using the orthogonality graph ［J］. arXiv， 2016， 1612.07838. [百度学术]

HOLODNAK J T，IPSEN I C F. Randomized approximation of the Gram matrix： Exact computation and probabilistic bounds ［J］. SIAM Journal on Matrix Analysis and Applications， 2015， 36（1）： 110. [百度学术]

DU Y S， HAYAMI K， ZHENG N， et al. Kaczmarz-type inner-iteration preconditioned flexible GMRES methods for consistent linear systems ［J］. arXiv，2020，2006.10818. [百度学术]