基于Count Sketch的预处理贪婪Kaczmarz方法

叶雨欣，殷俊锋; YE Yuxin; YIN Junfeng

网刊加载中。。。

使用Chrome浏览器效果最佳，继续浏览，你可能不会看到最佳的展示效果，

确定继续浏览么?

复制成功，请在其他浏览器进行阅读

摘要

在贪婪Kaczmarz方法中，通过对系数矩阵进行正交三角分解引入右预处理子能够提高贪婪Kaczmarz方法的收敛速率。但在系数矩阵的行数远大于列数的情况下，正交三角分解的成本过高。为降低预处理的成本，通过引入Count Sketch变换，提出了基于Count Sketch的预处理贪婪Kaczmarz方法，并对新方法进行了收敛性分析。理论分析说明了新方法在系数矩阵条件数较大时比已有方法具有更好的收敛速率。数值实验验证了新方法的有效性。

关键词

Kaczmarz方法; 预处理; Count Sketch; 收敛性

考虑求解大规模超定相容线性方程组

A x = b

（1）

其中，矩阵 $A \in R^{m \times n}$ ， $m > n$ ， $b \in R^{m}$ ， $x \in R^{n}$ 为未知向量。Kaczmarz方法^［

1］是求解线性方程组（1）的一种经典的行作用迭代法，在分布式计算、计算机断层扫描、数字信号处理等领域均有广泛应用^{［参考文献 2-4}2-4］。假定初始近似值为

x_{0}

，那么经典的Kaczmarz方法可以表示为

x_{k + 1} = x_{k} + \frac{b_{i_{k}} - a_{i_{k}}^{T} x_{k}}{{‖a_{i_{k}}‖}_{2}^{2}} a_{i_{k}}, k = 0,1, 2 \dots

（2）

式中： $‖ \cdot ‖_{2}$ 表示欧几里得范数； $a_{i_{k}}$ 为矩阵 $A$ 的第 $i_{k}$ 行； $b_{i_{k}}$ 为向量 $b$ 的第 $i_{k}$ 个元素， $i_{k} = (k m o d m) + 1$ 。

2009年， Strohmer和Vershynin^［

5］首次证明了当系数矩阵列满秩时，随机Kaczmarz方法的线性收敛速率，且该速率只取决于系数矩阵的缩放条件数

κ (A) = ‖ A ‖_{F} ‖ A^{- 1} ‖_{2}

，这再度使得Kaczmarz方法成为科学计算领域的一个热点。后来， Nutini等人^{［参考文献 6

百度学术}6］提出基于最大距离规则的贪婪Kaczmarz方法，它在每次迭代中选取与当前迭代解距离最大的超平面作为工作行。 Bai和Wu^{［参考文献 7

百度学术}7］结合贪婪与随机的思想，提出了贪婪随机Kaczmarz方法，它在迭代过程中动态跟踪残差向量，大大提高了随机Kaczmarz方法的效率。更多Kaczmarz 类方法的研究参见文献^{［参考文献 8-11}8-11］。

Sketching方法是将Sketch矩阵 $S \in R^{d \times m}$ 作用于原始矩阵 $A$ 的过程，其中 $S \in R^{d \times m}$ 是从矩阵的某个分布中指定的一个的随机矩阵，且 $n < d ≪ m$ ^［

8］。该方法使高成本的运算可以在较小的矩阵

\hat{A} = S A \in R^{d \times n}

上执行，从而加快原始问题的求解。近年来，有很多sketch矩阵被提出并加以研究。例如： Gaussian Sketch^{［参考文献 9

百度学术}9］，子采样随机Hadamard变换^{［参考文献 10

百度学术}10］， Count Sketch^{［参考文献 11-12}11-12］以及稀疏Johnson-Lindenstrauss变换^{［参考文献 13

百度学术}13］等。最近，有学者将Sketching方法与Kaczmarz类方法结合起来，提高Kaczmarz类方法的效率。Katrutsa等^{［参考文献 14

百度学术}14］通过行抽样实现sketching过程，对变换后的矩阵通过正交三角分解得到右预处理子，再用Kaczmarz方法进行求解，大大减少预处理时间，同时加速了Kaczmarz方法的收敛。Needell等^{［参考文献 15

百度学术}15］将Gaussian sketch与分块Kaczmarz方法结合，提出分块Gaussian Kaczmarz方法，说明了某些特定情况下使用分块Gaussian Kaczmarz方法求解线性方程组的优势。Zhang等^{［参考文献 16

百度学术}16］将Count Sketch与最大加权残差Kaczmarz方法结合起来，提出一种求解高度超定线性方程组的快速随机算法，大大提高了算法的计算效率。

在基于sketching预处理Kaczmarz方法^［

14］的基础之上，结合贪婪距离的思想，本文提出了一种基于Count Sketch的预处理贪婪Kaczmarz方法。该方法先对超定线性系统进行Count Sketch变换，然后对变换后的矩阵进行正交三角分解得到右预处理子，再与贪婪Kaczmarz方法结合求解预处理后的方程组。我们分析了新方法的收敛性，理论分析说明在系数矩阵条件数较大的情形下，新方法的收缩因子比已有方法的收缩因子小。数值实验进一步验证了新方法的有效性。

1 基于Count Sketch的预处理贪婪Kaczmarz方法

本文采用 $R (A)$ 表示由矩阵 $A$ 列向量张成的值空间。其中， $R (A) = {A x |x \in R^{n}}$ 。 $A^{T}$ ， $A^{†}, ‖ A ‖_{F}$ ， $σ_{m i n} (A)$ 和 $σ_{m a x} (A)$ 分别表示矩阵 $A$ 的转置， Moore-Penrose伪逆， Frobenius范数，最小非零奇异值和最大奇异值； $x_{⋆} = A^{†} b$ 是线性代数方程组（1）的最小范数解。

Kaczmarz方法的收敛速率与行指标的选择策略密切相关，选取与当前迭代点距离最大超平面的贪婪距离准则便是一种有效策略， Nutini等^［

6］证明了在某些应用中贪婪选择策略和随机选择策略的计算成本是相当的，并且在许多情况下贪婪策略比随机策略具有更快的收敛速度。

结合贪婪距离策略得到的贪婪Kaczmarz方法（见算法1）在文献［

17］中以最大加权残差Kaczmarz的名称最早出现，但其给出的收敛估计并不容易计算。后来，文献［18］在贪婪随机Kaczmarz方法^{［参考文献 7

百度学术}7］收敛性证明的基础上更新了贪婪Kaczmarz方法收敛速度的理论估计，如引理1所示。

算法1 　贪婪Kaczmarz方法^［

6］。①置

k : = 0

。②计算

i_{k} = \underset{i \in {1, \dots, m}}{a r g m a x} \frac{{|b_{i} - a_{i}^{T} x_{k}|}^{2}}{{‖a_{i}‖}_{2}^{2}}

。③计算

x_{k + 1} = x_{k} + \frac{b_{i_{k}} - a_{i_{k}}^{T} x_{k}}{{‖a_{i_{k}}‖}_{2}^{2}} a_{i_{k}}

。④置

k = k + 1

，转步骤②。

引理1　 ^［

18］若线性方程组

A x = b

相容，初始估计

x_{0} \in R (A^{T})

。则通过贪婪Kaczmarz方法生成的迭代序列

{x_{k}}_{k = 0}^{\infty}

收敛到其最小范数解

x_{⋆} = A^{†} b

，且迭代序列

{x_{k}}_{k = 0}^{\infty}

的误差满足

{‖x_{1} - x_{⋆}‖}_{2}^{2} \leq (1 - \frac{σ_{m i n}^{2} (A)}{‖ A ‖_{F}^{2}}) {‖x_{0} - x_{⋆}‖}_{2}^{2}

对于 $k = 1,2, \dots$ ，

{‖x_{k + 1} - x_{⋆}‖}_{2}^{2} \leq

(1 - \frac{σ_{m i n}^{2} (A)}{\underset{1 \leq j \leq m}{m a x} \sum_{i = 1, i \neq j}^{m} ‖ a_{i} ‖_{2}^{2}}) {‖x_{k} - x_{⋆}‖}_{2}^{2}

贪婪Kaczmarz方法的收敛速度很大程度上依赖于系数矩阵的条件数 $k (A)$ ，当 $k (A)$ 较大时，贪婪Kaczmarz方法的收敛速度会变慢。解决此问题的方法之一是使用预处理矩阵。由于本问题中 $m > n$ ，因此考虑如下形式的右预处理方法：

A P y = b, x = P y

其中， $P \in R^{n \times n}$ ，且 $k (A P) < k (A)$ 。

因此，最理想的预处理子 $P$ 应满足 $k (A P) = 1$ 。受到文献［

14］的启发，满足此条件的预处理子可通过矩阵的正交三角分解获取：计算

A

的正交三角分解

A = Q R, Q \in R^{m \times n}, R \in R^{n \times n}

，然后取

P = R^{†}

。使用这样的

P

进行预处理，再用贪婪Kaczmarz方法求解，可得到正交三角分解预处理的贪婪Kaczmarz方法，该方法在迭代步数方面能够大大加快收敛速率。

注意到对矩阵 $A$ 进行正交三角分解的成本为 $O (m n^{2})$ ，这对于高度超定的系统（ $m ≫ n$ ）来说过高。因此文献［

14］使用了基于行抽样的sketching方法以较低的成本获得上述预处理子

P

的近似，这里的行抽样sketch矩阵

S

作用于系数矩阵

A

后，相当于随机选择了

A

的某

d

行。但抽样的行数

d

是一个未知的超参数，且文献［14］没有给出使用此类sketching预处理的Kaczmarz方法的收敛性证明。

Sketching方法中，一种关键技术是Johnson-Lindenstrauss型嵌入算法^［

19］， Count Sketch就是其中一种，并且在某些情况下它比抽样（sampling）更有优势^{［参考文献 11

百度学术}11］。

定义1　^［

11-12］定义Count Sketch变换为

S = Φ D \in R^{d \times m}

。这里，

D

是一个

m \times m

的随机对角矩阵，每个对角项以相同的概率独立被选为-1或1，

Φ \in {0,1}^{d \times m}

是一个

d \times m

的二元矩阵，其中

Φ_{h (i), i} = 1

，其余元素为0，这里

h : [m] \to [d]

是一个随机映射，对于每个

i \in [m]

，

j \in [d]

，

h (i) = j

的概率为

1 / d

。

通过定义1可以发现， Count Sketch矩阵由每列有且仅有一个1的矩阵 $Φ$ 和对角元为1或-1的对角矩阵 $D$ 相乘得到，它与系数矩阵 $A$ 相乘的成本仅为 $O (n n z (A))$ ，且 $Φ$ 和 $D$ 均可以低成本的构造，其中 $n n z (A)$ 为矩阵 $A$ 的非零项个数。

Count sketch变换还满足如下引理：

引理2　 ^［

20］若

S \in R^{d \times m}

是一个Count Sketch变换，

d = O ((n^{2} + n) / (δ ε^{2}))

，其中

O < δ, ε < 1

，则在

1 - δ

的概率下，有

(1 - ε) ‖ A x ‖_{2} \leq ‖ S A x ‖_{2} \leq (1 + ε) ‖ A x ‖_{2}, 对所 有 x \in R^{n}

（3）

(1 - ε) σ_{i} (A) \leq σ_{i} (S A) \leq (1 + ε) σ_{i} (A), 对所 有 1 \leq i \leq n

（4）

Count sketch矩阵的这些性质也引起了学者的关注，例如，文献［

16］和文献［21］分别将Count Sketch与最大加权残差Kaczmarz和斜投影最大加权残差Kaczmarz方法相结合，在计算时间方面大大提高了原方法的效率。

本文提出基于Count Sketch的预处理贪婪Kaczmarz方法，如算法2所示。

算法2 　基于Count Sketch的预处理贪婪Kaczmarz方法。① 创建Count Sketch矩阵 $S \in R^{d \times m}, n < d < m$ ，并计算 $\hat{A} = S A \in R^{d \times n}$ 。②对 $\hat{A}$ 进行正交三角分解， $\hat{A} = Q R$ ， $Q \in R^{d \times n}$ ， $R \in R^{n \times n}$ 并将 $P = R^{†}$ 作为右预处理矩阵。③计算 $\tilde{A} = A P$ ，并记 $\tilde{A}$ 的第 $i$ 行为 ${\tilde{a}}_{i}, i = 1,2, \dots, m$ 。④置 $k : = 0$ 。⑤计算 $i_{k} = \underset{i \in {1, \dots, m}}{a r g m a x} \frac{{|b_{i} - {\tilde{a}}_{i}^{T} y_{k}|}^{2}}{{‖{\tilde{a}}_{i}‖}_{2}^{2}}$ 。⑥计算 $y_{k + 1} = y_{k} + \frac{b_{i_{k}} - {\tilde{a}}_{i_{k}}^{T} y_{k}}{{‖{\tilde{a}}_{i}_{k}‖}_{2}^{2}} {\tilde{a}}_{i}_{k}$ 。⑦置 $k = k + 1$ ，转步骤⑤。⑧计算 $x = P y$ 。

表1列出基于Count Sketch的预处理贪婪Kaczmarz（PCSGK）方法、贪婪Kaczmarz（GK）方法以及正交三角分解预处理的贪婪Kaczmarz（PGK）方法的计算成本。

表1 PCSGK、GK和PGK方法的计算成本

Tab.1 Computation costs of PCSGK, GK and PGK method

参数	PCSGK	GK	PGK
计算 $S$ 与 $A$ 的乘积	$O (n n z (A))$	--	--
系数矩阵的正交三角分解	$O (d n^{2})$	--	$O (m n^{2})$
矩阵 $R$ 求逆	$O (n^{3})$	--	$O (n^{3})$
对系数矩阵作用右预处理子	$O (m n^{2})$	--	$O (m n^{2})$
每步选取行指标	$O (m n)$	$O (m n)$	$O (m n)$
近似解更新	$O (n)$	$O (n)$	$O (n)$
迭代步数	$O (κ {(A P)}^{2}$ $\cdot l o g (1 / ε))$	$O (κ {(A)}^{2}$ $\cdot l o g (1 / ε))$	$O (κ {(A P)}^{2}$ $\cdot l o g (1 / ε))$

从表1可以观察到，使用sketching方法后，正交三角分解的复杂度从 $O (m n^{2})$ 降低到了 $O (d n^{2})$ ，如果 $d = γ n$ ，则可以重写为 $O (n^{3})$ ，其中 $γ \geq 1$ 是某个给定的常数。这样，计算预处理子 $P$ 的总复杂度从 $O (m n^{2}) + O (n^{3})$ 降低为了为 $O (n^{3})$ ，与矩阵 $A$ 的行数 $m$ 无关。

同时，注意到当系数矩阵缩放条件数 $κ (A)$ 较大时，经典的贪婪Kaczmarz方法可能需要很多次迭代才能收敛，如果此时用 $P$ 进行预处理，则有 $κ (A P) ~ \sqrt[]{n}$ ，则算法可以在 $O (n)$ 步内收敛。此时预处理的贪婪Kaczmarz方法在迭代步数上的改进可以远远大于预处理的成本。此外，在很多问题上，预处理只需要进行一次，因此对于条件数较大的系统，基于Count Sketch的预处理贪婪Kaczmarz方法是一个较为高效的选择。

2 收敛性分析

本节说明基于Count Sketch的预处理贪婪Kaczmarz方法的收敛性。定理1是本文的关键定理：

定理1 　若 $S \in R^{d \times m}$ 是一个Count Sketch变换， $d = O ((n^{2} + n) / (δ ε^{2}))$ ， $O < δ, ε < 1$ ，初始估计 $y_{0} \in R (P^{T} A^{T})$ ，记基于Count Sketch的预处理贪婪Kaczmarz方法生成的迭代序列为 ${y_{k}}_{k = 0}^{\infty}$ 。则在 $1 - δ$ 的概率下，序列 ${y_{k}}_{k = 0}^{\infty}$ 收敛到 $\tilde{A} y = b$ 的最小范数解 $y_{⋆} = {\tilde{A}}^{†} b$ ，且满足

{‖y_{1} - y_{⋆}‖}_{2}^{2} \leq (1 - \frac{(1 - ε_{1})^{2}}{(1 + ε_{2})^{2}} \frac{1}{r}) {‖y_{0} - y_{⋆}‖}_{2}^{2}

对于 $k = 1,2, \dots$ ，

{‖y_{k + 1} - y_{⋆}‖}_{2}^{2} \leq (1 - (1 - ε_{1})^{2} \frac{1}{\underset{1 \leq j \leq m}{m a x} \sum_{i = 1, i \neq j}^{m} ∥ {\tilde{a}}_{i} ∥_{2}^{2}}) {‖y_{k} - y_{⋆}‖}_{2}^{2}

（5）

其中， $ε_{1} = \frac{ε}{1 + ε}$ ， $ε_{2} = \frac{ε}{1 - ε}$ ， $r$ 为矩阵 $A$ 的秩， $\tilde{A} = A P$ 。

证明　由于基于Count Sketch的预处理贪婪Kaczmarz方法本质上为用贪婪Kaczmarz方法求解线性方程组 $A P y = b$ ，即 $\tilde{A} y = b$ ，则由引理1，有

{‖y_{1} - y_{⋆}‖}_{2}^{2} \leq (1 - \frac{σ_{m i n}^{2} (\tilde{A})}{‖ \tilde{A} ‖_{F}^{2}}) {‖y_{0} - y_{⋆}‖}_{2}^{2}

（6）

对于 $k = 1,2, \dots$ ，

{‖y_{k + 1} - y_{⋆}‖}_{2}^{2} \leq (1 - \frac{σ_{m i n}^{2} (\tilde{A})}{\underset{1 \leq j \leq m}{m a x} \sum_{i = 1, i \neq j}^{m} ∥ {\tilde{a}}_{i} ∥_{2}^{2}}) {‖y_{k} - y_{⋆}‖}_{2}^{2}

（7）

接下来对矩阵 $\tilde{A}$ 的性质进行研究。根据引理2中式（4）， $对所有 1 \leq i \leq n$ ，有

(1 - ε) σ_{i} (\tilde{A}) \leq σ_{i} (S \tilde{A}) \leq (1 + ε) σ_{i} (\tilde{A})

（8）

通过记 $ε_{1} = \frac{ε}{1 + ε}$ ， $ε_{2} = \frac{ε}{1 - ε}$ ，可将式（8）化为

(1 - ε_{1}) σ_{i} (S \tilde{A}) \leq σ_{i} (\tilde{A}) \leq (1 + ε_{2}) σ_{i} (S \tilde{A})

（9）

而 $S \tilde{A} = Q R R^{†}$ ，

n < d < m, Q \in R^{d \times n}

，

R \in R^{n \times n}

，

故对所有 $1 \leq i \leq r$ ， $σ_{i} (S \tilde{A}) = σ_{i} (Q) = 1$ 。

所以

σ_{i} (\tilde{A}) \geq (1 - ε_{1}) σ_{i} (S \tilde{A}) = 1 - ε_{1}

（10）

又因为

‖ S \tilde{A} ‖_{F}^{2} = \sum_{i = 1}^{r} σ_{i}^{2} (S \tilde{A}) = r

所以

‖ \tilde{A} ‖_{F}^{2} \leq (1 + ε_{2}) ‖ S \tilde{A} ‖_{F}^{2} = (1 + ε_{2}) r

（11）

将式（10）和式（11）代入式（6）和式（7）即可完成定理证明。

备注根据定义1，矩阵 $S$ 的一行或几行元素可能为0，这意味着 $S \tilde{A}$ 可能存在零行，则有

\underset{1 \leq j \leq m}{m a x} \sum_{i = 1, i \neq j}^{m} ‖ {\tilde{a}}_{i} ‖_{2}^{2} = ‖ \tilde{A} ‖_{F}^{2} - \underset{1 \leq j \leq m}{m i n} ‖ {\tilde{a}}_{i} ‖_{2}^{2}

\leq (1 + ε_{2}) ‖ S \tilde{A} ‖_{F}^{2} + 0 = (1 + ε_{2}) r

因此，将上式代入式（5），在 $1 - δ$ 的概率下，有

{‖y_{k + 1} - y_{⋆}‖}_{2}^{2} \leq (1 - \frac{(1 - ε_{1})^{2}}{(1 + ε_{2})^{2}} \frac{1}{r}) {‖y_{k} - y_{⋆}‖}_{2}^{2}

注意到，对于引理1，由于

\frac{σ_{m i n}^{2} (A)}{‖ A ‖_{F}^{2}} = \frac{σ_{m i n}^{2} (A)}{\sum_{i = 1}^{r} σ_{i}^{2} (A)} \leq \frac{σ_{m i n}^{2} (A)}{r σ_{m i n}^{2} (A)} = \frac{1}{r}

当系数矩阵病态时， $\frac{σ_{m i n}^{2} (A)}{‖ A ‖_{F}^{2}}$ 与 $\frac{1}{r}$ 相差较大，若 $\frac{1 - ε_{1}}{1 + ε_{2}} \to 1$ ，则 $\frac{σ_{m i n}^{2} (A)}{‖ A ‖_{F}^{2}}$ 小于 $\frac{1 - ε_{1}}{1 + ε_{2}} \frac{1}{r}$ ，基于Count Sketch的预处理贪婪Kaczmarz方法从而具有更快的收敛速度。

3 数值实验

本节通过数值实验比较贪婪Kaczmarz（GK）方法、Count Sketch最大加权残差Kaczmarz（CS-MWRK）方法、正交三角分解预处理的贪婪Kaczmarz（PGK）方法和基于Count Sketch的预处理贪婪Kaczmarz（PCSGK）方法，数值结果显示新方法在迭代步数（简记为IT）与计算时间（简记为CPU）方面均具有较好的性能。

在实验中，初始估计 $x_{0}$ 取为零向量，构造一个精确解 $x$ ，并且右端项 $b = A x$ 。考虑到随机性，本节所有数值结果取20次独立实验的平均值。停机准则为相对残差（简记为RES）

\frac{‖ b - \tilde{A} y_{k} ‖_{2}}{‖ b ‖_{2}} < 10^{- 3}

或者迭代步数超过10万步。实验表格中，若在10万步内未达到指定精度，即用'- -'表示。对于正交三角分解预处理的贪婪Kaczmarz方法和基于Count Sketch的预处理贪婪Kaczmarz方法，计算时间为预处理时间与迭代时间之和。

例1 　生成一个 $m \times n$ 的随机高斯矩阵并进行奇异值分解，然后将其奇异值替换为 $j^{α}$ ， $j = 1,2, \dots n$ ，以获取一个新的系数矩阵，该矩阵的条件数即为 $n^{α}$ 。通过把 $n$ 取为50， $α$ 分别取2和2.5将系数矩阵条件数分别控制为2 500.00和17 677.67；通过把 $γ$ 分别取为5， 10和15来改变Sketching的行数 $d = γ n$ 。

表2和表3列出了贪婪Kaczmarz方法、Count Sketch最大加权残差Kaczmarz方法、正交三角分解预处理的贪婪Kaczmarz方法以及基于Count Sketch的预处理贪婪Kaczmarz方法的迭代步数与计算时间。

表2

α = 2

时的数值结果

Tab.2 Numerical results for

α = 2

矩阵规模		5 000×50			10 000×50			50 000×50
算法		IT	CPU	RES	IT	CPU	RES	IT	CPU	RES
GK		26 075.00	1.927 1	9.99×10^-4	14 282.00	3.910 1	9.97×10^-4	9 010.00	14.641 7	9.78×10^-4
CS-MWRK	$γ = 5$	75 153.80	0.584 5	9.90×10^-4	42019.45	0.341 5	9.88×10^-4	35 374.60	0.347 7	9.87×10^-4
	$γ = 10$	46 532.65	0.435 0	9.91×10^-4	33059.60	0.362 4	9.87×10^-4	24 240.15	0.237 7	9.82×10^-4
	$γ = 15$	43 037.60	0.510 7	9.89×10^-4	29658.40	0.393 6	9.90×10^-4	22 273.45	0.280 5	9.84×10^-4
PGK		50.00	0.009 3	8.94×10^-4	44.00	0.025 6	9.16×10^-4	37.00	0.141 8	9.86×10^-4
PCSGK	$γ = 5$	62.60	0.007 9	9.59×10^-4	53.80	0.020 7	9.39×10^-4	45.00	0.093 3	9.16×10^-4
	$γ = 10$	55.15	0.008 1	9.41×10^-4	49.05	0.018 1	8.97×10^-4	40.05	0.080 3	9.08×10^-4
	$γ = 15$	51.40	0.006 3	9.39×10^-4	47.60	0.017 5	9.39×10^-4	38.40	0.079 2	9.43×10^-4

表3

α = 2.5

时的数值结果

Tab.3 Numerical results for

α = 2.5

矩阵规模		5 000×50			10 000×50			50 000×50
算法		IT	CPU	RES	IT	CPU	RES	IT	CPU	RES
GK		16 940.00	1.152 7	9.97×10^-4	11 319.00	2.949 0	9.75×10^-4	8 396.00	16.146 9	9.72×10^-4
CS-MWRK	$γ = 5$	40 299.80	0.313 8	9.87×10^-4	35 991.45	0.262 3	9.86×10^-4	34 652.20	0.324 8	9.87×10^-4
	$γ = 10$	28 866.85	0.274 8	9.83×10^-4	26 393.20	0.250 9	9.89×10^-4	26 023.40	0.317 9	9.87×10^-4
	$γ = 15$	26 065.40	0.332 2	9.73×10^-4	23 087.00	0.268 1	9.89×10^-4	22 005.00	0.276 7	9.80×10^-4
PGK		48.00	0.010 7	8.78×10^-4	44.00	0.026 3	9.62×10^-4	40.00	0.169 3	7.96×10^-4
PCSGK	$γ = 5$	61.75	0.007 0	9.52×10^-4	58.40	0.019 9	9.13×10^-4	44.05	0.096 4	8.52×10^-4
	$γ = 10$	54.60	0.006 8	9.43×10^-4	48.15	0.018 3	8.94×10^-4	40.40	0.085 3	9.19×10^-4
	$γ = 15$	51.60	0.006 0	9.21×10^-4	47.00	0.016 3	9.17×10^-4	40.80	0.080 7	9.03×10^-4

从表2和表3可以看出， PGK方法在迭代步数方面表现的最好，这是因为PGK方法的预处理子在理论上可以将系统的条件数改善到最优值1，而PCSGK方法中的Count Sketch过程在加速正交三角分解的过程中牺牲了一定的精度，所以在迭代步数方面， PCSGK方法相对于PGK方法稍显逊色。

从表2和表3的数据中同样可以观察到，通过选取适当的sketching行数， PCSGK方法的迭代步数可以十分接近PGK方法的迭代步数，同时Count Sketch过程有效减少了预处理时间，这使得PCSGK方法在计算时间方面明显优于PGK方法。综合计算时间和迭代步数两方面的因素， PCSGK在这4种方法中效率是最高的。此外，在生成的随机矩阵的条件数不变，即 $α$ 不变时，随着sketching行数的增加， PCSGK方法在迭代步数的加速效果越明显，这可以解释为随着 $γ$ 的增大，定理1中 $\frac{1 - ε_{1}}{1 + ε_{2}}$ 这一项越来越接近于1，从而加快了PCSGK方法的收敛。

图1绘制了矩阵规模为 $10 000 \times 50, α = 2.5, γ = 15$ 时， 4种方法的log（RES）分别随迭代步数和计算时间变化的曲线。从图1中可看出，4种方法的收敛曲线进一步验证了PCSGK方法的高效性。

图1 矩阵规模为 $10 000 \times 50, α = 2.5, γ = 15$ 时的收敛曲线

Fig.1 Convergence curves for matrix of $10 000 \times 50$ , with $α = 2.5, γ = 15$

例2 　选取了佛罗里达稀疏矩阵库中的一些矩阵进行实验，其中欠定矩阵取其转置。这里包含矩阵lp_fit2d、lp_d6cube、relat5和relat6。

表4列出了矩阵信息，以及Sketching行数 $d$ 选取一些适当的值时， 4种方法的数值结果。

表4 例2的矩阵信息和数值结果

Tab.4 Matrix information and numerical results for Example 2

矩阵名称		lp_fit2d^T	lp_d6cube ^T	relat5	relat6
$m \times n$		10 524×25	6 184×415	340×35	2 340×157
稠密度/%		49.05	1.47	8.89	2.21
条件数		1.74×10³	4.93×10¹⁹	Inf	Inf
$d$		300	800	70	300
GK	IT	192.00	7 130.00	196.00	1 359.00
	CPU	0.057 2	0.769 4	0.005 1	0.079 4
	RES	7.76×10^-4	9.56×10^-4	9.82×10^-4	9.82×10^-4
CS-MWRK	IT	26 723.15	53 185.70	334.65	3 544.70
	CPU	0.503 4	3.426 3	0.012 1	0.154 9
	RES	9.85×10^-4	9.78×10^-4	9.53×10^-4	9.93×10^-4
PGK	IT	31.00	521.00	56.00	283.00
	CPU	0.038 4	12.527 1	0.004 5	0.411 3
	RES	8.09×10^-4	9.89×10^-4	8.50×10^-4	9.91×10^-4
PCSGK	IT	35.45	1 631.30	113.20	763.10
	CPU	0.012 7	2.827 1	0.002 1	0.082 1
	RES	9.85×10^-4	9.96×10^-4	9.68×10^-4	9.90×10^-4

从表4可以观察到， PCSGK方法相对GK方法和CS-MWRK方法具有明显较少的迭代步数。

图2绘制了对于表4中的矩阵算例relat5， 4种方法的log（RES）分别随迭代步数和计算时间变化的曲线。

图2 矩阵relat5的收敛曲线

Fig.2 Convergence curves for matrix relat5

从图2可以观察到，对于算例relat5这样的系统， PGK方法所需的预处理时间较长，甚至出现了PCSGK方法已经收敛但PGK方法还未完成预处理的情形， PCSGK方法虽然牺牲了预处理子的精确度，在计算时间方面大大提高了算法效率。因此综合迭代步数与计算时间这两方面的因素，基于Count Sketch的预处理贪婪Kaczmarz方法是一个较好的选择。

4 结语

提出了一种基于Count Sketch的预处理贪婪Kaczmarz方法，理论分析证明了新方法的收敛性，且在系数矩阵条件数较大的情况下，基于Count Sketch的预处理贪婪Kaczmarz方法的收敛因子小于经典的收敛因子，即新方法具有较快的收敛速度。数值实验的结果表明，提出的新方法在计算时间与迭代步数方面均有较大的优势。

基于Count Sketch的预处理贪婪Kaczmarz方法能够快速求解超定线性方程组（1）的最小范数解，主要原因在于采用了正交三角分解进行预处理，并采用贪婪策略选择工作行。因此如何选用成本更低的预处理以及更高效选取工作行的策略，仍然是值得研究的问题。

作者贡献声明

叶雨欣：算法设计和算法研究执行，收敛性证明，数值实验和数据分析、论文初稿写作；

殷俊锋：研究构思，实验设计指导，数据分析，论文写作与修改。

参考文献

KACZMARZ S. Angenäherte auflösung von systemen linearer gleichungen ［J］. Bulletin International de l'Academie Polonaise des Sciences et des Lettres， 1937， 35： 355. [百度学术]

CENSOR Y. Parallel application of block-iterative methods in medical imaging and radiation therapy［J］ . Mathematical programming， 1988， 42（1）： 307. [百度学术]

ELBLE J M， SAHINIDIS N V， VOUZIS P. GPU computing with Kaczmarz’s and other iterative algorithms for linear systems［J］. Parallel computing， 2010， 36（5/6）： 215. [百度学术]

BYRNE C. A unified treatment of some iterative algorithms in signal processing and image reconstruction［J］. Inverse problems， 2003， 20（1）： 103. [百度学术]

STROHMER T， VERSHYNIN R. A randomized Kaczmarz algorithm with exponential convergence［J］. Journal of Fourier Analysis and Applications， 2009， 15（2）： 262. [百度学术]

NUTINI J， SEPEHRY B， LARADJI I， et al. Convergence rates for greedy Kaczmarz algorithms， and faster randomized Kaczmarz rules using the orthogonality graph［EB/OL］.［2023-04-22 ］https：//doi.org/10.48550/arXiv.1612.07838. [百度学术]

BAI Z Z， WU W T. On greedy randomized Kaczmarz method for solving large sparse linear systems［J］. SIAM Journal on Scientific Computing， 2018， 40（1）： A592. [百度学术]

BAI Z Z， WU W T. On relaxed greedy randomized Kaczmarz methods for solving large sparse linear systems［J］. Applied Mathematics Letters， 2018， 83： 21. [百度学术]

杜亦疏，殷俊锋，张科. 求解大型稀疏线性方程组的贪婪距离随机 Kaczmarz 方法［J］. 同济大学学报（自然科学版）， 2020， 48（8）： 1224. [百度学术]

DU Yishu， YIN Junfeng， ZHANG Ke. Greedy randomized-distance Kaczmarz method for solving large sparse linear systems［J］. Journal of Tongji University （Natural Science）， 2020， 48（8）： 1224. [百度学术]

王泽，殷俊锋. 求解线性方程组稀疏解的稀疏贪婪随机Kaczmarz算法［J］. 同济大学学报（自然科学版）， 2021， 49（11）： 1505. [百度学术]

WANG Ze， YIN Junfeng. Sparse greedy randomized Kaczmarz method for sparse solutions to linear equations［J］. Journal of Tongji University （Natural Science）， 2021， 49（11）： 1505. [百度学术]

XIAO A Q， YIN J F， ZHENG N. On fast greedy block Kaczmarz methods for solving large consistent linear systems［J］. Computational and Applied Mathematics， 2023， 42（3）： 119. [百度学术]

WOODRUFF D P. Sketching as a tool for numerical linear algebra［J］. Foundations and Trends® in Theoretical Computer Science， 2014， 10（1/2）： 1. [百度学术]

BOUTSIDIS C， DRINEAS P， MAGDON-ISMAIL M. Near-optimal column-based matrix reconstruction［J］. SIAM Journal on Computing， 2014， 43（2）： 687. [百度学术]

AILON N， CHAZELLE B. Approximate nearest neighbors and the fast Johnson-Lindenstrauss transform［C］//Proceedings of the thirty-eighth annual ACM symposium on Theory of computing. 2006： 557-563. [百度学术]

CHARIKAR M， CHEN K， FARACH-COLTON M. Finding frequent items in data streams［J］. Theoretical Computer Science， 2004， 312（1）： 3. [百度学术]

THORUP M， ZHANG Y. Tabulation-based 5-independent hashing with applications to linear probing and second moment estimation［J］. SIAM Journal on Computing， 2012， 41（2）： 293. [百度学术]

KANE D M， Nelson J. Sparser Johnson-Lindenstrauss transforms［J］. Journal of the ACM （JACM）， 2014， 61（1）： 1. [百度学术]

KATRUTSA A， OSELEDETS I. Preconditioning Kaczmarz method by sketching［EB/OL］.［2023-04-22 ］ https：//doi.org/10.48550/arXiv.1903.01806.. [百度学术]

REBROVA E， NEEDELL D. On block Gaussian sketching for the Kaczmarz method［J］. Numerical Algorithms， 2021， 86（1）： 443. [百度学术]

ZHANG Y， LI H. A count sketch maximal weighted residual Kaczmarz method for solving highly overdetermined linear systems［J］. Applied Mathematics and Computation， 2021， 410： 126486. [百度学术]

MCCORMICK S F. The methods of Kaczmarz and row orthogonalization for solving linear equations and least squares problems in Hilbert space［J］. Indiana University Mathematics Journal， 1977， 26（6）： 1137. [百度学术]

DU K， GAO H. A new theoretical estimate for the convergence rate of the maximal weighted residual Kaczmarz algorithm［J］. Numerical Mathematics： Theory， Methods and Applications， 2019， 12（2）： 627. [百度学术]

JOHNSON W B， LINDENSTRAUSS J. Extensions of Lipschitz mappings into a Hilbert space［J］. Contemporary Mathematics， 1984， 26： 189. [百度学术]

MENG X， MAHONEY M W. Low-distortion subspace embeddings in input-sparsity time and applications to robust linear regression［C］//Proceedings of the Forty-Fifth Annual ACM Symposium on Theory of Computing.［S.l.］：ACM，2013： 91-100. [百度学术]

ZHANG P， LI L， ZHANG P. A count sketch maximal weighted residual kaczmarz method with oblique projection for highly overdetermined linear systems［J］. Advances in Pure Mathematics， 2022， 12（4）： 260. [百度学术]

基于Count Sketch的预处理贪婪Kaczmarz方法 PDF

摘要

关键词

1 基于Count Sketch的预处理贪婪Kaczmarz方法

2 收敛性分析

3 数值实验

4 结语

作者贡献声明

参考文献