网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

求解大型稀疏线性系统的贪婪双子空间随机Kaczmarz方法  PDF

  • 荆燕飞 1
  • 李彩霞 1
  • 胡少亮 2
1. 电子科技大学 数学科学学院,四川 成都611731; 2. 中国工程物理研究院 高性能数值模拟软件中心,北京100088

中图分类号: O241.6

最近更新:2021-10-14

DOI:10.11908/j.issn.0253-374x.21054

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

基于一种有效的从系数矩阵中选取两个工作行的贪婪概率准则, 提出一类求解大型稀疏线性系统的贪婪双子空间随机Kaczmarz方法。理论证明该方法收敛到相容线性系统的最小范数解, 而且该方法的理论收敛因子小于原始双子空间随机Kaczmarz方法的收敛因子。数值实验表明,该方法在求解性能方面较原始双子空间随机Kaczmarz方法更具优势。

考虑求解具有如下形式的相容线性系统:

Ax=b (1)

其中,系数矩阵ARm×n(m>n)可为满秩或秩亏矩阵, 且bRm。通常考虑求式(1)的最小范数解

x*:=argminxx2     s.t.   Ax=b

当系数矩阵A为列满秩时,x*式(1)的惟一解;当线性系统(1)有无穷多组解时,x*式(1)的最小范数解(这里的范数指欧式范数)。

为求解线性系统(1), 许多迭代方

1-5已被开发和进一步研究。其中, Kaczmarz5于1937年首次提出的Kaczmarz方法, 因其成本低廉、易于操作而迅速得到数值计算领域的专家学者的认可和广泛关注,进而使其获得巨大的理论发6-9。因其是一种具有代表性的行处理迭代方法且在计算机上易于实现和并行化,因此被广泛应用于计算机断层扫10-13,图像重14-16,分布式计17-18和信号处19-21等领域。

若以随机顺序而不是以给定顺序选用系数矩阵的行可以极大地提高Kaczmarz方法的收敛速

131621。尽管这些随机选行的Kaczmarz方法在应用中颇具吸引力,但尚不能保证其收敛速率。Strohmer22首次采用选取工作行的概率与其所对向量的欧式范数的平方成正比这样的选行准则,提出能保证收敛速率的随机Kaczmarz方法,并证明其误差的期望具有指数收敛速率。Dai23通过求解最小化收敛速度的上限这个凸优化问题来获得选择行的最佳概率分布,提出最优的随机Kaczmarz方法;Bai24结合贪婪和随机的数学思想引入一种有效的行选择准则提出贪婪随机Kaczmarz方法。此后, 松弛贪婪随机Kaczmarz方25和贪婪距离随机Kaczmarz方26也被提出并深入研究。随机Kaczmarz方法的各种变27-39和收敛理30-35获得了大量研究和发展。另一方面, Leventhal36采用同样的随机思想, 提出了求解最小二乘问题的随机坐标下降方法。因随机Kaczmarz方法和随机坐标下降方法存在一定的共性,后期有学者将两者同时比对研37-38

尽管随机Kaczmarz方法适用于任何相容线性系统的求解,但当系数矩阵有许多相关行时(常出现于地球物理学中),收敛可能停滞。为克服这一缺点,Needell和Ward采用等可能地随机选择两个不同工作行的选择准则,提出了随机Kaczmarz方法的双子空间拓展‒双子空间随机Kaczmarz方

27,并从理论和数值上说明了该方法至少与随机Kaczmarz方法有相同的指数收敛速率。此外,当系数矩阵高度相干时,它能极大程度地提高随机Kaczmarz方法的收敛速率。此后同时选用多个工作行的随机块方39-40也被陆续提出并加以深入研究。

Nutini

41研究表明,采用非等可能概率准则选取工作行的Kaczmnarz方法收敛速度至少与采用等可能概率准则选取工作行的Kaczmarz方法收敛速度一样快。在原始双子空间随机Kaczamrz方27中, 等可能地随机选择两个不同的工作行,然后将当前解投影到由这两行所确定的解的超平面上获得下一个近似解。基于上一次迭代所生成的残差或基于当前解离系数矩阵各行所形成的超平面的距离来选取工作行都能较大程度地提高Kaczmarz方法的收敛速41。受该思想启发,笔者通过引入控制参数θ建立了一种基于残差的准则来选择工作行, 导出一类贪婪双子空间随机Kaczmarz方法。理论证明新方法收敛到相容线性方程组的最小范数解, 而且新方法的理论收敛因子小于原始双子空间随机Kaczmarz方法的收敛因子。数值实验验证了新方法的有效性, 其在迭代步数和计算时间上均优于原始双子空间随机Kaczmarz方法。

1 贪婪双子空间随机Kaczmarz方法

在经典的随机Kaczmarz方法(RK)中,Strohmer和Vershynin将各行所对向量的欧式范数与AF比值的平方作为概率, 然后根据此概率分布随机选取工作行。具体地说, 如果定义Ai代表系数矩阵A的第i行, bi代表向量b的第i个分量, 初始向量为x0, 则随机Kaczmarz方法的具体过程见算法1。

算法1  

22     随机Kaczmarz方法。①置k:=0。②根据概率P(r=ik)=A(ik)22AF2 选取指标ik1,2,,m

③计算xk+1=xk+b(ik)-A(ik)xkA(ik)22A(ik)T。 ④置k=k+1, 转步骤②。

算法1中, P(r=ik)=A(ik)22AF2代表选取矩阵A的第ik行作为本次迭代工作行的概率为A(ik)22AF2

关于随机Kaczmarz方法, 有如下收敛性定理。

定理1

2224 若线性系统(1)相容, 其中系数矩阵ARm×n且右端项bRm。初始向量x0Ran(AT),其中Ran(AT)表示AT的列空间, 令xk为通过随机Kaczmarz方法生成的第k个迭代值,则

Ex*-xk221-σmin2(A)AF2kx*-x022

其中σmin()表示矩阵的最小非零奇异值。

Needell和Ward发现当线性系统是超定且高度相干时,随机Kaczmarz方法的求解效率低下甚至无效,因此提出同时启用两个工作行的双子空间随机Kaczmarz方法(2S‒RK)去求解这类特殊系统。

为了简便,Needell和Ward假设系数矩阵是标准化的,这意味着其每行都具有单位欧几里得范数,在接下来的部分,仍沿用该假设。在原始双子空间随机Kaczmarz方法中, 等可能地随机选取两个不同工作行, 再将当前解投影到由两个工作行所确定的超平面上获得下一个估计值, 具体过程见算法2。

算法2  

31     双子空间随机Kaczmarz方法。①置k:=0。②随机均匀地选择行指标rksk。③计算μrk,sk=<A(rk),A(sk)>。④计算yk=xk+b(sk)-A(sk)xkA(sk)T。 ⑤计算νk=A(rk)-μrk,skA(sk)1-μrk,sk2。⑥计算βk=b(rk)-μrk,skb(sk)1-μrk,sk2。⑦计算xk+1=yk+βk-νkykνkTk=k+1, 转步②。

关于双子空间随机Kaczmarz方法, 有如下收敛性定理。

定理2  

31     若线性系统(1)相容, 其中系数矩阵ARm×n且右端项bRm。初始向量x0Ran(AT), 其中Ran(AT)表示AT的列空间, 令xk+1为通过双子空间随机Kaczmarz方法生成的第(k+1)个迭代值,则

Ex*-xk+1221-σmin2(A)m2x*-xk22-1m(m-1)rsμr,s21-μr,s2<ekT,A(r)>-μr,s1-μr,s2<ekT,A(s)>2   (2)

这里,ek=x*-xkμr,s=<A(r),A(s)>

通过算法2,可知双子空间随机Kaczmarz方法的相应误差向量的2‒范数的平方满足

x*-xk+122=x*-xk22-<ekT,A(sk)>2-<(x*-yk)T,νk>2=x*-xk22-b(sk)-A(sk)xk2-b(rk)-A(rk)yk21-μrk,sk2 (3)

式(3)的最后两项的和取到最大值,则x*xk+1之间的距离可以最小化。基于这个想法,设计最优的贪婪距离选行准则为

          (rk,sk)=max1s,rmb(s)-A(s)xk2+                   b(r)-A(r)yk21-<A(r),A(s)>2 (4)

若双子空间随机Kaczmarz方法采用式(4)的选行准则,则其定能以一个极快的速率收敛到线性系统(1)的解。因此,可采用式(4)的规则来建立双子空间随机Kaczmarz方法的最佳版本。但在实践中计算满足式(4)行指标rksk的成本非常昂贵。为克服其耗时的缺点,笔者将通过依次构造两个具有控制参数θ的行索引集来构造次优版本的贪婪双子空间随机Kaczmarz方法(2S‒GRK(θ)),具体过程见算法3。

首先,构造与xk有关的指标集Uk

Uk=s|b(s)-A(s)xk|21-θmax1imb(i)-   A(i)xk2, θ[0,1] (5)

并以概率P(r=sk)=r̂xk(sk)2r̂xk22选取指标skUk,其中向量r̂xk的定义见算法3的步3。将当前解xk投影到解空间z|A(sk)z=b(sk)得到中间解向量yk

yk=xk+b(sk)-A(sk)xkA(sk)T

由此可得,对于k=1,2,3成立

ryk(sk)=b(sk)-A(sk)yk=b(sk)-A(sk)xk-b(sk)-A(sk)xkA(sk)A(sk)T=0

即是b-Ayk22=jskb(j)-A(j)yk2

其次,构造与yk有关的指标集Ûk

Ûk=r|b(r)-A(r)yk|21-θmax1jmb(j)-A(j)yk2, θ[0,1]

并以概率P(r=rk)=r̂yk(rk)2r̂yk22选取指标rkÛk,其中向量r̂yk的定义见算法3的步8。将当前解yk投影到解空间z|A(rk)z=b(rk)得到满足A(sk)xk+1=b(sk)的解向量xk+1

xk+1=yk+b(rk)-<A(rk),A(sk)>b(sk)1-<A(rk),A(sk)>2-               A(rk)-<A(rk),A(sk)>A(sk)1-<A(rk),A(sk)>2yk×                   A(rk)-<A(rk),A(sk)>A(sk)1-<A(rk),A(sk)>2T

由指标集Ûk的定义,对于rÛk,可得ryk(r)2=b(r)-A(r)yk2                  (1-θ)max1jmb(j)-A(j)yk2=

(1-θ)b-Ayk22max1jmb(j)-A(j)yk2b-Ayk22=(1-θ)b-Ayk22max1jmb(j)-A(j)yk2jskb(j)-A(j)yk2(1-θ)b-Ayk22max1jmb(j)-A(j)yk2(m-1)max1jmb(j)-A(j)yk2=1-θm-1b-Ayk22 (6)

对于k=1,2,3,同样可得rxk+1(sk)=b(sk)-A(sk)xk+1=0rxk+1(rk)=b(rk)-A(rk)xk+1=0,即是b-Axk+122=isk,rkb(i)-A(i)xk+12。同理, 由指标集Uk的定义,对于sUk,可得

rxk(s)2=b(s)-A(i)xk2(1-θ)max1imb(i)-A(i)xk2=(1-θ)b-Axk22max1imb(i)-A(i)xk2b-Axk22=(1-θ)b-Axk22max1imb(i)-A(i)xk2isk-1,rk-1b(i)-A(i)xk2(1-θ)b-Axk22max1imb(i)-A(i)xk2(m-2)max1imb(i)-A(i)xk2=1-θm-2b-Axk22 (7)

算法3   贪婪双子空间随机Kaczmarz方法。

步1 置k:=0。计算εk=1-θmax1imb(i)-A(i)xk2定义正整数指标集Uk=s|b(s)-A(s)xk|2εk 计算 r̂xk 的第s个分量r̂xk(s)=b(s)-A(s)xk,sUk0,sUk

步2 根据概率P(r=sk)=r̂xk(sk)2r̂xk22选取指标skUk

步3 计算yk=xk+b(sk)-A(sk)xkA(sk)Tε̂k=1-θmax1jmb(j)-A(j)yk2

步4 定义正整数指标集Ûk=r||b(r)-A(r)yk|2ε̂k计算 r̂yk 的第r个分量r̂yk(r)=b(r)-A(r)yk,rÛk0,rÛk

步5 根据概率P(r=rk)=r̂yk(rk)2r̂yk22选取指标rkÛk

步6 计算μrk,sk=<A(rk),A(sk)>; νk=A(rk)-μrk,skA(sk)1-μrk,sk2βk=b(rk)-μrk,skb(sk)1-μrk,sk2

步7 计算xk+1=yk+βk-νkykνkT

步8 置k=k+1, 转步1。

此外,由ykxk+1的递推式可以推得相对应的残量的递推公式如下:

ryk=b-Ayk=           b-Axk+b(sk)-A(sk)xkA(sk)T=            b-Axk-b(sk)-A(sk)xkAA(sk)T=            rxk-rxk(sk)AA(sk)T=            rk-rxk(sk)B(sk)
rxk+1=b-Axk+1=              b-Ayk+βk-νkykνkT=              b-Ayk-βk-νkykAνkT=              ryk-ryk(rk)-μkryk(sk)1-μk2AA(rk)T-μkAA(sk)T1-μk2=              ryk-ryk(rk)-μkryk(sk)1-μk2B(rk)-μkB(sk)

其中B=AATB(sk)B(rk)表示矩阵B的第skrk列。若迭代前已知AAT, 则可进一步提高贪婪双子空间随机Kaczmarz方法的求解性能, 参见文献[

24]。关于采用随机策略近似计算矩阵AAT, 参见文献[42]。

若每次迭代仅选择一个工作行,则算法3成为一类广义贪婪随机Kaczmarz(GRK(θ))方法。通过改变参数θ,可得到一系列常用算法作为特殊情况。取θ=0θ=12θ=121-b-Axkmmax1imb(i)-A(i)xk2θ=(1-ϑ)1-b-Axkmmax1imb(i)-A(i)xk2 ϑ[0,1]时,GRK(θ)方法分别简化为贪婪Kaczmarz方

41,贪婪距离随机Kaczmarz方25,贪婪随机Kaczmarz方24和松弛贪婪随机Kaczmarz方33

2 贪婪双子空间随机Kaczmarz方法的收敛性分析

相容线性系统(1)的最小范数解x*形如

x*:=argminAx=bx2AbRan(AT)

其中 Ran(AT)表示AT的列空间。若初始向量x0Ran(AT), 由算法3的步5和步13可知, 算法3生成的迭代序列xkk=0一定在Ran(AT)中, 故若算法3收敛, 则一定收敛到相容线性系统(1)的最小范数解。

关于算法3特殊情况(每次迭代仅选一个工作行)——广义贪婪随机Kaczmarz方法, 有如下收敛性定理。

定理 3   若线性系统(1)相容, 其中系数矩阵ARm×n且右端项bRm。初始向量x0Ran(AT), 令xk+1为通过广义贪婪随机Kaczmarz方法生成的第(k+1)个迭代值,则有

Ex*-xk+1221-1-θm-1σmin2(A)x*-xk22 (8)

Ex*-xk+1221-1-θm-1σmin2(A)k+1x*-x022,k=0,1,2

证明: 由广义贪婪随机Kaczmarz方法(算法3的前5步)可得

xk+1=xk+b(sk)-A(sk)xkA(sk)T

根据概率P(r=sk)=r̂xk(sk)2r̂xk22选指标skUk。由A(sk)x*-xk+1=0,即x*-xkxk+1-xk正交,可得

x*-xk+122=x*-xk22-xk-xk+122 (9)

对等式(9)两侧取期望, 有

Ex*-xk+122=x*-xk22-Exk-xk+122=x*-xk22-sUkr̂xk(sk)2r̂xk22b(sk)-A(sk)xkA(sk)T22=x*-xk22-sUkr̂xk(sk)2r̂xk22b(sk)-A(sk)xk2 (10)

rxk+1(sk)=b(sk)-A(sk)xk+1=0, k=0,1,2,则b-Axk+122=iskb(i)-A(i)xk+12。类似不等式(6),对于rÛk,可以推得

rxk(s)2=b(s)-A(s)xk21-θm-1σmin2(A)x*-xk22 (11)

其中式(11)最后一个不等式需要用到不等式(12),即对于任意uRan(AT), 成立

Au22σmin2(A)u22 (12)

联立等式(11)和不等式(12)可得

Ex*-xk+122=x*-xk22-sUkr̂xk(s)2r̂xk22b(s)-A(s)xk2x*-xk22-1-θm-1σmin2(A)x*-xk22sUkb(s)-A(s)xk2r̂xk22=x*-xk22-1-θm-1σmin2(A)x*-xk22=1-1-θm-1σmin2(A)x*-xk22

通过归纳法,可得

Ex*-xk+1221-1-θm-1σmin2(A)k+1x*-x022K= 0,1,2                        

关于贪婪双子空间随机Kaczmarz方法, 有如下的收敛性定理。

定理4   若线性系统(1)相容, 其中系数矩阵ARm×n且右端项bRm。初始向量x0Ran(AT), 令xk+1为通过贪婪双子空间随机Kaczmarz方法生成的第(k+1)个迭代值,则

Ex*-xk+122M(θ)x*-xk22-rÛkr̂yk(r)2r̂yk22sUkr̂xk(s)2r̂xk22μr,s2<ekT,νr,s>2  (13)

这里,M(θ)=1-1-θm-1σmin2(A)1-1-θm-2σmin2(A)ek=x*-xkμr,s=<A(r),A(s)>νr,s=A(r)-μkA(s)1-μr,s2。进一步放缩可得一个松弛但更简单的收敛界

Ex*-xk+122Mk(θ)x*-xk22

其中Mk(θ)=1-(1+Dk)(1-θ)m-1σmin2(A)1-1-θm-2σmin2(A)Dk=minrÛk,sUkμr,s21-μr,s2

证明: 由算法3的步5和步13可得

yk=xk+b(sk)-A(sk)xkA(sk)T=xk+<ekT,A(sk)>A(sk)Txk+1=yk+βk-νkykνkT=xk+<ekT,A(sk)>A(sk)T+<ekT,νk>νkT

ξk=<A(rk),νk>。为了便利,在后续的证明中,A(rk)A(sk)μkνkξk分别简记为A(r)A(s)μνξ。由于<A(s),ν>=0,即向量ν正交于向量A(s),展开x*-xk+122可得

        x*-xk+122=ek22-<ekT,A(s)>2-                               <ekT,ν>2 (14)

在算法3中,一次迭代需执行两次投影。因此,将式(14)中的误差与广义贪婪随机Kaczmarz 方法两次迭代后获得的误差进行比较。设z是广义贪婪随机Kaczmarz 方法基于yk的下一次迭代值, 则有

z=yk+b(r)-A(r)ykA(r)T=xk+<ekT,A(s)>A(s)T+<x*T-ykT,A(r)>A(r)T   (15)

yk的递推式可得

<x*T-ykT,A(r)>=<ekT,A(r)>-<ekT,A(s)><A(s),A(r)>=<ekT,A(r)>-μ<ekT,A(s)>=<ekT,A(r)-μA(s)>    (16)

μνξ的定义可得

A(r)=μA(r)+ν, ξ2+μ2=1 (17)

联立式(15)~(17)可得

z=xk+<ekT,A(s)>A(s)T+<ekT,A(r)-μA(s)>A(r)T=xk+<ekT,A(s)>A(s)T+<ekT,ξν>μA(s)+ξνT=xk+<ekT,A(s)>A(s)T+ξμ<ekT,ν>A(s)T+ξ2<ekT,ν>νT=xk+<ekT,A(s)>A(s)T+ξμ<ekT,ν>A(s)T+<ekT,ν>νT-μ2<ekT,ν>νT

利用向量ν与向量A(s)的正交性,展开x*-z22可得

x*-z22=ek-<ekT,A(s)>A(s)T-ξμ<ekT,ν>A(s)T-<ekT,ν>2νT+μ2<ekT,ν>νT22=ek22-<ekT,A(s)>2-<ekT,ν>2+μ2<ekT,ν>2     (18)

联立式(14)式(18)可得

x*-xk+122=x*-z22-μ<ekT,ν>2 (19)

式(19)两端取期望可得

Ex*-xk+122=Ex*-z22-Eμ<ekT,ν>2 (20)

由定理3可得

Ex*-z221-1-θm-1σmin2(A)Ex*-yk22 (21)

再由

Ex*-yk22=x*-xk22-Eb(sk)-A(sk)xk2=x*-xk22-sUkr̂xk(s)2r̂xk22b(s)-A(s)xk2x*-xk22-1-θm-2b-Axk22((7))1-1-θm-2σmin2(A)x*-xk22

因此,可得

     Ex*-z221-1-θm-1σmin2(A)1-             1-θm-2σmin2(A)x*-xk22 (22)

再由期望的定义可得

       Eμ<ekT,ν>2=  rÛkr̂yk(r)2r̂yk22sUkr̂xk(s)2r̂xk22μr,s2<ekT,νr,s>2 (23)

式(22)式(23)带入式(20)可得式(13)

式(16)式(17)带入式(23),同时再结合式(6)可得

Eμ<ekT,ν>2=rÛkr̂yk(r)2r̂yk22sUkr̂xk(s)2r̂xk22μr,s2<ekT,νr,s>2=rÛkr̂yk(r)2r̂yk22μr,s21-μr,s2<x*T-ykT,A(r)>2DkrÛkr̂yk(r)2r̂yk22<x*T-ykT,A(r)>2Dk1-θm-1σmin2(A)x*-yk22   (24)

其中Dk=minrÛk,sUkμr,s21-μr,s2。把式(21)式(24)带入式(20)可得Ex*-xk+122=1-1-θm-1σmin2(A)x*-                                

yk22-Dk1-θm-1σmin2(A)x*-yk22=        
1-(1+Dk)(1-θ)m-1σmin2(A)x*-yk22=1-(1+Dk)(1-θ)m-1σmin2(A)Ex*-yk221-(1+Dk)(1-θ)m-1σmin2(A)1-1-θm-2σmin2(A)x*-xk22                        

收敛因子越小, 方法收敛得越快。通过定理4收敛界可知,参数θ越小,收敛因子Mk(θ)越小,即贪婪双子空间随机Kaczmarz方法收敛速度越快。为便于比较,用θ取值特殊的贪婪双子空间随机Kaczmarz方法与原双子空间随机Kaczmarz方法作比较, 但对实际问题, 因贪婪双子空间随机Kaczmarz方法选行概率更具优势性, 对于θ[0,1],贪婪双子空间随机Kaczmarz方法都比原双子空间随机Kaczmarz方法收敛更快。

事实 ①令t1,t2,,tl是在概率分别为p1,p2,,pl的某个概率空间上定义的一组随机变量。若越大的ti所对应的概率pi越大,则值i=1ltipi越大;②对于任意数组Γ=t1,t2,,tltiRave(Γ)表示数组Γ的平均值。令Γ̂=tiave(Γ),tiΓ,有ave(Γ̂)ave(Γ)

θ1m时,显然成立

1-1-θm-2σmin2(A)1-1-θm-1σmin2(A)1-σmin2(A)m  M(θ)1-σmin2(A)m2

同时,当θ1m时,对于任意rÛk,显然成立

ryk(r)2(1-θ)max1jmb(j)-A(j)yk2m-1mmax1jmb(j)-A(j)yk2b-Ayk22m

基于事实①和②可得Eμ<ekT,ν>2=rÛkr̂yk(r)2r̂yk22sUkr̂xk(s)2r̂xk22μr,s2<ekT,νr,s>2=

rÛkr̂yk(r)2r̂yk22sUkr̂xk(s)2r̂xk22μr,s21-μr,s2<x*T-ykT,A(r)>21Ûk1UkrÛksUkμr,s21-μr,s2<x*T-ykT,A(r)>21m-11mrssmμr,s21-μr,s2<x*T-ykT,A(r)>2=1m(m-1)rsμr,s21-μr,s2<ekT,A(r)>-μr,s1-μr,s2<ekT,A(s)>2

因此,贪婪双子空间随机Kaczmarz方法收敛因子小于原双子空间随机Kaczmarz方法的收敛因子。

浮点运算量方面, 原双子空间随机Kaczmarz方法每次迭代需要12n+4个浮点运算量。若残差由递推公式计算, 则贪婪双子空间随机Kaczmarz方法每次迭代需要16m+6n+7个浮点运算量。因此, 当m<6n-316时, 贪婪双子空间随机Kaczmarz方法计算量小于原双子空间随机Kaczmarz方法。

3 数值实验

在本节中, 分别通过数值实验比较随机Kaczmarz方法(RK)、双子空间随机Kaczmarz方法(2S‒RK)和贪婪双子空间随机Kaczmarz方法(2S‒GRK(θ)), 并显示后者无论在迭代步数(IT)还是计算时间(CPU)上均优于前两者。这里,迭代步数(IT)和计算时间(CPU)取30次计算结果的平均值。

在实验中, 通过Matlab函数randn随机生成解x*Rn, 右端项bRmAx*给出。此外,需要指出2S‒GRK(θ)方法按照算法3中定义的过程精确执行, 并没有显式地计算矩阵B=AAT来计算残量。本节的所有数值实验, 均取初始向量为x0=0, 停机准则为近似解的相对误差RSE满足

RSE=x*-xk22x*22<10-6

或者迭代步数超过30万。在实验表格中, 若在30万步内未达到指定精度, 即用“--”表示。

为了测试这些方法,选取了两类矩阵进行实验。一类是通过Matlab函数unifrnd生成的500×100的相干矩阵。矩阵元素是在区间[d,1]上独立且均匀分布的随机变量。通过改变d的值,可以得到具有不同相干系数对的矩阵,相干系数对(σ,Δ)定义如下

σ=σ(A)=minij<A(i),A(j)>,Δ=Δ(A)=maxij<A(i),A(j)>

表1列出了测试的相干矩阵的相关信息。包含不同相干程度的500×100矩阵。

表1 相干矩阵信息
Tab.1 Information of coherent matrices
矩阵名称阶数取值区间相干系数对
A1 500×100 [-0.4,1] (0.008 4,1)
A2 500×100 [-0.1,1] (0.477 9,1)
A3 500×100 [0.2,1] (0.799 3,1)
A4 500×100 [0.5,1] (0.944 8,1)
A5 500×100 [0.8,1] (0.993 5,1)

对于测试的矩阵, 表2给出了RK, 2S‒RK, 2S‒GRK(θ)3种方法的迭代步数(IT)与计算时间(CPU), 以及2S‒GRK(θ)方法对于2S‒RK方法的加速比。

表2 相干矩阵数值结果
Tab.2 Numerical results of coherent matrices
算法A1A2A3A4A5
ITCPUITCPUITCPUITCPUITCPU
RK 2 530.0 0.133 8 5 020.0 0.255 2 12 120.0 0.618 7 43 870.0 2.236 4 -- --
2S‒RK 1 130.6 0.034 5 1 474.7 0.036 0 1 644.8 0.039 1 1 752.6 0.041 5 1 745.8 0.041 1
2S‒GRK(θ) 124.0 0.013 7 136.0 0.011 0 142.0 0.011 3 150 0.011 7 141.0 0.011 2
加速比 2.48 3.27 3.46 3.55 3.64

表2可知, 2S‒RK与2S‒GRK(θ)方法总能计算出符合精度的解, 而RK方法有时在迭代步数达到30万步后仍不能计算出符合精度的解。而且即便RK方法收敛, 2S‒RK与2S‒GRK(θ)方法在迭代步数与计算时间上也均少于RK方法。此外,2S‒GRK(θ)方法进一步优化了2S‒RK方法, 其关于2S‒RK方法迭代时间的加速比最大可以达到3.64, 最小可以达到2.48。值得注意的是, 无论矩阵的相干程度如何,2S‒GRK(θ)方法均收敛, 且其迭代步数与计算时间均优于原始的2S‒RK方法。

图1描绘了相干矩阵A2(图1a)和A4(图1b)的近似解的相对误差RSE以10为底的对数随着迭代步数变化的曲线, 进一步验证了2S‒GRK(θ)方法比经典的2S‒RK方法收敛更快。

图1 以A2和A4为系数矩阵的线性系统的近似解的相对误差随着迭代步数变化的曲线

Fig.1 lg(RSE) versus IT for linear systems with coefficient matrices:A2 and A4

表3列出了测试的稀疏矩阵的相关信息。

表3 稀疏矩阵信息
Tab.3 Information of sparse matrices
矩阵名称阶数非零元个数相干系数对
Abtaha1 14 596×209 51 307 (0.816 5,1)
Ash219 219×85 438 (0,1)
Ash331 331×104 662 (0,1)
Ash608 608×188 1 216 (0,1)
Ash958 958×292 1 916 (0,1)

对于测试的稀疏矩阵, 表4给出了RK、2S‒RK、2S‒GRK(θ)3种方法的迭代步数(IT)与计算时间(CPU),以及2S‒GRK(θ)方法对于2S‒RK方法的加速比。

表4 稀疏矩阵数值结果
Tab.4 Numerical results of sparse matrices
算法Abtaha1Ash219Ash331Ash608Ash958
ITCPUITCPUITCPUITCPUITCPU
RK 81 883 26.572 9 1 896 0.123 1 2 183 0.145 1 4 119 0.302 7 5.885 0.512 8
2S‒RK 24 931 12.346 3 901 0.065 0 1 050 0.078 4 2 056 0.184 3 3.005 0.316 3
2S‒GRK(θ 254 7.059 6 127 0.010 6 129 0.012 7 237 0.030 2 353 0.055 7
加速比 1.75 6.13 6.17 6.10 5.68

表4可得与表2类似结论, 即 2S‒GRK(θ)与2S‒RK方法在迭代步数与计算时间上也均少于RK方法。此外, 2S‒GRK(θ)方法进一步优化了2S‒RK方法, 其关于2S‒RK方法迭代时间的加速比最大可以达到6.17, 最小可以达到1.75。因此,无论对于相干矩阵还是稀疏(不相干)矩阵, 2S‒GRK(θ)方法均收敛, 且其迭代步数与计算时间均优于传统的 2S‒RK方法。

图2描绘了矩阵Ash219(图2a)和Ash958(图2b)的近似解的相对误差以10为底的对数随着迭代步数变化的曲线, 进一步验证了 2S‒GRK(θ)方法方法比经典的2S‒RK方法收敛更快。

图2 以Ash219和Ash958为系数矩阵的线性系统的近似解的相对误差随着迭代步数变化的曲线

Fig.2 lg(RSE) versus IT for linear systems with coefficient matrices:Ash219 and Ash958

对于4个测试矩阵A2、A4、Ash219和Ash958,图3描绘了2S‒GRK(θ)方法的计算时间(图3a)和迭代步数(图3b)随控制参数θ变化的曲线。由图3可知,只要在计算时采用合适的控制参数θ, 2S‒GRK(θ)方法的性能就会得到很大提升。结合表2表4可知,无论θ[0,1]取何值, 2S‒GRK(θ)方法方法总比经典的2S‒RK方法收敛更快。

图3 2S‒GRK(θ)方法的计算时间和迭代步数随控制参数θ变化的曲线

Fig.3 CPU and IT versus θ of 2S‒GRK(θ)

4 结论

提出一类贪婪双子空间随机Kaczmarz方法, 理论分析证明新方法的收敛性, 还表明收敛因子小于传统的双子空间随机Kaczmarz方法的收敛因子。数值实验结果也表明所提出的新方法在迭代步数和计算时间上均优于传统的双子空间随机Kaczmarz方法。贪婪双子空间随机Kaczmarz方法能够快速求解大规模稀疏相容线性方程组, 主要原因在于新方法定义的随机选取工作行的概率更具优势。如何随机选取工作行以加速Kaczmarz方法及其应

43仍然是一个值得研究的问题。

作者贡献声明

荆燕飞:核心思想提炼、论文修改。

李彩霞:论文撰写。

胡少亮:论文修改。

参考文献

1

BREZINSKI C. Projection methods for systems of equations [M]. AmsterdamNorth-Holland Publishing Co1997. [百度学术

2

SAAD Y. Iterative methods for sparse linear systems [M]. PhiladelphiaSIAM Publisher2003. [百度学术

3

GALÁNTAI A. Projectors and projection methods [M]. BostonKluwer Academic Publishers2003. [百度学术

4

GOLUB G H. Matrix computations[M]. 3rd ed. BaltimoreJohns Hopkins UP2008. [百度学术

5

KACZMARZ S. Angenäherte auflösung von systemen linearer gleichungen [J]. Bulletin International de l'Academie Polonaise des Sciences et des Lettres193735355. [百度学术

6

ANSORGE R. Connections between the Cimmino-method and the Kaczmarz-method for the solution of singular and regular systems of equations [J]. Computing198433367. [百度学术

7

CENSOR Y. Row-action methods for huge and sparse systems and their applications [J]. SIAM Review198123444. [百度学术

8

KNIGHT P A. Error analysis of stationary iteration and associated problems [D]. ManchesterManchester University1993. [百度学术

9

BAI Z ZLIU X G. On the meany inequality with applications to convergence analysis of several row-action iteration methods [J]. Numerische Mathematik2013124215. [百度学术

10

CENSOR Y. Parallel application of block-iterative methods in medical imaging and radiation therapy [J]. Mathematical Programming198842307. [百度学术

11

HERMAN G T. Fundamentals of computerized tomography: image reconstruction from projection [M]. 2nd ed. LondonSpringer2009. [百度学术

12

KAK A CSLANEY M. Principles of computerized tomographic imaging [M]. PhiladelphiaSIAM Publisher2003. [百度学术

13

NATTERER F. The mathematics of computerized tomography [M]. PhiladelphiaSIAM Publisher2001. [百度学术

14

GORDON RBENDER RHERMAN G T. Algebraic reconstruction techniques (ART) for three-dimensional electron microscopy and X-ray photography [J]. Journal of Theoretical Biology1970293): 471. [百度学术

15

HERMAN G TDAVIDI R. Image reconstruction from a small number of projections [J]. Inverse Problems2008244): 45011. [百度学术

16

HERMEN G TMEYER L B. Algebraic reconstruction techniques can be made computationally efficient [J]. IEEE Trans Medical Imaging, 1993123): 600. [百度学术

17

ELBLE J MSAHINIDIS N VVOUZIS P. GPU computing with Kaczmarz’s and other iterative algorithms for linear systems [J]. Parallel Computing2010365): 215. [百度学术

18

PASQUALETTI FCARLI RBULLO F. Distributed estimation via iterative projections with application to power network monitoring [J]. Automatica2012485): 747. [百度学术

19

BYRNE C. A unified treatment of some iterative algorithms in signal processing and image reconstruction [J]. Inverse Problems2004201): 103. [百度学术

20

LORENZ DMAGNOR MWENGER Set al. A sparse Kaczmarz solver and a linearized Bregman method for online compressed sensing [C]// IEEE International Conference on Image Processing (ICIP).[S.l.]ICIP20141347-1351. [百度学术

21

CENKER CFEICHTINGER H GMAYER Met al. New variants of the POCS method using affine subspaces of finite codimension, with applications to irregular sampling [J]. Proceedings of SPIE - The International Society for Optical Engineering19921818299. [百度学术

22

STROHMER TVERSHYNIN R. A randomized Kaczmarz algorithm with exponential convergence [J]. Journal of Fourier Analysis and Applications2009152): 262. [百度学术

23

DAI LSOLTANALIAN MPELCKMANS K. On the randomized Kaczmarz algorithm[J]. IEEE Signal Processing Letters2014213): 330. [百度学术

24

BAI Z ZWU W T. On greedy randomized Kaczmarz method for solving large sparse linear systems [J]. SIAM Journal on Scientific Computing2018401): 592. [百度学术

25

BAI Z ZWU W T. On relaxed greedy randomized Kaczmarz methods for solving large sparse linear systems [J]. Applied Mathematics Letters20188321. [百度学术

26

杜亦疏殷俊锋张科. 求解大型稀疏线性方程组的贪婪距离随机Kaczmarz方法[J]. 同济大学学报(自然科学版)2020488): 1224. [百度学术

DU YishuYIN JunfengZHANG Ke. Greedy randomized-distance Kaczmarz method for solving large sparse linear systems [J]. Journal of Tongji University (Natural Science)2020488): 1224. [百度学术

27

NEEDELL DWARD R. Two-subspace projection method for coherent over-determined systems [J]. Journal of Fourier Analysis and Applications2013192): 256. [百度学术

28

ZOUZIAS AFRERIS N. M. Randomized extended Kaczmarz for solving least squares [J]. SIAM Journal on Matrix Analysis and Applications2013342): 773. [百度学术

29

BAI Z ZWU W T. On partially randomized extended Kaczmarz method for solving large sparse overdetermined inconsistent linear systems [J]. Linear Algebra and Its Applications2019578225. [百度学术

30

DAI LSCHON T. On the exponential convergence of the kaczmarz algorithm[J]. IEEE Signal Processing Letters20152210): 1571. [百度学术

31

OSWALD PZHOU W Q. Convergence analysis for Kaczmarz-type methods in a Hilbert space framework [J]. Linear Algebra and Its Applications2015478131. [百度学术

32

BAI Z ZWU W T. On convergence rate of the randomized Kaczmarz method [J]. Linear Algebra and Its Applications2018553252. [百度学术

33

POPA C. Convergence rates for Kaczmarz-type algorithms [J]. Numerical Algorithms2018791): 1. [百度学术

34

ELDAR Y CNEEDELL D. Acceleration of randomized Kaczmarz method via the Johnson-Lindenstrauss lemma [J]. Numerical Algorithms2011582): 163. [百度学术

35

XIANG XCHENG L Z. An accelerated randomized Kaczmarz method via low-rank approximation [J]. International Journal of Computer Mathematics2015927): 1413. [百度学术

36

LEVENTHAL DLEWIS A S. Randomized methods for linear constraints: convergence rates and conditioning [J]. Mathematics of Operations Research2010353): 641. [百度学术

37

MA ANEEDELL DRAMDAS A. Convergence properties of the randomized extended Gauss–Seidel and Kaczmarz methods [J]. SIAM Journal on Matrix Analysis and Applications2015364): 1590. [百度学术

38

DU K. Tight upper bounds for the convergence of the randomized extended Kaczmarz and Gauss-Seidel algorithms [J]. Numerical Linear Algebra with Applications2019263): e2233. [百度学术

39

NEEDELL DTROPP J A. Paved with good intentions: analysis of a randomized block Kaczmarz method [J]. Linear Algebra and Its Applications2014441199. [百度学术

40

NEEDELL DZHAO RZOUZIAS A. Randomized block Kaczmarz method with projection for solving least squares [J]. Linear Algebra and Its Applications2015484322. [百度学术

41

NUTINI JSEPEHRY BLARADJI Iet al. Convergence rates for greedy Kaczmarz algorithms, and faster randomized Kaczmarz rules using the orthogonality graph [J]. arXiv2016, 1612.07838. [百度学术

42

HOLODNAK J TIPSEN I C F. Randomized approximation of the Gram matrix: Exact computation and probabilistic bounds [J]. SIAM Journal on Matrix Analysis and Applications2015361): 110. [百度学术

43

DU Y SHAYAMI KZHENG Net al. Kaczmarz-type inner-iteration preconditioned flexible GMRES methods for consistent linear systems [J]. arXiv2020,2006.10818. [百度学术