网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

求解带扰动的线性方程组的贪婪随机Kaczmarz方法  PDF

  • 巫文婷
北京理工大学 数学与统计学院,北京 100081

中图分类号: O241.6

最近更新:2021-10-14

DOI:10.11908/j.issn.0253-374x.21070

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

当相容的线性代数方程组的右端向量发生扰动时,给出了由贪婪随机Kaczmarz方法所产生的迭代解与原线性代数方程组的最小范数解之间的期望误差的上界,并说明了随着迭代步数的增长,该期望解误差以线性速率下降至一个给定阈值。数值实验表明,该阈值能够很好地估计贪婪随机Kaczmarz方法的迭代解误差所能达到的最小值。

对于系数矩阵为ACm×n且右端向量为bCm的大规模相容线性代数方程组

Ax=b (1)

的求解,Kaczmarz方

1是经典的行处理迭代方法,在信号与图像处理领域有着广泛的应用。其每步迭代只需按照给定的循环顺序选取系数矩阵的某一行,并将当前迭代向量正交投影至由该行所形成的超平面上。Strohmer2提出按照与系数矩阵每一行的欧氏范数平方成比例的概率准则随机选取系数矩阵的行,得到了收敛更为快速的随机Kaczmarz方法。若用*表示相应矩阵或向量的共轭转置,则当初始迭代向量在A*的列空间中时,随机Kaczmarz方法期望线性收2-5到线性代数方程组(1)的最小欧氏范数解x=Ab,其中A表示系数矩阵A的Moore-Penrose伪逆。当线性代数方程组(1)的右端向量发生扰动时,Needell6给出了随机Kaczmarz方法的期望解误差的上界,并说明了随着迭代步数的增长,随机Kaczmarz方法的期望解误差会以线性速率下降至一个误差阈值。之后,Zouzias7对Needell所提出的期望解误差的上界进行了改进。

影响随机Kaczmarz方法收敛速率的关键在于其中所蕴含的用于选取每步迭代所需调用的系数矩阵行的概率准则。为了提高随机Kaczmarz方法的收敛速率,Bai

8-9提出了一个可以获取每步迭代中残向量的模较大分量的概率准则,并基于该概率准则构造出了贪婪随机Kaczmarz方法。当初始迭代向量在A*的列空间时,贪婪随机Kaczmarz方法所产生的迭代序列xkk=0收敛到线性代数方程组(1)的最小范数解x=Ab且具有期望线性收敛速率

Exk-x21-121γAF2+1λminA*AAF2k-121-λminA*AAF212x0-x2

其中γ=AF2-min1imA(i)22,且A(i)22AF2λminA*A分别表示矩阵Ai行的欧氏范数平方、矩阵A的Frobenius范数平方和矩阵A*A的最小非零特征值。

当线性代数方程组(1)的右端向量b被加上一个不为零的扰动向量rCm时,实际求解的线性代数方程组问题将变为

Ax=y (2)

其中,y=b+r。若对任意矩阵GCm×n和任意向量uCm,用Giui分别表示矩阵G的第i行和向量u的第i个分量,由于贪婪随机Kaczmarz方法的第k步迭代将当前迭代向量xk投影至超平面Aikx=yik上,而线性代数方程组(1)的最小范数解x=Ab满足Ax=y-r,故其并不能收敛到x。在这种情况下,本文对贪婪随机Kaczmarz方法的期望解误差进行分析,得到了其上界,证明了随着迭代步数的增长,由贪婪随机Kaczmarz方法所产生的迭代解与原线性代数方程组(1)的最小范数解x之间的误差以线性速率下降至一个给定阈值。数值实验表明本文所给出的阈值能够很好地估计贪婪随机Kaczmarz方法的迭代解误差所能达到的最小值。

1 贪婪随机Kaczmarz方法

不失一般性,在本文的讨论中,总是假设系数矩阵A不存在零行,即A(i)0i=1,2,,m。当线性代数方程组(1)的右端向量发生扰动时,求解线性代数方程组(2)的贪婪随机Kaczmarz方

8如下:

输入:Ay𝓁x0

输出:x𝓁

1: for k=0,1,,𝓁-1 do

2: 计算

εk=121y-Axk22max1imy(i)-A(i)xk2A(i)22+1AF2

3: 确定正整数指标集

Uk=i|y(i)-A(i)xk2εky-Axk22A(i)22

4: 计算向量r˜kCm的第i个分量

r˜k(i)=y(i)-A(i)xk,iUk0,

5: 按照概率Pr(row=ik)=r˜k(ik)2r˜k22选取ikUk

6: 令xk+1=xk+y(ik)-A(ik)xkA(ik)22A(ik)*

7: endfor

RARA分别为系数矩阵A的像空间和其像空间的正交补子空间,则有r=rR(A)+rR(A),其中rR(A)rR(A)分别表示向量rRARA上的正交投影。若线性代数方程组(1)右端向量的扰动r在系数矩阵A的像空间RA中,则线性代数方程组(2)等价于线性代数方程组

Ax=b+rR(A) (3)

易知线性代数方程组(3)是相容的且其最小范数解为x˜=Ab+rR(A)。此时,若初始迭代向量在A*的列空间中,则求解线性代数方程组(2)的贪婪随机Kaczmarz方法所产生的迭代序列xkk=0期望线性收敛到x˜

2 误差分析

与求解原线性代数方程组(1)的贪婪随机Kaczmarz方法的分

8类似,根据求解线性代数方程组(2)的贪婪随机Kaczmarz方法中εk的定义可知,对于k=1,2,,由于

yik-1-Aik-1xk=yik-1-Aik-1xk-1+yik-1-Aik-1xk-1Aik-122Aik-1*=0

εkAF2=12max1imy(i)-A(i)xk2A(i)22i=1mA(i)22AF2y(i)-A(i)xk2A(i)22+12=                       12max1imy(i)-A(i)xk2A(i)22i=1iik-1mA(i)22AF2y(i)-A(i)xk2A(i)22+12

                      12AF2i=1iik-1mA(i)22+1

而对于k=0,有

ε0AF2=12max1imy(i)-A(i)x02A(i)22i=1mA(i)22AF2y(i)-A(i)x02A(i)22+121

因此,可得引理1。

引理 1   求解系数矩阵为ACm×n且右端向量为yCm的线性代数方程组(2)的贪婪随机Kaczmarz方法的概率准则中的量εkk=0,1,2,,满足

ε01AF2

εk121γ+1AF2k=1,2,

其中γ=AF2-min1imA(i)22

当线性代数方程组(1)右端向量的扰动rRA中时,若初始迭代向量在A*的列空间中,则求解线性代数方程组(2)的贪婪随机Kaczmarz方法所产生的迭代向量期望线性收敛到线性代数方程组(3)的最小范数解x˜。对于一般的扰动情形,求解线性代数方程组(2)的贪婪随机Kaczmarz方法所产生的迭代向量与x˜之间的期望误差的上界可以由引理2给出。

引理 2   如果初始迭代向量x0CnA*的列空间中,则贪婪随机Kaczmarz方法求解扰动后的线性代数方程组(2)所产生的迭代序列xkk=0与线性代数方程组(3)的最小范数解x˜之间的期望误差满足

Exk-x˜2αk-1α0x0-x˜2+β1-α

其中

α=1-λminA*A41γ+1AF2,α0=1-λminA*A2AF2,
             β=2max1imrR(A)(i)2A(i)22-rR(A)222AF2,γ=AF2-min1imA(i)22    (4)

证明: 由求解线性代数方程组(2)的贪婪随机Kaczmarz方法的定义和Ax˜=b+rR(A)可知

xk+1-x˜=xk-x˜+y(ik)-A(ik)xkA(ik)22A(ik)*=xk-x˜+b(ik)+rR(A)(ik)-A(ik)xk+rR(A)(ik)A(ik)22A(ik)*=I-A(ik)*A(ik)A(ik)22xk-x˜+rR(A)(ik)A(ik)22A(ik)*

其中I表示具有合适阶数的单位矩阵,则有

xk+1-x˜22=I-A(ik)*A(ik)A(ik)22xk-x˜22+rR(A)(ik)2A(ik)22 (5)

Ek表示固定前k步迭代的条件期望,即Ek=E|i0,i1,,ik-1,其中il(l=0,1,,k-1)为第l步迭代所选取的行指标,则对等式(5)两边取条件期望可得

Ekxk+1-x˜22=xk-x˜22-ikUkyik-Aikxk2iUkyi-Aixk2bik+rR(A)(ik)-Aikxk2A(ik)22+ikUkyik-Aikxk2iUkyi-Aixk2rR(A)(ik)2A(ik)22

由于

yik-Aikxk2=bik+rR(A)(ik)+rR(A)(ik)-Aikxk2bik+rR(A)(ik)-Aikxk+rR(A)(ik)22bik+rR(A)(ik)-Aikxk2+2rR(A)(ik)2

可知

bik+rR(A)(ik)-Aikxk212yik-Aikxk2-rR(A)(ik)2

则根据正整数指标集Uk的定义可得

Ekxk+1-x˜22xk-x˜22-12ikUkyik-Aikxk2iUkyi-Aixk2yik-Aikxk2A(ik)22+2ikUkyik-Aikxk2iUkyi-Aixk2rR(A)(ik)2A(ik)22xk-x˜22-12εky-Axk22+2max1imrR(A)(i)2A(i)22

对于在矩阵A*的像空间R(A*)中的任意向量u,有不等式

Au22λminA*Au22 (6)

成立。利用该不等式,通过引理1、向量b+rR(A)-Axk=Ax˜-xkR(A)和向量rR(A)的正交性、xk-x˜R(A*)以及γAF2可知,对于k=1,2,,有

Ekxk+1-x˜22xk-x˜22-141γ+1AF2y-Axk22+2max1imrR(A)(i)2A(i)22=xk-x˜22-141γ+1AF2b+rR(A)-Axk22+rR(A)22+2max1imrR(A)(i)2A(i)221-λminA*A41γ+1AF2xk-x˜22+2max1imrR(A)(i)2A(i)22-141γ+1AF2rR(A)221-λminA*A41γ+1AF2xk-x˜22+2max1imrR(A)(i)2A(i)22-rR(A)222AF2

而对于k=0,有

Ex1-x˜22x0-x˜22-12AF2y-Ax022+2max1imrR(A)(i)2A(i)22=x0-x˜22-12AF2b+rR(A)-Ax022+rR(A)22+2max1imrR(A)(i)2A(i)221-λminA*A2AF2x0-x˜22+2max1imrR(A)(i)2A(i)22-rR(A)222AF2

对不等式两边取期望可得对于k=1,2,,有

Exk+1-x˜22αExk-x˜22+β

而对于k=0,有

Ex1-x˜22α0x0-x˜22+β

因此,由于0<α<1β0,对于k=1,2,,有

Exk-x˜22αExk-1-x˜22+βα2Exk-2-x˜22+αβ+βαk-1Ex1-x˜22+i=0k-2αiβαk-1α0x0-x˜22+i=0k-1αiβαk-1α0x0-x˜22+β1-α

由Jensen不等式可知

          Exk-x˜2Exk-x˜2212αk-1α0x0-x˜22+β1-α12αk-1α0x0-x˜2+β1-α

基于引理2,关于求解扰动后的线性代数方程组(2)的贪婪随机Kaczmarz方法所产生的迭代近似解与原线性代数方程组(1)的最小范数解x之间的期望误差的上界,可以给出如下定理。

定理 1   如果初始迭代向量x0CnA*的列空间中且x˜为线性代数方程组(3)的最小范数解,则贪婪随机Kaczmarz方法求解扰动后的线性代数方程组(2)所产生的迭代序列xkk=0与原线性代数方程组(1)的最小范数解x=Ab之间的期望误差满足

Exk-x2αk-1α0x0-x˜2+β1-α+rR(A)2λminA*A

其中,αα0β如(4)式中定义。

证明: 因为x˜-xR(A*),则通过不等式(6)可知

rR(A)2=Ax˜-x2λminA*Ax˜-x2

又因为有

xk-x2=xk-x˜+x˜-x2xk-x˜2+x˜-x2

成立,则由引理2可得

Exk-x2Exk-x˜2+x˜-x2αk-1α0x0-x˜2+β1-α+rR(A)2λminA*A

定理1说明了当迭代步数k趋于无穷时,贪婪随机Kaczmarz方法求解扰动后的线性代数方程组(2)所产生的迭代序列xkk=0的期望相对解误差Exk-x2/x2α的线性速率下降至某个阈值,并给出了该阈值的估计

τ=1x2β1-α+rR(A)2λminA*A

rR(A)为零,则扰动后的线性代数方程组(2)即为相容的线性代数方程组(3)。因此,求解线性代数方程组(2)的贪婪随机Kaczmarz方法的迭代序列xkk=0收敛到线性代数方程组(3)的最小范数解x˜,且其与原线性代数方程组(1)的最小范数解x的差趋于x˜-x。此时,如果初始迭代向量在A*的列空间中,则求解线性代数方程组(2)的贪婪随机Kaczmarz方法所产生的迭代序列xkk=0满足Exk-x2x2αk-1α0x0-x˜2x2+          x˜-x2x2αk-1α0x0-x˜2x2+         rR(A)2x2λminA*A

rR(A)为零,则线性代数方程组(3)即为线性代数方程组(1),且线性代数方程组(3)的最小范数解x˜即为x=Ab。此时,如果初始迭代向量在A*的列空间中,则求解线性代数方程组(2)的贪婪随机Kaczmarz方法所产生的迭代序列xkk=0满足

         Exk-x2x2αk-1α0x0-x2x2+ 1x2β1-α

3 数值实验

通过数值实验测试贪婪随机Kaczmarz方法求解带右端项扰动的线性代数方程组(2)时的数值表现,并将所估计的阈值与贪婪随机Kaczmarz方法所产生的真实迭代解误差进行比较。

所测试的系数矩阵A分为两类:一类为利用MATLAB函数randn随机产生的元素服从标准正态分布的矩阵,矩阵维数分别为200×100 000100 000×200;另一类为取自稀疏矩阵

10的稀疏矩阵bibd_16_8和ash958,矩阵维数分别为120×12 870958×292

线性代数方程组(1)的右端向量b取为Ax*,其中x*Rn是利用MATLAB函数randn随机产生的。线性代数方程组(1)的右端项的扰动向量r分为三类:一类为随机扰动,一类为在系数矩阵的像空间中的扰动,另一类为在系数矩阵的像空间的正交补空间中的扰动。这三类扰动均由MATLAB函数randn生成,并且其欧氏范数为原始右端向量b的欧氏范数的0.0005倍。由于200×100 000的随机矩阵和稀疏矩阵bibd_16_8为行满秩矩阵,故其所对应的右端项扰动r一定在其像空间中。所有计算均从初始向量x0=0开始。

图1描绘了当线性代数方程组(1)的系数矩阵为随机产生的矩阵且右端项扰动r为随机扰动时,贪婪随机Kaczmarz方法重复运行50次所产生的相对解误差ERS的中值和阈值τ分别取以10为底的对数之后相对于迭代步数的曲线,其中

ERS=xk-x2x2

图1 m=200,n=100 000m=100 000,n=200时,lg ERS和lg τ相对于迭代步数的曲线

Fig.1 Pictures of lg ERS and lg τ versus the iteration step when m=200,n=100 000 and m=100 000,n=200

图1可以看出,贪婪随机Kaczmarz方法所产生的相对解误差下降至10-3左右之后不再减小,且阈值τ能够很好地给出该最小值的估计。特别地,当系数矩阵为200×100 000的随机矩阵时,τ与真实相对解误差所能达到的最小值非常接近。

图2描绘了对于100 000×200的随机产生的系数矩阵,当线性代数方程组(1)的右端项扰动r分别在系数矩阵的像空间和系数矩阵的像空间的正交补空间中时,贪婪随机Kaczmarz方法重复运行50次所产生的相对解误差的中值和阈值τ分别取以10为底的对数之后相对于迭代步数的曲线。从图2可以看出,贪婪随机Kaczmarz方法所产生的相对解误差下降至10-3左右之后不再减小,且阈值τ能够很好地给出该最小值的估计,特别当扰动向量r在系数矩阵的像空间中时。

图2 m=100 000,n=200rRArRA时,lg ERS和lg τ相对于迭代步数的曲线

Fig.2 Pictures of lg ERS and lg τ versus the iteration step when m=100 000,n=200,and rRA and rRA

当线性代数方程组(1)的系数矩阵为稀疏矩阵bibd_16_8和ash958时,图3描绘了右端项扰动r为随机扰动时,贪婪随机Kaczmarz方法重复运行50次所产生的相对解误差的中值和阈值τ分别取以10为底的对数之后相对于迭代步数的曲线;图4描绘了右端项扰动r分别在系数矩阵的像空间和系数矩阵的像空间的正交补空间中时的相应曲线。类似地,从图3图4可以看出,贪婪随机Kaczmarz方法所产生的相对解误差下降至10-3左右之后不再减小,且阈值τ能够很好地给出该最小值的估计,特别当系数矩阵为bibd_16_8和当系数矩阵为ash958且扰动向量r在系数矩阵的像空间中时。

图3 当矩阵为bibd_16_8 和ash958 时,lg ERS和lg τ相对于迭代步数的曲线

Fig.3 Pictures of lg ERS and lg τ versus the iteration step when the matrices are bibd_16_8 and ash958

图4 当矩阵为ash958且rRArRA时,lg ERS与lg τ相对于迭代步数的曲线

Fig.4 Pictures of lg ERS and lg τ versus the iteration step when the matrix is ash958, and rRA and rRA

4 结论

当线性代数方程组的右端向量发生扰动时,证明了贪婪随机Kaczmarz方法的期望解误差以线性速率下降至一个给定阈值。数值实验表明该阈值能够很好地估计贪婪随机Kaczmarz方法的迭代解误差所能达到的最小值。可以发现当扰动不是很大且对解的精度要求不是很高时,贪婪随机Kaczmarz方法仍然能够很好地给出原线性代数方程组最小范数解的近似。

参考文献

1

KACZMARZ S. Angenäherte Auflösung von Systemen linearer Gleichungen [J]. Bulletin International de l'Academie Polonaise des Sciences et des Lettres193735355. [百度学术

2

STROHMER TVERSHYNIN R. A randomized Kaczmarz algorithm with exponential convergence [J]. Journal of Fourier Analysis and Applications200915262. [百度学术

3

MA ANEEDELL DRAMDAS A. Convergence properties of the randomized extended Gauss‑Seidel and Kaczmarz methods [J]. SIAM Journal on Matrix Analysis and Applications2015361590. [百度学术

4

GOWER R MRICHTÁRIK P. Stochastic dual ascent for solving linear systems [J]. arXiv2015,1512.06890. [百度学术

5

BAI Z ZWU W T. On convergence rate of the randomized Kaczmarz method [J]. Linear Algebra and its Applications2018553252. [百度学术

6

NEEDELL D. Randomized Kaczmarz solver for noisy linear systems [J]. BIT Numerical Mathematics201050395. [百度学术

7

ZOUZIAS AFRERIS N M. Randomized extended Kaczmarz for solving least squares [J]. SIAM Journal on Matrix Analysis and Applications201334773. [百度学术

8

BAI Z ZWU W T. On greedy randomized Kaczmarz method for solving large sparse linear systems [J]. SIAM Journal on Scientific Computing201840A592. [百度学术

9

BAI Z ZWU W T. On relaxed greedy randomized Kaczmarz methods for solving large sparse linear systems [J]. Applied Mathematics Letters20188321. [百度学术

10

DAVIS T AHU Y. The University of Florida sparse matrix collection [J]. ACM Transactions on Mathematical Software2011381. [百度学术