《武汉工程大学学报》  2015年09期 45-49   出版日期:2015-09-30   ISSN:1674-2869   CN:42-1779/TQ
SIFT特征匹配和VFC算法的电子稳像技术


0 引 言近年来,稳像技术得到广泛的应用,无论是航空、车载、船舰上,为了获得清晰不晃动的视频,稳像技术都可以用来消除载体不稳定所引起的视频抖动[1]. 稳像技术一般分为三种:机械稳像、光学稳像和电子稳像,从各方面的考虑,包括体积小、操作方便、可移植性强、实时性等,电子稳像技术得到更多的普及. 电子稳像技术大体分为三步:运动估计,运动滤波和运动补偿. 本文大部分的工作集中于运动估计中. 处理运动估计有基于灰度和基于特征的方法[2]:基于灰度的方法可以得到精确的结果,但要处理所有的像素点而耗时太多;提取图像特征的方法处理速度快,然而精度又得不到保证. 对于特征匹配,可以查阅到丰富的文献资料,角点匹配,边缘模型匹配,SIFT点匹配,MSER特征匹配,KLT特征追踪等[3],在处理较为模糊的图片时,SIFT点匹配的优势就更为明显. 在匹配的过程中,消除产生的误匹配,很多用到最小二乘法,然而当数据里有很多外点的情况,该方法处理得并不好. 在此,就用到向量场优化算法,向量场一致性是在希尔伯特空间中基于吉洪诺夫正则化,保持向量场的平滑性. 在贝叶斯框架下,将每个样点与潜在变量相结合来判断是否为内点,然后构建成后验概率问题,通过EM算法求解. 运动估计过程由局部向量估计得到全局运动向量,就可以进行运动滤波和运动补偿,从而得到稳定清晰的输出图像[4]. 1 SIFT算法的实现  尺度不变特征转换能够从图像中提取高度独特的不变特征,这些特征被用在不同的图像里针对相同对象进行匹配. 最初提取这些特征是为了对象识别:将样例图片中检测到的特征与由众多不同视角中提取的特征而组成的数据库进行匹配. SIFT算法需要获得全方位的大量特征,主要阶段是对一系列的图像特征的计算:尺度空间极值检测、关键点的精确定位、方向赋值、描述算子的计算[5]. 实施的第一步是建立一个尺度空间金字塔,将输入帧进行重复滤波化和下采样. 处理过程中,两个连续的高斯分布被一个常量k=■分开,每个八度图计算5幅图像,将会得到4张高斯差分图,因此,就可以在两张不同的图像中找到极值. 定位了每一个关键点之后,进行对比,然后通过Harris边缘检测. 对比阈值和边缘检测算子都会影响最终关键点的个数,成功的关键就是如何去除定位不准的特征或者不稳定的点. 图像处理中,避免不稳定的特征非常重要,运动估计算法需要高度独特的特征,而误匹配往往会影响算法的准确性. 对于去除误匹配,这里用到向量场一致性算法[6](VFC).2 基于VFC的去除误匹配最小二乘法经常被用来处理去除特征的外点,但是当外点过多时,处理效果不甚明显. VFC算法有很强的鲁棒性,能够处理含90%外点的特征图像. 2.1 问题公式化给定一个输入输出对的集合,S={(xn,yn)∈X×Y}■■,通过一个随机的向量场,该向量场包含一些未知的外点,其中X?坳RP,Y?坳RD分别是输入空间和输出空间. 目的是将外点从内点中区分开来,由一个映射f:X→Y,可以得到满意的内点,其中f∈H,假设H是一个再造核的Hilbert空间. 在此做一个假设,关于内点,是一个均值为0,标准差为σ的高斯噪声;对于外点,输出在一个有界的区域RD,因此外点的分布为平均分布■,其中a是一个常量. γ为内点的百分比,内点和外点的分布模型如下: p(Y|X,?兹)=■p(yn|xn,?兹)= ■■e■+■(1)式(1)中?兹={f,σ2,γ}是含未知参数的集合,XN×P=(x1,…,xN)T,YN×D=(y1,…,yN)T,Vn=f(xn).考虑到平滑性的约束,先验f可写为: p(f)∝e■(2)λ>0是正则化参数,||·||■■是RKHS H的范数. 结合式(1)和式(2),其后的分布p(?兹|X,Y)∝p(X|Y,?兹)p(f)估算出来. 为了得到最佳的θ,假设一个θ*为 θ*=arg max p(X|Y,?兹)p(f)(3)θ*对应真正的θ,从而得到f. 然后运用EM方法来讨论f减少对外点的影响. 2.2 EM方法EM算法分为两步,一是期望步骤,另一个是最大化步骤. 首先,将样点n赋予一个变量Zn∈{0,1},当Zn=1,代表高斯分布;当Zn=0,代表平均分布. 根据EM算法的标准步骤,并且忽略与θ独立的项,得到:Q(?兹,?兹old)=■■P(zn=1|xn,yn,?兹old)||yn-vn||2-■ln?滓2■P(zn=1|xn,yn,?兹old)+ln(1-γ)■P(zn=0|xn,yn,?兹old)+lnγ■P(zn=1|xn,yn,?兹old)-■||f||■■ (4)可以通过把Zn视为混合模型中缺失的数据来实现最大化. 期望步骤:P=diag(P1,…,Pn),其中Pn=P(zn=1|xn,yn,?兹old)可以通过贝叶斯法则来计算: Pn=■ (5)最大化步骤:定义修正的参数估计为θnew,θnew=arg maxθQ(θ,θold).考虑到P是对角矩阵,将Q(θ)对σ2求导并置为零,得到: ?滓2=■其中tr(·)是矩阵的迹. 将Q(θ)对γ求导并置为零,得到: ?酌=■高斯部分的混合系数γ通过后验概率的均值得到. EM算法收敛后,应该对样点是否为内点做一个判断. 设定阈值τ,可以得到内点集T={n|Pn>τ,n=1,…,N},这个集合T就是随机采样一致性中的一致性. 2.3 向量场正则化考虑到式(4)中Q与f相关的项,并把它们乘以-1,得到一个能量函数: ?着(f)=■■Pn||yn-f(xn)||2+■||f||■■这个能量函数是一个吉洪诺夫正则化的向量值的推广,其中第一项可以看成是权值经验误差. 使用向量值表现定理,对f的最优化有如下形式: f(x)=■Γ(x,xn)cn系数cn由一个线性结构决定(■+?姿?滓2■-1)C=■,其中,矩阵核■和■是N×N的分块矩阵,每个块是一个D×D的标量矩阵. ■的第 (i,j)个块是■(xi,xj). ■=P?茚ID×D其中?茚表示了矩阵张量积.cn∈RD×1,C=(cT1,…,cTN)T,■=(yT1,…,yTN)T是D×N维的向量. 另有VFC的具体算法可参考文献[6].3 稳像步骤及实验结果利用SIFT算法计算帧间图像的关键点,以及匹配点对.结合VFC优化算法,去除误匹配,根据准确的帧间匹配关系估算出全局运动向量.由全局运动向量估算出运动补偿向量并校正每一帧图像的相对位置,从而输出稳定视频. 从一段较为抖动的视频图像中,选取了4张连续帧图像进行特征匹配实验. 图1是平直公路上汽车行驶,由于后方拍摄工具的不稳定而引起的视频抖动,从视频中提取前4帧图像,分别对图像帧进行SIFT特征提取后和VFC的优化算法去除误匹配,能够得到如图2所示两两之间较为准确的匹配关系. 图1 抖动视频中4张连帧图Fig.1 Four successive frames of the shaky video图2中的4帧图像里,分别对1&2、1&3、1&4进行了匹配,从而可以得到帧间运动向量,即可获知两帧图像之间的相对运动,然后就可以估计出运动补偿图像. 图3中可以看出,由局部到整体,多张运动补偿图像帧即可输出稳定视频图像. 图2 图像帧之间的匹配关系Fig.2 The matching relationship between image frames图3 处理合成后的稳定帧Fig.3 Composite steady frame4 结 语基于SIFT特征匹配与VFC优化算法的稳像技术,主要针对运动估计过程,将帧间图像的匹配达到高精度而得到清晰的输出视频. 在实时性与高精度两者间取得了较为合适的搭配,各取所长、不失偏颇,也是处理视频抖动研究中一个小的进步. 当然,不足之处在于还未与其他方法作直观的对比,和未对实验结果进行更为客观的评价,如帧间保真度、峰值信噪比,并且时间复杂度相对较大,这些问题将在之后作进一步研究. 致 谢感谢湖北省教育厅对本研究的支持!