文章

《武汉工程大学学报》 2015年09期 45-49 出版日期：2015-09-30 ISSN:1674-2869 CN:42-1779/TQ

ＳＩＦＴ特征匹配和ＶＦＣ算法的电子稳像技术

０　引　言近年来，稳像技术得到广泛的应用，无论是航空、车载、船舰上，为了获得清晰不晃动的视频，稳像技术都可以用来消除载体不稳定所引起的视频抖动［１］. 稳像技术一般分为三种：机械稳像、光学稳像和电子稳像，从各方面的考虑，包括体积小、操作方便、可移植性强、实时性等，电子稳像技术得到更多的普及. 电子稳像技术大体分为三步：运动估计，运动滤波和运动补偿. 本文大部分的工作集中于运动估计中. 处理运动估计有基于灰度和基于特征的方法［２］：基于灰度的方法可以得到精确的结果，但要处理所有的像素点而耗时太多；提取图像特征的方法处理速度快，然而精度又得不到保证. 对于特征匹配，可以查阅到丰富的文献资料，角点匹配，边缘模型匹配，ＳＩＦＴ点匹配，ＭＳＥＲ特征匹配，ＫＬＴ特征追踪等［３］，在处理较为模糊的图片时，ＳＩＦＴ点匹配的优势就更为明显. 在匹配的过程中，消除产生的误匹配，很多用到最小二乘法，然而当数据里有很多外点的情况，该方法处理得并不好. 在此，就用到向量场优化算法，向量场一致性是在希尔伯特空间中基于吉洪诺夫正则化，保持向量场的平滑性. 在贝叶斯框架下，将每个样点与潜在变量相结合来判断是否为内点，然后构建成后验概率问题，通过ＥＭ算法求解. 运动估计过程由局部向量估计得到全局运动向量，就可以进行运动滤波和运动补偿，从而得到稳定清晰的输出图像［４］. １　ＳＩＦＴ算法的实现　　尺度不变特征转换能够从图像中提取高度独特的不变特征，这些特征被用在不同的图像里针对相同对象进行匹配. 最初提取这些特征是为了对象识别：将样例图片中检测到的特征与由众多不同视角中提取的特征而组成的数据库进行匹配. ＳＩＦＴ算法需要获得全方位的大量特征，主要阶段是对一系列的图像特征的计算：尺度空间极值检测、关键点的精确定位、方向赋值、描述算子的计算［５］. 实施的第一步是建立一个尺度空间金字塔，将输入帧进行重复滤波化和下采样. 处理过程中，两个连续的高斯分布被一个常量ｋ＝■分开，每个八度图计算５幅图像，将会得到４张高斯差分图，因此，就可以在两张不同的图像中找到极值. 定位了每一个关键点之后，进行对比，然后通过Ｈａｒｒｉｓ边缘检测. 对比阈值和边缘检测算子都会影响最终关键点的个数，成功的关键就是如何去除定位不准的特征或者不稳定的点. 图像处理中，避免不稳定的特征非常重要，运动估计算法需要高度独特的特征，而误匹配往往会影响算法的准确性. 对于去除误匹配，这里用到向量场一致性算法［６］（ＶＦＣ）.2 基于ＶＦＣ的去除误匹配最小二乘法经常被用来处理去除特征的外点，但是当外点过多时，处理效果不甚明显. ＶＦＣ算法有很强的鲁棒性，能够处理含９０％外点的特征图像. ２．１　问题公式化给定一个输入输出对的集合，Ｓ＝｛（ｘｎ，ｙｎ）∈Ｘ×Ｙ｝■■，通过一个随机的向量场，该向量场包含一些未知的外点，其中Ｘ?坳ＲＰ，Ｙ?坳ＲD分别是输入空间和输出空间. 目的是将外点从内点中区分开来，由一个映射ｆ：Ｘ→Ｙ，可以得到满意的内点，其中ｆ∈Ｈ，假设Ｈ是一个再造核的Ｈｉｌｂｅｒｔ空间. 在此做一个假设，关于内点，是一个均值为０，标准差为σ的高斯噪声；对于外点，输出在一个有界的区域ＲD，因此外点的分布为平均分布■，其中ａ是一个常量. γ为内点的百分比，内点和外点的分布模型如下：ｐ（Ｙ｜Ｘ，?兹）＝■ｐ（ｙｎ｜ｘｎ，?兹）= ■■e■+■（１）式（1）中?兹={ｆ,σ2,γ}是含未知参数的集合，ＸＮ×Ｐ＝（x１，…，xＮ）Ｔ，YＮ×Ｄ＝（y１，…，yＮ）Ｔ，Ｖｎ＝ｆ（xｎ）．考虑到平滑性的约束，先验ｆ可写为：ｐ（ｆ）∝e■（２）λ＞０是正则化参数，||·||■■是ＲＫＨＳ H的范数. 结合式（１）和式（２），其后的分布ｐ（?兹｜Ｘ，Y）∝ｐ（Ｘ｜Y，?兹）ｐ（ｆ）估算出来. 为了得到最佳的θ，假设一个θ*为 θ*=arg max ｐ（Ｘ｜Y，?兹）ｐ（ｆ）（３）θ*对应真正的θ，从而得到ｆ. 然后运用ＥＭ方法来讨论ｆ减少对外点的影响. ２．２　ＥＭ方法ＥＭ算法分为两步，一是期望步骤，另一个是最大化步骤. 首先，将样点ｎ赋予一个变量Ｚｎ∈｛０，１｝，当Ｚｎ＝１，代表高斯分布；当Ｚｎ＝０，代表平均分布. 根据ＥＭ算法的标准步骤，并且忽略与θ独立的项，得到：Ｑ（?兹，?兹ｏｌｄ）＝■■Ｐ（ｚｎ＝１｜xｎ，yｎ，?兹ｏｌｄ）｜｜yｎ－vｎ｜｜２-■ln?滓２■Ｐ(ｚn=1|xｎ，yｎ，?兹ｏｌｄ)+ln(1-γ)■Ｐ(ｚn=0|xｎ，yｎ，?兹ｏｌｄ)+lnγ■Ｐ(ｚn=1|xｎ，yｎ，?兹ｏｌｄ)-■||ｆ||■■ （４）可以通过把Ｚｎ视为混合模型中缺失的数据来实现最大化. 期望步骤：Ｐ＝ｄｉａｇ（Ｐ１，…，Ｐn），其中Ｐn=Ｐ（ｚn=1|xn,yn,?兹old）可以通过贝叶斯法则来计算：Ｐn=■ （５）最大化步骤：定义修正的参数估计为θｎｅｗ，θｎｅｗ＝ａｒｇｍａｘθＱ（θ，θｏｌｄ）．考虑到Ｐ是对角矩阵，将Ｑ（θ）对σ２求导并置为零，得到： ?滓2=■其中ｔｒ（·）是矩阵的迹. 将Ｑ（θ）对γ求导并置为零，得到： ?酌=■高斯部分的混合系数γ通过后验概率的均值得到. ＥＭ算法收敛后，应该对样点是否为内点做一个判断. 设定阈值τ，可以得到内点集Ｔ＝｛ｎ｜Ｐn＞τ，ｎ＝１，…，Ｎ｝，这个集合Ｔ就是随机采样一致性中的一致性. ２．３　向量场正则化考虑到式（４）中Ｑ与ｆ相关的项，并把它们乘以－１，得到一个能量函数： ?着（ｆ）＝■■Ｐｎ｜｜yｎ－ｆ（ｘｎ）｜｜２＋■｜｜ｆ｜｜■■这个能量函数是一个吉洪诺夫正则化的向量值的推广，其中第一项可以看成是权值经验误差. 使用向量值表现定理，对ｆ的最优化有如下形式：ｆ(x)=■Γ(x，xn)cn系数cｎ由一个线性结构决定（■＋?姿?滓２■-1）Ｃ＝■，其中，矩阵核■和■是Ｎ×Ｎ的分块矩阵，每个块是一个Ｄ×Ｄ的标量矩阵． ■的第（ｉ，ｊ）个块是■（ｘｉ，ｘｊ）． ■=P?茚ID×D其中?茚表示了矩阵张量积.cn∈RD×1，C=（cT1,…,cTN）T，■=（yT1,…,yTN）T是Ｄ×Ｎ维的向量. 另有ＶＦＣ的具体算法可参考文献［６］.3　稳像步骤及实验结果利用ＳＩＦＴ算法计算帧间图像的关键点，以及匹配点对.结合ＶＦＣ优化算法，去除误匹配，根据准确的帧间匹配关系估算出全局运动向量.由全局运动向量估算出运动补偿向量并校正每一帧图像的相对位置，从而输出稳定视频. 从一段较为抖动的视频图像中，选取了４张连续帧图像进行特征匹配实验. 图１是平直公路上汽车行驶，由于后方拍摄工具的不稳定而引起的视频抖动，从视频中提取前４帧图像，分别对图像帧进行ＳＩＦＴ特征提取后和ＶＦＣ的优化算法去除误匹配，能够得到如图２所示两两之间较为准确的匹配关系. 图１　抖动视频中４张连帧图Ｆｉｇ．１　Ｆｏｕｒｓｕｃｃｅｓｓｉｖｅｆｒａｍｅｓｏｆｔｈｅｓｈａｋｙｖｉｄｅｏ图２中的４帧图像里，分别对１＆２、１＆３、１＆４进行了匹配，从而可以得到帧间运动向量，即可获知两帧图像之间的相对运动，然后就可以估计出运动补偿图像. 图３中可以看出，由局部到整体，多张运动补偿图像帧即可输出稳定视频图像. 图２　图像帧之间的匹配关系Ｆｉｇ．２　Ｔｈｅｍａｔｃｈｉｎｇｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｉｍａｇｅｆｒａｍｅｓ图３　处理合成后的稳定帧Ｆｉｇ．３　Cｏｍｐｏｓｉｔｅ sｔｅａｄｙｆｒａｍｅ４　结　语基于ＳＩＦＴ特征匹配与ＶＦＣ优化算法的稳像技术，主要针对运动估计过程，将帧间图像的匹配达到高精度而得到清晰的输出视频. 在实时性与高精度两者间取得了较为合适的搭配，各取所长、不失偏颇，也是处理视频抖动研究中一个小的进步. 当然，不足之处在于还未与其他方法作直观的对比，和未对实验结果进行更为客观的评价，如帧间保真度、峰值信噪比，并且时间复杂度相对较大，这些问题将在之后作进一步研究. 致　谢感谢湖北省教育厅对本研究的支持！