Review of Course Computer Vision Lecture 8:Feature Descriptor and Matching

Review of Course Computer Vision Lecture 8:Feature Descriptor and Matching

January 04, 2024

为期末考试复习做个准备。

总文章地址

Lecture 8: Feature Descriptor and Matching

在检测出关键点后,我们需要用一个向量去描述关键点,这样利用向量的相似性进行匹配。

这个向量我们称之为描述符,其需要满足两个条件:

  1. Invariance:不会随着光照等条件的变换而变换。
  2. Discriminability:和不是该关键点的描述符相差较大。

一些简单的想法,比如直接用这个像素点,或者用其邻域,但实际上这些也就只能保证平移不变性。

MOPS

MOPS, Multiscale Oriented Patches descriptor。

如何选取方向呢?

一个思路是,选取特征点对应的 Hessian 矩阵中最大的特征值对应的特征向量方向;另一个思路是简化平滑后的梯度方向。

根据这个方向,我们旋转该特征点相关的窗口,这样就能获得一个旋转不变性的窗口了。

具体来说,以特征点为中心选择一个 $40\times 40$ 的窗口,根据上述的方向旋转到水平位置,然后利用滤波器采样成 $8\times 8$ 的窗口,再对窗口进行灰度化,即先全部减去均值,再除以标准差。这样就让窗口变成了零均值且方差为 $1$ 了,保证了仿射不变性。

SIFT

SIFT, Scale Invariant Feature Transform。

SIFT 以特征点为中心选取一个与尺度有关的窗口,同样通过上述的求角度方法旋转。然后划分成 $4\times 4$ 的部分,将 $360^{\circ}$ 划分成 $8$ 份,每个部分用直方图统计出每份的权重,这样就有 $128=4\times 4\times 8$ 个维度,于是就得到了特征向量。但为了去除一些不可靠的光照因素,这些光照因素会导致梯度极大,所以我们先对特征向量归一化后,再将 $>0.2$ 的部分取为 $0.2$,再做归一化而保证了光照不变性。

具体实现上为了去除噪声的影响会复杂很多。

HoG

HoG, Histogram of Oriented Gradients。

HoG 是一个描述整个图像的算法,它在一开始同样采取了灰度化,然后同样将窗口划分成若干个小块,每个小块利用梯度方向直方图进行统计,然后得到特征描述向量。

和 SIFT 基本相似,只不过它描述的是整个图像,而且它的归一化是提前的,直接根据图像归一化。

Matching

匹配方式一般是,对于每个关键点,找 $L_2$ 距离最近和次近的关键点,以这两个距离的比例来判断是否匹配。

如何评估匹配效果?计算匹配正确的点对中满足 ratio distance 限制的比例以及匹配错误的点对中满足 ratio distance 限制的比例,前者是 recall,后者是 1-specificity。

ROC curve 是在改变 ratio distance 阈值下,上面两个值构成的曲线。

Alignment

Alignment 做的是图像配准的工作,即计算图像 A 经过什么样的变换可以得到图像 B。

在完成关键点匹配后,我们很容易算出平移变换的向量。

等价于要去最小化该函数。

实际上,写成矩阵形式后容易求出解析解,即

等价于最小化 $\Vert \mathbf{At-b}\Vert$,解出 $\mathbf{t=(A^{T}A)^{-1}A^{T}b}$。

类似地,可以完成对仿射变换的定义:

单应性变换也可以有类似的变换: