近日,我校计算机科学与技术学院2020级研究生赵浩良同学在IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023 (计算机学会推荐CCF A 类、人工智能领域国际顶级会议)上发表题为“High-frequency Stereo Matching Network”的研究论文。这是我校首次以开云手机入口,开云(中国)为第一单位在CVPR上发表论文,第一作者为我校2020级研究生赵浩良,该文在CVPR2023中获得554的评审高分并被选为Highlight(亮点论文,入选率为2.5%)。该论文通讯作者为我校计算机科学与技术学院张永军老师,合作单位有北大深圳研究生院等。
CVPR是全球人工智能和计算机视觉领域顶级国际会议,有着计算机视觉领域“奥斯卡”的美誉。在谷歌学术Google Scholar指标2021年和2022年列出的全球最有影响力的科学期刊/会议中,CVPR均位列第四,仅次于《自然》《新英格兰医学杂志》《科学》。
双目视觉立体匹配算法是智能机器人、自动驾驶、无人机导航、以及智慧机器人导航等产业AI应用的关键算法,对于计算机视觉领域和三维立体感知等AI技术,具有十分重要的意义。本文根据长距离的像素依赖性与高频信息特征设计了一个基于解耦LSTM和归一化细化的双目立体匹配算法,简称DLNR。DLNR在全球双目视觉算法最权威、最专业的Middlebury Evaluatio排行榜上,从2022年11月至今一直排名第一,平均错误率比次好的算法(EAI-Stereo)提升了13.04%。EAI-Stereo算法也是张永军老师作为通讯作者,赵浩良同学为第一作者,开云手机入口,开云(中国)为第一单位发表在亚洲计算机视觉顶级会议(ACCV 2022)上的论文,该算法超过了包括谷歌HITNet、普林斯顿RAFTstereo、牛津大学的GANet、东京大学LocalExp等算法性能。
算法实时排名如下图所示(截止2023年7月7日):
在双目立体匹配领域,RAFT-Stereo和CREStereo等迭代方法已经取得了显著进展。然而,这些方法在迭代过程中都会丢失大量的高频信息如纹理、颜色变化、边缘等,这会产生相对模糊和缺乏细节的视差图。本文提出了解耦LSTM模块来缓解数据耦合的问题,并在迭代过程中尽可能保留特征图中的高频率信息,消融实验证明采用这种方法很大程度上缓解了数据耦合导致高频率信息丢失的问题。为了进一步捕捉高频细节,本文提出了一个归一化细化模块,将视差归一化为视差占图像宽度的比例,这解决了跨域情况下的模块失效的问题。此外,对算法进行上述改进后,多年来没有改变的类ResNet的特征提取器成为了瓶颈。为此,本文提出了一种多尺度和多阶段的特征提取器,它引入了通道式自注意力机制,大大解决了这一瓶颈问题。
本文主要工作如下:
(1)引入了归一化细化模块。极大的改善了细化模块应对不同视差范围的问题并增强了模型的泛化性能。
(2)提出了通道注意力Transformer特征提取器以捕捉长距离的像素依赖性并保留高频信息。实验证明,使用该特征提取器,极大的提高了在弱纹理区域和反射区域的性能。
(3)提出了一种高效的迭代更新模块来有效地结合来自特征提取、代价卷和当前状态的多尺度信息,从而增强每次迭代之间的信息传递。
DLNR网络结构图如下:
论文链接: