一、创新思路

刨根问底法

此种方法最为直接,即知其然也要知其所以然。如果你提的小改进使得结果变好了,那结果变好的原因是什么?什么条件下结果能变好、什么条件下不能?提出的改进是否对领域内同类方法是通用的?这一系列问题均可以进行进一步的实验和论证。你看,这样你的文章不就丰富了嘛。这也是对领域很重要的贡献。

移情别恋法

不在主流任务/会议期刊/数据集上做,而是换一个任务/数据集/应用,因此投到相应的会议或期刊上。这么一来,相当于你是做应用、而不是做算法的,只要写的好,就很有可能被接受。当然,前提是该领域确实存在此问题。无中生有是不可取的,反而会弄巧成拙。写作时一定要结合应用背景来写,突出对领域的贡献。

声东击西法

虽然实际上你就做了一点点提升和小创新,但你千万不能这么老实地说呀。而是说,你对这个A + B的两个模块背后所代表的两大思想进行了深入的分析,然后各种画图、做实验、提供结果,说明他们各自的局限,然后你再提自己的改进。这样的好处是你的视角就不是简单地发一篇paper,而是站在整个领域方法论的角度来说你的担忧。这种东西大家往往比较喜欢看、而且往往看题目和摘要就觉得非常厉害了。这类文章如果分析的好,其价值便不再是所提出的某个改进点,而是对领域全面而深刻的分析。

移花接木法

不说你提点,甚至你不提点都是可以的。怎么做呢?很简单,你就针对你做的改进点,再发散一下,设计更大量的实验来对所有方法进行验证。所以这篇paper通篇没有提出任何方法,全是实验。然后你来一通分析(分析结果也大多是大家知道的东西)。但这不重要啊,重要的是你做了实验验证了这些结论。典型代表:Google家的各种财大气粗做几千个实验得出大家都知道的结论的paper,比如ICLR’22这篇:Exploring the Limits of Large Scale Pre-training

二、期刊论文改进的特点总结

改进共性特点

  • backbone

  • neck

  • transformer

注意力机制

  • 2-4个不等创新点
  • 基于YOLOv5的居多
  • 创新点并不是特别复杂
  • CNNTransformer(ViT)结合的不少
  • 使用swin、bot等transformer
  • 改进基本上都是在YOLO框架上小改,backbone,neck,head,小幅改进
  • 应用在私有数据集 或者 垂直领域数据集
  • 增加检测层
  • 添加注意力机制(CBAM、SE、SA等)
  • 使用各种卷积模块(eg: Ghostbottleneck)
  • 使用其他loss函数,比如diou giou siou
  • 使用 ResNeSt、densenet、resnet等网络
  • 使用重参数化网络(Repvgg等)
  • 使用各种改进的金字塔池化,一般级别论文基本都是不同模块进行组合、级别高一点的期刊论文就需要自己改一些特有的结构,有自己的亮点

三、论文十问

Q1:论文试图解决什么问题?

RAFT-Stereo 提出了一种新的双目立体匹配框架,其未使用三维卷积,也未使用级联的方式进行特征提取,而是从Recurrent allpairs field transforms for optical flow 这篇论文中得到启发,使用GRU updates进行迭代从而寻找到匹配像素。该论文旨在解决 RAFT-Stereo 中 all-pairs correlations lack non-local geometry knowledge and have difficulties tackling local ambiguities in ill-posed regions 的问题。

Q2:这是否是一个新的问题?


Q3:这篇文章要验证一个什么科学假设?

证明其添加模块的有效性

Q4:有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?


Q5:论文中提到的解决方案之关键是什么?

采用与GwcNet相同思路的组建相关性代价体

Q6:论文中的实验是如何设计的?

消融实验,证明三个模块的有效性:

img

同其他网络的performance作对比:

img

Q7:用于定量评估的数据集是什么?代码有没有开源?

secenflow kitti2015 Middlebury 等。

Q8:论文中的实验及结果有没有很好地支持需要验证的科学假设?

有,消融实验证明了添加模块的有效性。

Q9:这篇论文到底有什么贡献?

图片

现有的先进的双目立体匹配方法,主要分为基于代价滤波的方法以及基于迭代优化的方法(以RAFT为代表)。前者可以在cost volume中编码足够的非局部几何和上下文信息,这对于具有挑战性的区域中的视差预测至关重要。后者可以避免进行3D代价聚合所需的高计算和内存成本,但是仅基于All-pairs Correlations的方法在病态区域的能力较弱。

为了结合这两种方法的互补优势,论文提出了一种新的立体匹配范式——迭代几何编码体 (Iterative Geometry Encoding Volume, IGEV-Stereo)(如上图所示),其结合了更全面和精炼的几何和上下文信息,论文的主要贡献如下:
1.为了解决病态区域引起的模糊性问题。论文使用一个极轻量级的3D正则化网络对cost volume进行聚合和正则化,得到一个几何编码体(GEV)(结果如上图c所示),与RAFT-Stereo的All-pairs Correlations(结果如上图b所示)相比,GEV在聚合后编码了更多的场景几何和上下文信息。
2.为了解决边界和微小细节处出现过度平滑的情况。论文将GEV和RAFT中的All-pairs Correlations相结合,形成了组合几何编码体 (Combined Geometry Encoding Volume, CGEV),并输入到 ConvGRU-based update operator 中进行迭代视差图优化(结果如上图d所示)。

Q10:下一步呢?有什么工作可以继续深入?

论文使用一个轻量级的3D CNN来过滤cost volume并获得GEV。然而,当处理显示出较大视差范围的高分辨率图像时,使用3D CNN来处理由此产生的大尺寸 cost volume仍然会导致较高的计算和内存成本。未来的工作包括设计一个更轻量级的正则化网络。此外,论文还将探索利用cascaded cost volumes,使本文的方法适用于高分辨率图像。