开题相关心得
前言
针对“基于机器视觉的运动目标特性分析及识别方法研究”这一题目,在知网、百度学术、Sci-Hub等网络知识平台,以及部分专利网站搜集了相关方向的文献资料后,对其进行了归纳总结,以期为后续论文开题及课题研究作铺垫。
通过分析论文摘要、关键词,快速了解全文的研究重心和工作方法。此外,对硕士、博士、期刊、专利等不同类别的文章作了简要的分析对比,对相关研究方向和领域也有了新的认识。
正文
涉及知识点概要
运动目标检测与跟踪是指在目标的运动信息未知的条件下,通过光学传感器采集的图像信息,分析出该目标的相关信息。目标检测是通过相关算法,得到有用的运动目标信息,是目标跟踪实现的基础。目标跟踪是在该基础上,在帧与帧之间建立运动目标的某些特征如位置、速度、纹理、颜色、形状等之间的联系,分析其运动状态。运动目标的检测算法主要是针对背景数据的建模与模型更新,而跟踪算法主要是针对目标数据的建模与模型更新。
运动目标分类方法主要分为三类:基于目标静态特征的分类、基于目标运动特性的分类和两种方法的结合。在现今的研究中还不存在通用检测方法,即还没有一种针对不同环境都能检测出完整动态目标区域的检测方法。并且当运动目标发生遮挡或重叠时也不能提取到独立完整的目标区域。一个成功的目标分类方法应该同时具备实用性、实时性以及鲁棒性。运用机器学习进行图像中的目标识别与分类主要有两个核心点:目标特征的提取和分类器的训练,选择合适的特征对于目标识别的准确率至关重要。
- 常应用到的图像特征包括颜色特征、纹理特征和形状特征等。颜色特征是一种应用广泛的视觉特征,其对于图像本身的尺寸,方向和视角的依赖性小,特征提取容易,常用的表达颜色特征的方法有颜色直方图,颜色集等;
- 纹理特征刻画了像素的领域灰度空间分布规律,根据目标物体纹理信息差异进行识别分类,表达纹理特征的方法有 LBP 特征,Gabor 特征等;
- 形状特征是指目标物体的边缘形状,长宽比,面积大小等几何特征,根据形状的不同来进行目标的分类,表达形状特征的有 Haar 特征,SIFT 特征,HOG 特征等。
图像处理基础知识:灰度化、二值化、滤波、形态学处理、压缩、分割等等,常借助opencv开源库进行处理。
运动目标检测主要方法:光流法、帧差法、背景差分法。
在常见的基于视频序列运动目标检测方法中,帧差法是取前一帧序列图像将其作为参考图像,然后后一帧与其进行差分计算并阈值化得到运动区域。它的特点是时间复杂度较低并且运算比较简单,是最简单的运动目标检测方法,在实时检测的系统中运用广泛,但也具有一定局限性,对于速度缓慢的运动物体很容易检测出空洞,并且需要保证帧间的背景是静止一致的。鉴于帧差的不足,有许多学者在帧差法的基础上提出了多帧差法比如三帧差、四帧差还有取不相邻的帧做帧差法等。
光流法通过计算速度场来区分运动目标和背景。其特点是既能适用于静态场景也能适用于场景变化的场景。由于计算量太大而造成实时性差使其无法应用到实际场景中。
背景差分法中最关键步骤是建立背景模型并根据当前帧信息实时更新。它的特点是可以提取较为完整的运动目标,但是该方法对场景变化十分敏感,因此当场景中出现光照、水波反射等变化很容易在检测效果图中出现伪运动点。从整体上来说该类方法能够得到比较完整的运动目标信息并且思路清晰操作简单,因此在当前的研究中都得到广泛的应用。其中,高斯混合模型是一种多背景模型的背景差分方法,具有较好的适应性并且能较好地建立和更新背景模型 。
可用的数据集有:行人数据集INRIA Person Dataset,机器视觉汽车图像检测数据集Computer vision opencv car dataset,大型物体检测数据集COCO,自动驾驶数据集Cityscapes,具有目标类别语义标签的视频集CamVid等。
硕士论文
在近十年的硕士论文中,简单场景下,对于运动目标检测,一般利用改进Vibe(Visual Background Extractor,视觉背景提取)算法,可有效地消除鬼影和阴影现象;利用改进KCF(Kernelized Correlation Filter,核相关滤波)算法和SiamRPN 算法,可对模型自适应更新,提高精度及综合性能;使用 PCA(Principal Components Analysis)算法对特征向量进行降维以缩短检测时长。
对于识别和分类,一般借助SVM(Support Vector Machine,支持向量机)分类器对HOG(Histogram of Oriented Gradient,方向梯度直方图)特征训练,对人和车辆快速识别。采用Sage-Husa(自适应卡尔曼滤波)进行改进,提出防止滤波发散的方法,减少估计误差,提高估计准确性和实时跟踪性能 。或是先利用ACF (Aggregated Channels Feature)算法检测图像中的行人和车辆,然后利用基于CNN(卷积神经网络)模型对目标再次识别筛选提高图像目标检测的准确率,并结合MSER算法提取运动目标区域。
在复杂动态场景下,对目标的识别还会存在光照变化、姿态变化、遮挡等问题,计算量大,一般利用基于帧差分块和自适应学习率的GMM(混合高斯模型)改进算法、基于自适应子空间学习的粒子滤波跟踪算法,结合 Mean Shift (均值偏移)聚类算法,使其提高检测灵敏度,具有适应目标外观快速变化的能力。
博士论文
在最新的一些博士论文中,还提出了:
- 一种结合深层特征与鲁棒特征融合的孪生卷积神经网络目标跟踪算法;
- 一种高效的自适应多层特征融合策略;
- 一种前景信息引导的孪生卷积神经网络目标跟踪算法;
- 一种联合改进局部纹理特征和辅助重定位的生成式跟踪算法;
- 一种基于动态空间正则化和目标显著性引导的相关滤波跟踪算法;
- 一种多特征耦合和尺度自适应的相关滤波跟踪算法;
……
相比于硕士学位论文,博士论文更加偏向于理论方向的研究,相关知识体系更加深入,研究内容也更加具体。另外还有对运动人体进行特征分析的算法,包含了对外形、肤色、姿态等不同特征的匹配。同时也注意到,近几年的硕士论文与早期的博士论文研究内容有许多共通之处,侧面反映出如今硕士毕业生对专业认知有了更高要求。
此外,将机器视觉与毫米波雷达结合来进行对车辆与行人的检测,可有效提高行人检测的准确性和可靠性。对于多传感器的信息融合,由于各传感器返回的数据表征目标不同的特征信息,因此需要对多源信息进行多层次多步骤的分析融合,根据融合时传感器数据的抽象程度,可将融合层次划分为三个等级:数据级、特征级以及决策级。
- 数据层的融合就是直接将各传感器返回的数据融合,可以保留原始数据的所有目标信息,避免信息损失,但因此也会造成信息处理和通信量巨大、分析时间长、实时性差等问题。
- 决策级的信息融合是将各传感器返回的目标数据进行预处理以及特征提取,得到各自的决策结果,再将结果进行整体的分析融合。在该层次进行信息融合时信息量和数据传输量都较小,但是存在较高的处理代价。
- 特征层的融合需要对各传感器的原始信息进行数据处理,提取出特征信息,再进行特征级的融合。该层次的融合兼顾了信息损失和抗干扰能力等方面,对以上两种层次的融合进行了优势互补,融合效果较好。
期刊论文及专利
期刊论文和专利文章一般篇幅有限,且期刊为了节省版面,大多采用双栏排版。关于运动场景目标识别,期刊文章多数是研究某一点,根据现有的工具和算法,提出一种或两种改进优化方法,其中有几篇内容比较新颖,如“针对雨雪天气条件下的运动目标检测受到天气的影响较大,提出一种融合全变分正则化和约束鲁棒主成分分析模型的视频序列运动目标检测算法”。此外,更多文章写的是当前领域研究综述,其中大多是结合市场热门行业应用进行分析。期刊文章的质量参差不齐,需要自行辨别,一般而言,核心期刊的文章相对而言可读性更高,这一点从本次搜集查找的论文资料可以比较直观地看出来。
结束语
根据本周阅读的文献资料来看,目前大部分“运动目标特性分析及识别方法研究”都是基于图像本身进行分析,少有从运动学和动力学方面考虑的文章,这方面是下一阶段的学习重点,我会在继续研究该分类文献的同时,拓展自己的知识面,希望能将两部分联系起来,产生一些新的思路。