一、Bitblt()函数与掩码图像制作(论文文献综述)
陈骞[1](2021)在《基于单目视觉引导的托盘拾取方案实现》文中指出在制造、物流领域存在大量的货物搬运,托盘码放是最主要的储货方式,拾取托盘的工业搬运车辆称为叉车,叉车需要准确拾取堆货的托盘,安全运载到制定地点,最后平稳卸下托盘。目前自动引导叉车主要装置精度高,但价格昂贵的激光、射频传感元件。本文选择单目可见光摄像头,设计并实现一种满足精准要求、实时判定、高鲁棒、低成本、可拓展性强的托盘拾取方法,主要内容包括:(1)针对无人车作业的特点,对托盘、货物和工人进行检测,获取目标大致位置。使用可见光相机采集无人车作业场景,将托盘、货物和工人作为标签制作数据集。基于YOLOv4深度学习目标检测算法,训练网络模型再进行测试。精确率高、处理每帧图像耗时短,能够满足实时。(2)基于Siammask网络在拾取过程中对托盘进行目标跟踪,调整YoutubeVOS-2019公开数据集用于本文单目标跟踪网络训练,并在此数据集的基础上添加本文托盘数据样本。根据网络输出的掩码判断目标托盘的图像区域和大致位姿。(3)就Siammask网络存在被同样形状、颜色、摆放方向的非跟踪目标托盘造成干扰的问题,根据本文特点结合已知的行驶移动或转动速度,建立世界坐标与图像坐标的转换,估算在当前帧的图像内目标托盘位置,以此截取图像作为Siammask网络输入。并引入位置权重修Siammask网络位置得分判定,极大降低预测到非跟踪目标干扰托盘的可能性,最终解决问题。(4)将Siammask网络输出的掩码进一步处理,筛选得到托盘像素。膨胀、高斯滤波后经过Canny算子提取轮廓。Hough变换获取托盘待上表面直边轮廓的候选直线,根据前一帧上图像目标直边的斜率或当前掩码最小外接矩形斜率,减小Hough变换的角度遍历范围。再结合本文托盘直边轮廓像素特点进行聚类、筛选,得到该图像帧内的目标托盘上表面边缘,用于行驶判定。(5)实验车以树莓派4B作为主板,安装麦克纳姆轮,封装实验车移动、转动指令。实验车为客户端,个人计算机为服务器,建立TCP连接。将实验车摄像头画面实时传递给个人计算机,个人计算机处理图像做出判定,实时反馈给实验车行驶指令,实验车接收并执行。从相对目标托盘的多个位置出发进行实验。实验结果表明,仅依靠单目可见光相机的图像信号,能够实时高效地判定行驶方向;在有人员靠近时,能够即停等待保证安全;实验车能够从相对目标托盘的各个方位出发,以较优路径完成托盘拾取流程且成功率高。且成本低、灵活、便于集成化,具有应用价值。
李晓冬[2](2021)在《基于卷积网络的手部姿态与形状估计方法研究》文中认为随着科学技术的进步以及生活质量的提升,人们渴望更加方便、快速、有趣地进行人机交互,手部姿态估计和形状估计有望实现无接触的人机交互。随着人工智能的发展和5G技术的商用,利用深度学习估计手部姿态和形状成为可能,大量研究者尝试利用深度图像和彩色图像估计手部姿态与形状,并取得了令人欣喜的成绩。但当前的手部姿态及形状估计方法仍有提升空间,十分有必要对此展开研究。本文的研究工作如下:(1)深度图像自带深度信息,基于深度图像估计得到的手部姿态精度很高。对传统基于深度图像的手部姿态估计任务而言,其流程可以总结为手部特征提取、手部特征转换为手势特征,以及手势特征转换为手部姿态三个步骤。这个流程是一次性完成的,且仅在网络输出端提供约束,没有直接约束流程中的三个步骤。针对这一问题,本文给出一种手势隐空间引导的姿态估计方法,该方法将不可控的手部姿态估计任务分为三个可控的子任务:手势隐空间获取、手部隐空间获取,以及手部隐空间转换为手势隐空间,并根据三个子任务的特点给予了约束,使得整个姿态估计过程可控。计算机仿真实验结果表明,本文方法在多个常用公开数据集上达到了较高的精度。(2)深度摄像头功耗较大、价格较高。随着智能设备的普及,双目彩色图像越来越容易获取。本文设计了一种基于双目深度估计的手部姿态估计方法。传统深度估计网络需要深度图像真值约束才能达到良好的精度,该方法以弱监督方式训练深度估计网络,不需要深度图像真值约束。计算机仿真实验结果表明,在公开的双目手部数据集上,本文方法估计出的手部姿态的精度与最新方法相当,估计出的深度图像接近由主动式深度传感器获取的深度图像,优于传统基于立体匹配获得的深度图像。(3)在某些需要获得接触信息的特定场景,仅能使用单目彩色图像估计手部形状和姿态。当前基于单目彩色图像估计手部形状的方法十分依赖于手部形状标注,而手部形状标注的获取代价很高。针对这一问题,本文设计了一种基于弱监督方式训练的方法,减轻了网络对于手部形状标注的依赖。首先,在包含手部形状标注的大型数据集Freihand上以全监督方式训练网络,以获得丰富的手部形状先验。然后,以弱监督方式训练网络,将在Freihand数据集上学到的手部形状先验迁移到新场景中。计算机仿真实验结果表明,在多个公开的手部数据集上,本文方法可以估计出合理的手部形状,且估计精度接近最佳方法。
龙坤[3](2021)在《医疗图像小目标检测与分割研究》文中提出计算机辅助检测与分割在临床实践中具有广泛应用。在这些应用中,大尺寸的目标可以获得较好的检测分割效果,但是像早期肿瘤检测,血管斑块分割等属于小目标范畴的检测与分割效果却不尽人意。医疗图像小目标检测与分割存在待检测目标面积小,小目标可提取特征少,易受噪声干扰等问题。目前专门针对这些问题的研究工作还比较少,因此探究如何改进主流的检测与分割算法使之可以有效进行医疗图像小目标检测与分割,是当前一项重要的研究方向。目前存在许多基于深度学习的检测与分割算法,其中Mask R-CNN作为一种可以同时完成检测与分割工作的深度学习框架,在医疗图像领域有着广泛应用。该框架检测一般的大目标可以取得较好效果,但是在医疗图像小目标检测与分割问题上尚存在特征提取能力弱,候选框获取难度大,小目标特征利用困难等问题。本文主要对增强Mask R-CNN的特征提取能力,提升候选框获取精度和改进小目标特征利用方式等问题进行深入研究;提出了基于热力图的特征提取方式,基于概率的候选框提取方案和利用边缘信息的小目标分割手段。主要创新点如下:1.改进骨干网络,显着提升特征提取能力。在进行小目标检测与分割时,需要相比普通目标更强的特征才能获得较好的检测与分割效果。本文使用热力图模块对骨干网络的参数调整过程进行监督,使其获得更好的优化结果,同时使用该模块产生的热力图对骨干网络输出的特征图进行信号放大,进一步增强提取到的特征,便于后续的小目标检测与分割。实验表明该方法可以提取到更好的特征,同时能获得更好的小目标检测与分割效果。2.结合医学先验知识,基于概率提取目标候选框,缩小目标搜索范围。Mask R-CNN采用在图像上均匀预设候选框,然后估计候选框与目标框之间的误差的方式完成目标检测工作。这种方式在进行小目标检测时,容易导致目标框落在相邻两个候选框之间,无法完成检测框与目标框的匹配,导致检测丢失。本文采用非均匀的基于概率的候选框提取方案,在待检测目标出现概率高的区域提取更密集的候选框,从而提升候选框与目标框匹配的成功率。相比于Mask R-CNN的候选框提取方案,该方案可以提取到与目标框误差更小的候选框,对小目标检测的准确率也更高。3.利用边缘特征,提升小目标分割精度。在进行小目标分割时,可利用的特征较少,此时目标的边缘信息将成为分割目标的重点特征。本文通过边缘预测和边缘细分两个模块将目标的边缘信息加以利用,从而提升了对小目标的分割性能。边缘预测模块将目标的边缘特征显式地编码进网络结构中,然后通过一个专门的分支对目标的边缘形状进行预测,间接提升分割效果。边缘细分模块先生成一个粗糙的分割结果,再在这个结果的基础上对目标的边缘逐步细分,最终得到准确的分割结果。这两个模块可以有机地结合在一起,能够显着提升对医疗图像小目标的分割效果。
刘丹青[4](2021)在《基于深度学习的唐卡图像修复研究与应用》文中提出在大量图像数据集的支撑下,基于深度学习的图像修复模型能够更好地捕捉图像中隐藏的高级特征和深层结构,达到更贴近图像特点和人眼视觉的修复效果。结合基于深度学习的图像修复技术对唐卡图像不规则破损区域进行模拟修复,既能够保证修复的效率和质量,还可以避免给唐卡带来二次伤害,对实现唐卡的数字化保护有着重要的社会文化意义和学术实践价值。本文以唐卡的数字化保护为出发点,实现了深度学习在唐卡图像修复中的研究与应用,本文的主要工作如下:(1)目前少有权威公开的面向唐卡破损特性的掩码数据集和面向深度学习应用的规范化唐卡图像数据集,基于此本文提出构建了针对唐卡破损特性的不规则掩码数据集,并对唐卡资源库中质量较好的图像进行筛选预处理得到了适合深度学习应用的1666张规范化唐卡图像数据集。(2)针对传统方法修复唐卡不规则破损的局限性,基于唐卡的不规则掩码数据集,本文提出采用基于部分卷积的深度学习模型进行修复训练。针对唐卡图像数据集,提出微调策略,通过冻结编码网络的批量归一化层对模型进行改进训练,使模型在唐卡图像数据集上的总损失函数较微调初始阶段下降约0.25。以峰值信噪比、结构相似性、视觉信息保真度和修复耗时为评价指标,通过与TV模型、Criminisi算法和Patch Match算法进行大量的实验对比分析,结果表明,在唐卡图像数据集和面向唐卡破损特性的不规则掩码数据集的支持下,通过迁移学习的深度学习模型解决了传统方法应对唐卡不规则破损能力不足和修复速度慢的问题,修复结果更精准更符合唐卡图像特点。(3)针对模型修复唐卡图像弱纹理区域可能出现的明显修复痕迹,本文提出一种组合修复方法,在模型修复结果的基础上,使用Patch Match算法对该修复痕迹进行局部二次修复以提高唐卡图像的最终修复效果。经过实验对比,组合修复方案也得到了较理想的实验结果。(4)在一系列工作的基础上,从唐卡图像修复系统的功能和性能出发,完成了唐卡图像修复系统的需求分析和功能分析,设计实现的基于Web的唐卡图像修复系统能够满足唐卡图像修复效率和质量的要求。
谢昊洋[5](2020)在《高精度三维人体重建及其在虚拟试衣中的应用》文中研究说明三维人体和虚拟服装作为两种常见的三维模型,一直是计算机图形学和计算机视觉中重要的研究内容,已广泛应用于影视动画、三维游戏、服装设计、虚拟试衣、电子商务等领域。目前三维人体和服装建模仍主要依赖三维扫描或由具有专业知识的设计师利用建模软件手工设计,成本高、效率低,难以满足在线试衣等实时应用。虽然近年来有基于学习的方法可快速生成人体模型,但多关注于姿态估计,并未强调重建体型在人体测量学上的精度,而准确的三维人体往往是虚拟试衣、尺码推荐、服装设计等与服装相关应用的基础。本文旨在重建出高精度的三维人体模型并探索其在虚拟试衣方面的相关应用。为了量化评估重建出的三维人体模型在人体测量学上的精度,本文首先研究了适用于三维人体网格的分割算法,并在此基础上设计了一套完整准确的自动化三维人体关键点提取及特征尺寸测量方法。其次,本文从不同的角度分别提出了基于传统优化和图卷积神经网络的两种高精度非参数化三维人体重建方法。最后,本文在两种重建方法的基础上进行应用扩展,提出了一种可用于三维服装重定向的深度网络架构。具体来说,本文的主要研究内容和贡献包括:1)非刚性三维网格谱域分割。为了便于准确地提取出三维人体关键点,本文首先提出了在谱域中基于组合描述子的三维人体网格分割方法,设计了一种包含网格显着性的线性拉普拉斯算子,并融合了由显着性拉普拉斯谱计算的全局特征和局部特征以构建组合描述子,最后在谱域中通过谱聚类完成自动分割。在此过程中,本文设计了一种基于面的凹顶点过滤方法,在显着性判定中有效降低了噪声的影响,使得分割边界处于人体关节区域。此外,本文采用了一种自动判定分割数目的方法,且对于形状较为复杂的网格模型,也可交互式地确定多种合理的分割方式,提高了算法的实用性。与其它分割算法的定性和定量比较说明,本文方法对于包括人体在内的非刚性三维网格具有较好的分割效果,且对一定程度的噪声及拓扑变化鲁棒。在此基础上,本文也探索了该分割方法在骨骼提取及蒙皮方面的应用。2)三维人体关键点提取及特征尺寸测量。在人体分割的基础上,提出了一套完整的三维人体关键点自动检测及特征尺寸测量方法,为量化评估重建人体的精度提供了算法基础,且提取的关键点可作为后续重建算法的输入。利用分割后的三维人体,借助K-近邻、回归、骨骼提取、局部环切等多种技术和方法,直接从三维数据中提取关键点,并基于提取的关键点测量相关人体数据。依据本文方法,至少可以自动提取出22个关键点,其数量和质量均可满足服装领域多种测量要求。本文也与相关的人体测量方法进行了量化比较,不仅在多项测量尺寸上取得最优,测量精度亦满足GB/T23698-2009《三维扫描人体测量方法的一般要求》所规定的误差要求。此外,本文根据提取出的关键点进一步优化了三维人体的分割结果,分割边界可准确地位于提取到的关键点处,且边界也更为平滑。3)基于几何优化的结构一致性三维人体重建。本文利用传统的几何优化方法完成了非参数化高精度三维人体重建,所有重建模型不仅具有完全相同的拓扑结构,也具有真实的高频细节,且人体关键点具有相同的顶点索引。该方法在传统网格输入的基础上增加了稀疏关键点对应关系,其本质是利用数值优化方法,借助稀疏对应关系作为“硬约束”,通过设计良好的迭代方式、目标函数及相关参数,将模板人体准确地变形为目标人体。该方法对输入的目标人体不做过多要求,目标人体可以具有边界和孔洞,甚至可以是非二维流形,从而最大限度地保证了算法的适用性。4)基于人体测量图卷积网络的三维人体重建。本文也设计了一种非参数化人体测量图卷积神经网络,不依赖于任何参数化人体模型,只需输入人体掩码图像及少量的人体测量尺寸,即可显式地预测出三维人体顶点坐标。实验证明,通过将人体测量参数显式地融入本文的网络架构并辅以相应的损失函数,极大地提高了重建结果在人体测量学上的精度,也使得重建过程更加可控。通过对人体测量图卷积网络进行扩展,也可用回归某一参数空间的方式完成参数化重建。与其它基于深度学习的人体重建方法相比,本文方法在重建精度上有了大幅提升。此外,该方法也具备从单张图片重建完整三维人体的能力。在此基础上,我们也探索了本文方法在基于人体测量的体型设计方面的应用,可用少量的测量尺寸生成对应的人体模型。5)用于着装的三维服装重定向网络。虚拟试衣是三维人体的重要应用之一,如何高效地将虚拟服装穿在多样化的三维人体上并展示具有真实感的服装效果一直是虚拟试衣的研究热点。在前述两种人体重建方法的基础上,本文首先设计了一种基于几何优化的服装重定向方法,并以此生成了部分训练数据。其次,本文提出了一个用于服装重定向的双分支图卷积网络。该网络以人体掩码、测量尺寸和包含服装褶皱的手绘草图作为输入,采用联合训练的方式直接重建出无穿透的着装人体,且人体与服装均以独立网格模型表示。通过在基于物理仿真的数据上进行学习,该网络可以生成具有真实感的服装细节。相比于传统方法,算法效率极大提升,可满足实时应用场景。与其它相关算法相比,不仅生成的服装具有丰富且真实的褶皱效果,精度亦有较大提升。
闵永浩[6](2020)在《基于注意力机制的源相机模型识别算法研究》文中研究指明当今社会,人工智能产品正日益广泛的应用于人们的日常生活,相机、智能手机等拍照设备更是成为人们记录生活不可或缺的工具。然而技术的进步是一柄双刃剑,近年来,利用计算机软件恶意篡改数字图片用以扭曲事实的事件时有发生,一些不法分子借此可乘之机获取不当利益,给社会制造了不必要的恐慌,数字图像的安全问题和真实问题日益成为人们关注的焦点。因此,数字图像取证技术也变得备受关注,而本文正是针对源相机模型识别这一数字图像取证领域的一个重要分支展开的研究。源相机模型识别目前有两种主流的方法,一种是传统的方法,主要依靠处理光响应非均匀性噪声这种模式噪声,对其采取滤波操作,得到残余的模式噪声部分,之后将待测图片与已有的模式噪声进行对比,以此对图片进行识别分类;另一种是基于深度学习的方法,其主要通过神经网络提取图片中的特征信息,然后网络自主地对提取到的特征进行处理,最后给出分类结果,以期达到源相机模型识别的目的。本文选择深度学习方法开展源相机模型识别问题的研究,引入了视觉注意力机制来对源相机模型进行分类。通过残差注意力网络中的两个分支:主干分支和掩码分支,同时对图片进行特征提取,然后将两个分支提取到的特征按照不同权重比例进行融合,进而生成特征图,之后,残差注意力网络通过处理特征图,经由Softmax层最终得到分类结果。本文中的残差注意力网络采用提取图像块的方式作为网络输入,因此本文对图像块提取、数据集制作,以及数据预处理均做了不同程度的改进。最终,本文提出的方法在源相机模型识别公共数据集Dresden上取得了 98.63%的识别准确率。针对某些特殊品牌相机(主要是Sony类相机)在目前的深度学习网络中存在的识别率低的问题,本文创新性的提出级联网络用以提升算法对难分样本的识别率。对于Sony类源相机的识别,采用以残差网络为基底的网络结构进行训练测试,并且重新改进了图像块提取规则,改进了网络的数据预处理操作,一定程度上解决了 Sony类相机识别率低的问题,达到了 Sony三类总体93.29%的识别准确率,同时对于Sony相机品牌内部混淆严重的情况也有了明显的改善。在测试的时候,将残差网络和残差注意力网络利用级联的思想进行融合,使网络融合为一个整体,待测图片只需送入到输入层,网络会自动输出一个最终识别分类结果,方便快捷,便于应用。该框架的提出对于其他数据集同样具有借鉴作用。经过实验验证,本文提出的网络能够出色的完成源相机模型识别任务,并且具有一定的鲁棒性和可扩展性。
黄富伟[7](2020)在《基于深度学习的端到端手写文本检测与识别方法研究》文中认为目前对端到端的文本检测与识别模型的研究取得了不错的进展,该领域研究主要分为两个方向,一类是结合文本行检测和RNN解码的方式,这类方法无法检测单个字符边框。另一类是结合Faster RCNN检测算法和ROI pooling方式构建两阶段模型,这类方法可以检测每个字符,但计算量大。在这项研究工作中,我们提出了一种新型的端到端单阶段模型,可以直接预测单个字符的边框和相应的字符类别,克服了基于RNN解码和基于ROI pooling的方法带来的限制。本研究在主干网络中使用了不同尺度特征图融合的方法,显着提升了检测和识别性能。为了优化小字符的检测,使用了随机复制的策略扩充了小字符的数量并增加了字符的空间位置多样性。对于一些显着偏离文本区域的噪点,本文提出了一种新的后处理方法,可以有效过滤噪点。由于字符级的用于手写文本检测和识别的公开数据集非常少,所以我们开发了一套手写文本自动标注系统,这套系统使用知识迁移的方法,在合成手写图像数据上进行模型训练,在真实文本图像上进行字符检测和识别。实验证明系统在真实图像上的检测m AP达到87%,识别精度达到70%,并且该系统的应用能节省人工标注70%以上的时间。在自动标注系统中,我们使用了文本行网络模型和文档网络模型两种方式来自动生成标签。文本行网络是基于文本行字符检测与识别模型,本研究对文本行模型的字符中心定位网络分支进行创新,使用了非平衡损失函数提升易定位出错字符的权重,从而整体提升了字符检测与识别性能。文档网络模型使用本文提出的多尺度融合单阶段模型,这两种方式在真实图像上的标注效果都满足实用性。
唐楚柳[8](2020)在《基于卷积神经网络的钢筋端面定位与分割》文中指出随着深度学习时代的到来,基于深度学习的计数方法在工业检测逐渐应用起来。目前的视觉方法在处理钢筋图像进行计数时面临许多困难和挑战。在建筑工地,工人们使用手动计数的方法对钢筋数量进行盘点既费力又费时(有时需要数小时),由于从建筑工地捕获的图像根据现场条件而有所不同,因此存在一些问题,例如不规则的端面形状,不均匀的照度,颜色不均匀和端面重叠等。这些因素导致使用传统的图像处理算法时,识别结果不稳定。传统的机器视觉计数策略,在速度和精度上表现不佳。因此,开展钢筋端面定位与分割的课题研究具有重要意义和巨大实际应用前景。基于卷积神经网络为研究的手段,围绕钢筋的端面定位与分割为任务,通过合理优化的模型设计,实现了高效的钢筋端面定位与分割,现将研究成果总结如下:1、提出了一种基于滑动窗口的数据增强方法(SWDA)针对当前基于深度学习的钢筋定位算法训练过程中的数据不足的问题,本文提出了一种基于滑动窗口的数据增强方法(SWDA)。该方法包含数据读取的过程,白色掩码区域部分的生成,基于滑动窗口的可填充区域的生成,目标像素和标签的回填过程。所提出的滑动窗口的数据增强方法有两个的优点:首先,它适用于任意大小的目标的填充,有利于增加图像内待检测目标的数量;其次,该方法采用随机选取的方式,有利于增加目标的多样化信息,提高检测定位模型的泛化能力。2、提出了一种斐波那契增量掩模标注方法(FIMLM)为了缓解深度学习中图像分割数据集的制作需要花费大量的人力和时间的问题,一张2666×2000的图像,人工使用PS制作标签数据需要花费30分钟。因此,本文提出了一种斐波那契增量掩模标注方法(FIMLM)用于标注钢筋端面的分割数据集。该方法属于半自动标注的方法,标注过程中引入人工挑出标注错误的掩码,减少了大部分的人力标注成本。经过标注数据扩增后训练的FCN分割模型达到了很好的分割效果。3、提出了一种钢筋检测定位模型(Inception-RFB-FPN)针对钢筋定位算法中的准确率和定位速度的问题,本文提出了一种钢筋检测定位模型(Inception-RFB-FPN)。该模型包含了一个信息保留层,数据抽象层(Inception),RFB-FPN的图像特征金字塔模块和检测层。所提出的钢筋检测定位模型的优势是在兼顾了定位精度的同时,保持实时的检测速度(单张图像检测时间为0.0306s)很适合移动端的应用场景。4、研究了三种全卷积网络(FCN)对于钢筋端面分割的性能高分辨率的图像分割模型的掩码预测会在邻近的目标处聚成一团使得目标的掩码边界不清晰。本文将目标分解为小图像,使用单目标分割再最后合并映射回原图,一定程度缓解了掩码缩聚的问题。FCN的输入图像尺寸,使用统计平均值的近似大小128。VGG16-FCN单张128×128像素的推理时间为2.6156 ms,ResNet18-FCN的为3.2635 ms,ResNet34-FCN的为5.3670 ms。
宋国鹏[9](2020)在《基于孪生网络的单目标跟踪算法研究及其应用》文中研究说明从传统算法到相关滤波,再到近几年基于深度孪生网络的算法,跟踪准确率和鲁棒性在不断提高的同时,也能保持较高的实时帧率。然而,深度孪生网络不能准确计算出目标掩码,且跟踪器缺乏筛选和强化关键特征的能力,因此在处理易混淆背景干扰、遮挡和准确定位等方面存在不足。本文研究目的是在保持实时帧率的前提下,通过引入注意力机制,改善网络在复杂场景下的跟踪准确率和鲁棒性。本文在深入分析现有深度孪生网络结构的基础上,先后提出在Siam Mask基本网络结构和调优网络结构中融合注意力机制,以达到逐渐优化网络参数的目标。之后,利用改进后的网络,测试其在可见光和红外场景下双模跟踪目标的性能。下面对本文的主要工作内容做出总结:(1)针对孪生网络处理易混淆背景干扰和目标遮挡能力不足的问题,提出在Siam Mask孪生网络特征提取结构中增加注意力模块。为了在基本网络的特征提取时重点关注目标关键特征,在其共享孪生网络部分融合了注意力机制模块。在通道和空间两个维度的约束下,来帮助网络强化目标关键特征,抑制混淆背景和遮挡部分的影响,为后续的前景分类、边框回归和分割掩码提供准确的候选响应信息。在VOT三个基准数据集上的测试分析显示,改进后的基本网络结构具有更优的鲁棒性和期望平均覆盖率。(2)针对孪生网络目标定位准确度不高导致误差累积的问题,继续提出在Siam Mask分割调优网络中添加注意力模块。为了在综合低层空间细节和高层语义后的信息中挑选出有助于精确生成目标掩码的特征,本文在Siam Mask调优网络中多个分割调优单元内增加注意力约束,从而在逐步上采样后减少单个像素被错判的可能性。在VOT2018上的定性和定量结果均说明,融合注意力机制的调优网络全面改善了目标跟踪的准确性、鲁棒性和期望平均覆盖率。(3)为了实现双模通用目标跟踪算法,将改进后的调优网络应用到红外跟踪场景。本文首先自制了多角度拍摄的红外数据集,并给出旋转框标注和评价指标;然后,将改进后的调优网络与多种典型目标跟踪算法在该数据集上测试,对跟踪结果进行定量和定性的分析,说明了改进后的网络在红外目标跟踪上的可行性。
成楚璇[10](2020)在《视频智能填充的研究与实现》文中指出随着短视频、Vlog的发展,普通用户对视频编辑的需求不断升级。视频填充与修复是视频编辑的重要功能,但现有的图像/视频填充工具使用门槛高、处理效率低。近年来,深度学习在图像分类、识别、分割和生成领域都取得了突破性进展。基于深度学习,本文提出了轻量的金字塔采样图像填充网络并利用时序位移对视频时序特征建模,实现了快速高效的视频填充方法。本文主要创新如下:1)以现有的门控卷积网络为基础,从三个方面进行优化。使用金字塔采样对空洞门控卷积层进行优化,提出了由粗到细的金字塔上采样网络(Pyramid-Upsample Net,PUNet),与门控卷积网络相比,使用更少的运算量和更多的参数进行特征学习,同时可以融合不同深度特征;提出了整体、逐对、逐点三种维度的损失函数,可以提升填充结果的局部一致性以及全局一致性;将知识蒸馏引入图像填充,设计了多层次的自蒸馏方法。实验表明,PUNet可以22%的推理时间达到与门控卷积网络相近的图像填充效果。2)以PUNet为基础,融入视频时序特征以提升视频填充结果的时序一致性。将时序位移与门控卷积相结合设计了门控时序位移卷积(Gated Temporal Shift Conv,GTSConv)以实现时空特征融合,使用该卷积替换门控卷积,提出了时序位移金字塔上采样网络(Temporal Shift PUNet,TS-PUNet)。与只考虑空间特征的PUNet相比,同时学习视频时空特征的TS-PUNet,在无需引入额外参数和额外运算的情况下能够以相同的推理时间实现更好的填充效果。
二、Bitblt()函数与掩码图像制作(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、Bitblt()函数与掩码图像制作(论文提纲范文)
(1)基于单目视觉引导的托盘拾取方案实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 AGV现状和发展趋势 |
1.2.2 托盘检测和位姿判断 |
1.2.3 拾取托盘路径规划 |
1.3 托盘拾取流程分析和技术难点 |
1.3.1 作业流程 |
1.3.2 关键技术 |
1.4 本文工作 |
第2章 车间目标检测 |
2.1 YOLOv4 目标检测算法介绍 |
2.1.1 网络框架 |
2.1.2 损失函数 |
2.2 网络模型训练 |
2.2.1 数据采集和标注 |
2.2.2 数据增强和预处理 |
2.2.3 网络训练 |
2.3 结果和分析 |
2.3.1 网络预测结果 |
2.3.2 结果分析 |
2.4 本文应用 |
2.5 本章小结 |
第3章 目标托盘跟踪 |
3.1 Siammask单目标跟踪 |
3.1.1 网络框架 |
3.1.2 损失函数 |
3.1.3 数据集制作和扩展 |
3.1.4 网络训练 |
3.2 结果和分析 |
3.2.1 Siammask测试结果 |
3.2.2 Siammask跟踪结果分析 |
3.3 基于空间预测优化Siammask单目标跟踪 |
3.3.1 坐标转换 |
3.3.2 相机内参 |
3.3.3 空间预测 |
3.3.4 Siammask网络位置得分修正 |
3.4 优化效果 |
3.5 本文应用 |
3.6 本章小结 |
第4章 托盘特征直边提取 |
4.1 颜色过滤 |
4.1.1 RGB转 HSV |
4.1.2 根据HSV提取托盘像素 |
4.2 边缘检测 |
4.3 提取直线 |
4.3.1 Hough霍夫变换 |
4.3.2 聚类和筛选 |
4.4 本章小结 |
第5章 行驶判定和开展实验 |
5.1 行驶判定 |
5.1.1 实验车介绍 |
5.1.2 实时行径判定逻辑 |
5.2 实验平台搭建 |
5.3 实验和结果 |
5.3.1 试验过程 |
5.3.2 结果分析 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 工作总结 |
6.2 未来展望 |
参考文献 |
攻读学位期间取得的研究成果 |
致谢 |
(2)基于卷积网络的手部姿态与形状估计方法研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 课题研究背景及意义 |
1.2 课题国内外研究现状 |
1.2.1 手部姿态估计方法 |
1.2.2 手部形状估计方法 |
1.3 本文的研究内容与结构安排 |
1.3.1 本文研究内容 |
1.3.2 本文结构安排 |
2 课题研究相关的基本原理与基础知识 |
2.1 结构相似性算法 |
2.2 基于深度学习的双目图像匹配算法 |
2.3 生成对抗网络 |
2.4 UV位置图像 |
2.5 手部数据集及性能评价方法 |
2.6 本章小结 |
3 手势隐空间引导的姿态估计方法 |
3.1 方法介绍 |
3.2 手势隐空间引导的手部姿态估计网络设计 |
3.2.1 手势隐空间获取 |
3.2.2 手部隐空间获取 |
3.2.3 训练细节 |
3.3 实验评估与分析 |
3.3.1 消融实验 |
3.3.2 与最新方法的对比实验 |
3.4 本章小结 |
4 基于双目深度估计的手部姿态估计方法 |
4.1 网络结构设计及方法流程 |
4.2 手部深度图像优化及手部姿态估计网络 |
4.2.1 手部分割网络设计 |
4.2.2 手部深度图像判别网络设计 |
4.2.3 手部姿态估计网络设计 |
4.2.4 网络训练细节 |
4.3 实验结果与分析 |
4.3.1 消融实验 |
4.3.2 与最新方法比较实验 |
4.3.3 与深度图像比较的实验 |
4.4 本章小结 |
5 基于弱监督学习的手部形状与姿态估计方法 |
5.1 网络结构设计与方法流程 |
5.2 基于全监督方式学习的网络设计 |
5.2.1 数据预处理 |
5.2.2 手部形状生成网络设计 |
5.3 基于弱监督方式学习的网络设计 |
5.4 实验评估与分析 |
5.4.1 基于全监督方式学习的实验结果 |
5.4.2 基于弱监督方式学习的实验结果 |
5.4.3 验证手部姿态标注影响的实验结果 |
5.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
(3)医疗图像小目标检测与分割研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 国内外研究现状 |
1.2.1 基于深度学习的检测与分割技术 |
1.2.2 常见的小目标检测算法 |
1.3 本文的主要贡献与创新 |
1.4 本论文的结构安排 |
第二章 Mask R-CNN介绍及数据预处理 |
2.1 Mask R-CNN基本结构 |
2.2 数据预处理 |
2.3 评价指标 |
2.4 本章小结 |
第三章 基于热力图的特征提取 |
3.1 基于热力图的骨干网络改进 |
3.2 热力图的内部结构 |
3.3 利用热力图增强特征 |
3.4 实验结果和分析 |
3.5 本章小结 |
第四章 基于概率的候选框提取 |
4.1 采样间距分析 |
4.2 基于高斯混合模型的候选框提取方案 |
4.3 基于概率的RPN结构 |
4.4 实验结果及分析 |
4.4.1 采样间距与特征图放大方式 |
4.4.2 控制变量分析 |
4.5 本章小结 |
第五章 基于边缘特征的小目标分割 |
5.1 边缘预测模块 |
5.2 边缘细分模块 |
5.3 边缘预测与细分模块融合 |
5.4 实验结果及分析 |
5.5 本章小结 |
第六章 肺栓塞小目标检测与分割统一框架 |
6.1 框架概述 |
6.2 实验结果及分析 |
6.2.1 纵向比较 |
6.2.2 横向比较 |
6.2.3 检测分割结果可视化展示 |
6.3 本章小结 |
第七章 全文总结与展望 |
7.1 全文总结 |
7.2 后续工作展望 |
致谢 |
附录A EM算法求解高斯混合模型 |
A.1 EM算法基本原理 |
A.2 高斯混合模型 |
A.3 EM算法求解高斯混合模型 |
参考文献 |
攻读硕士学位期间取得的成果 |
(4)基于深度学习的唐卡图像修复研究与应用(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 图像修复研究现状 |
1.2.2 不规则破损修复研究现状 |
1.2.3 唐卡图像修复研究现状 |
1.3 主要研究内容与创新点 |
1.4 论文组织结构 |
第二章 神经网络相关理论和关键技术 |
2.1 卷积神经网络 |
2.1.1 卷积 |
2.1.2 池化 |
2.1.3 激活函数 |
2.2 基于部分卷积的图像修复模型关键技术 |
2.2.1 基于部分卷积的填充方案 |
2.2.2 部分卷积运算规则 |
2.2.3 掩码更新机制 |
2.3 U-Net网络架构 |
2.4 图像质量评价标准 |
2.5 本章小结 |
第三章 唐卡图像数据集与不规则掩码数据集的构建 |
3.1 掩码与唐卡图像数据集研究现状 |
3.2 唐卡不规则掩码数据集的构建 |
3.2.1 破损模拟 |
3.2.2 唐卡破损分析 |
3.2.3 面向唐卡破损特性的不规则掩码数据集 |
3.3 唐卡图像数据集的构建 |
3.3.1 唐卡基本情况 |
3.3.2 唐卡资源库介绍 |
3.3.3 面向深度学习的唐卡图像数据集 |
3.4 本章小结 |
第四章 唐卡图像修复模型构建与局部二次修复 |
4.1 模型设计与环境搭建 |
4.1.1 网络结构 |
4.1.2 损失函数与优化器 |
4.1.3 参数配置与环境搭建 |
4.2 模型训练与迁移学习 |
4.2.1 基于唐卡不规则掩码数据集的预训练 |
4.2.2 基于唐卡图像数据集的微调改进训练 |
4.3 实验结果与对比分析 |
4.3.1 模型实验结果 |
4.3.2 经典方法实验结果 |
4.3.3 对比分析 |
4.4 局部二次修复实现 |
4.5 本章小结 |
第五章 唐卡图像修复系统的设计与实现 |
5.1 系统设计 |
5.1.1 系统需求分析 |
5.1.2 系统功能分析 |
5.2 技术简介 |
5.3 系统展示 |
5.3.1 模型修复展示 |
5.3.2 PatchMatch修复展示 |
5.3.3 局部二次修复展示 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
参与科研项目及取得成果 |
(5)高精度三维人体重建及其在虚拟试衣中的应用(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 研究现状 |
1.2.1 三维网格分割 |
1.2.2 三维人体测量 |
1.2.3 三维人体重建 |
1.2.4 三维虚拟试衣 |
1.3 研究内容 |
1.4 结构安排 |
第2章 谱域中基于组合描述子的非刚性三维网格分割 |
2.1 引言 |
2.2 融合显着性的拉普拉斯谱嵌入 |
2.2.1 拉普拉斯算子及其离散化 |
2.2.2 网格显着性介绍 |
2.2.3 计算显着性拉普拉斯矩阵谱嵌入 |
2.3 基于全局和局部特征的谱嵌入 |
2.3.1 表征全局与局部特征 |
2.3.2 组合描述子的谱嵌入 |
2.4 谱域分割 |
2.5 分割结果与分析 |
2.6 应用:骨骼提取 |
2.7 本章小结 |
第3章 自动化三维人体关键点提取及特征尺寸测量 |
3.1 引言 |
3.2 网格预处理及分割结果回顾 |
3.3 关键点提取 |
3.3.1 肩点提取 |
3.3.2 颈点提取 |
3.3.3 腋窝点提取 |
3.3.4 肘点提取 |
3.3.5 裆底点提取 |
3.3.6 臀高点提取 |
3.3.7 肚脐点提取 |
3.3.8 乳尖点提取 |
3.3.9 手腕点提取 |
3.3.10 膝点提取 |
3.3.11 脚踝点提取 |
3.4 人体测量 |
3.4.1 长度测量 |
3.4.2 围度测量 |
3.5 测量结果与分析 |
3.5.1 回归分析 |
3.5.2 可视化关键点提取及测量 |
3.5.3 量化对比分析 |
3.5.4 运行效率 |
3.5.5 分割优化 |
3.6 本章小结 |
第4章 基于几何优化的结构一致性三维人体重建 |
4.1 引言 |
4.2 几何优化重建 |
4.3 实施细节 |
4.3.1 模板选择 |
4.3.2 “硬约束”提取 |
4.3.3 目标人体预处理 |
4.3.4 迭代方式 |
4.4 实验结果与分析 |
4.5 本章小结 |
第5章 基于非参数化人体测量图卷积网络的三维人体重建 |
5.1 引言 |
5.2 非参数化人体测量图卷积设计 |
5.2.1 掩码图像特征提取 |
5.2.2 人体测量特征提取 |
5.2.3 图卷积神经网络设计 |
5.3 PCA空间及参数化扩展 |
5.4 重建结果与分析 |
5.4.1 数据集 |
5.4.2 实施及训练细节 |
5.4.3 结果及分析 |
5.4.4 人体测量体型设计 |
5.5 与基于几何优化重建的对比分析 |
5.6 本章小结 |
第6章 用于着装的三维服装重定向网络 |
6.1 引言 |
6.2 三维着装数据集创建 |
6.2.1 基于几何优化的服装数据生成 |
6.2.2 基于物理仿真的三维服装创建 |
6.2.3 数据集 |
6.3 三维服装重定向网络 |
6.3.1 人体分支网络 |
6.3.2 服装分支网络 |
6.3.3 融合网络 |
6.3.4 损失函数 |
6.4 服装重定向结果与分析 |
6.4.1 训练细节 |
6.4.2 评估指标 |
6.4.3 结果与分析 |
6.5 本章小结 |
第7章 结论与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
攻读博士学位期间的主要研究成果 |
致谢 |
(6)基于注意力机制的源相机模型识别算法研究(论文提纲范文)
摘要 |
Abstract |
符号说明 |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 基于传统方法处理噪声的源相机模型识别 |
1.2.2 基于深度学习方法的源相机模型识别 |
1.3 主要研究内容 |
1.4 文章组织结构 |
第二章 源相机模型识别理论基础 |
2.1 数字相机内部成像过程及原理 |
2.2 光响应非均匀性噪声在源相机识别中的应用及原理 |
2.3 传统滤波方法在源相机模型识别的应用及原理 |
2.4 深度学习特征提取在源相机模型识别的应用及原理 |
2.4.1 普通卷积神经网络在源相机模型识别中的应用及原理 |
2.4.2 深度神经网络在源相机模型识别中的应用及原理 |
2.5 数据集 |
2.6 本章小结 |
第三章 基于残差注意力机制的源相机模型识别算法 |
3.1 注意力机制的原理 |
3.1.1 软注意力 |
3.1.2 强注意力 |
3.2 基于残差注意力机制的源相机模型识别算法 |
3.2.1 残差注意力网络的基本原理 |
3.2.2 残差注意力网络的结构 |
3.2.3 掩码分支 |
3.2.4 主干分支 |
3.3 残差注意力网络的训练过程 |
3.3.1 数据集的制作 |
3.3.2 网络参数设置与网络训练 |
3.4 本章小结 |
第四章 基于级联网络的源相机模型识别关键问题的研究 |
4.1 Sony类相机识别问题 |
4.2 残差网络的原理及其网络结构 |
4.3 残差网络的训练过程 |
4.3.1 数据集的制作 |
4.3.2 网络参数设置与网络训练 |
4.4 基于级联网络的源相机模型识别算法 |
4.5 本章小结 |
第五章 实验结果与分析 |
5.1 实验平台以及实验策略 |
5.1.1 实验平台说明 |
5.1.2 实验策略以及超参数设定说明 |
5.2 数据集制作准则实验及其结果分析 |
5.3 基于残差注意力机制的源相机模型识别算法实验及其结果分析 |
5.3.1 残差注意力网络结构实验及其分析 |
5.3.2 残差注意力网络与其他网络对比结果及其分析 |
5.4 基于级联网络的源相机模型识别算法实验及其分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读硕士期间参与的工程项目和发表的论文 |
学位论文评阅及答辩情况表 |
(7)基于深度学习的端到端手写文本检测与识别方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景及研究的目的和意义 |
1.1.1 课题背景 |
1.1.2 研究的目的和意义 |
1.2 国内外研究现状 |
1.2.1 文本检测的研究现状 |
1.2.2 文本识别的研究现状 |
1.2.3 端到端的文本检测与识别的研究现状 |
1.2.4 文本检测与识别的相关数据集 |
1.3 本文主要研究内容及章节安排 |
第2章 端到端手写文本检测与识别模型的研究 |
2.1 引言 |
2.2 优化方法 |
2.2.1 端到端模型与多尺度交互 |
2.2.2 多尺度融合模型 |
2.2.3 优化小字符检测 |
2.2.4 优化候选框质量 |
2.2.5 预测框过滤 |
2.3 系统设计与实现 |
2.3.1 总体功能设计 |
2.3.2 总体架构设计 |
2.3.3 数据创建 |
2.3.4 模型构建 |
2.3.5 训练流程 |
2.3.6 模型评估 |
2.4 实验结果及分析 |
2.4.1 实验数据与参数设置 |
2.4.2 预测结果 |
2.4.3 多尺度融合结构的影响分析 |
2.4.4 掩码对预测框的影响分析 |
2.4.5 Random Copy策略的影响分析 |
2.4.6 预选框过滤策略的影响分析 |
2.5 本章小结 |
第3章 手写文本自动标注系统的设计与实现 |
3.1 引言 |
3.2 优化方法 |
3.2.1 知识迁移算法 |
3.2.2 文本行网络模型与文档网络模型 |
3.2.3 图像生成算法 |
3.2.4 自制标注工具 |
3.3 系统设计与实现 |
3.3.1 总体功能设计 |
3.3.2 总体架构设计 |
3.3.3 合成数据 |
3.3.4 模型构建 |
3.3.5 训练流程 |
3.3.6 模型评估 |
3.4 实验结果及分析 |
3.4.1 实验数据与参数设置 |
3.4.2 预测结果 |
3.4.3 字符中心定位的可视化分析 |
3.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文及其它成果 |
致谢 |
个人简历 |
(8)基于卷积神经网络的钢筋端面定位与分割(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景及意义 |
1.2 钢筋计数算法国内外研究现状 |
1.3 论文的主要研究内容与贡献 |
1.4 论文的章节安排 |
第2章 论文背景知识介绍 |
2.1 尺度特征学习 |
2.2 视觉感受野 |
2.3 卷积神经网络知识 |
2.3.1 卷积神经网络的相关层 |
2.3.2 VGGNet |
2.3.3 ResNet |
2.3.4 Inception |
2.3.5 RFBNet |
2.4 钢筋端面分割数据处理框架 |
2.5 本章小结 |
第3章 钢筋计数模型(Inception-RFB-FPN) |
3.1 引言 |
3.2 数据增广(SWDA) |
3.3 RFB-FPN特征金字塔模块 |
3.4 损失函数与Inception-RFB-FPN结构 |
3.4.1 损失函数 |
3.4.2 Inception-RFB-FPN结构 |
3.5 实验 |
3.5.1 数据集介绍 |
3.5.2 实验参数配置 |
3.5.3 实验环境 |
3.5.4 评估指标 |
3.5.5 对比算法 |
3.5.6 lnception-RFB-FPN 在三个不同数据集训练后的测试结果 |
3.5.7 真实图片实验 |
3.5.8 网络推理时间对比 |
3.6 本章小结 |
第4章 端面分割网络(FCN) |
4.1 引言 |
4.2 半监督掩码标注(FIMLM) |
4.3 双线性插值内核 |
4.3.1 邻近插值 |
4.3.2 双线性插值 |
4.3.3 bilinear_kernel初始化 |
4.4 损失函数与FCN结构 |
4.4.1 损失函数 |
4.4.2 FCN结构 |
4.5 实验 |
4.5.1 数据集介绍 |
4.5.2 实验环境 |
4.5.3 实验参数配置 |
4.5.4 评估指标 |
4.5.5 对比不同基础网络下的FCN算法 |
4.5.6 FIMLM增量辅助标注后FCN在数据集6 上的实验结果 |
4.5.7 真实图片实验 |
4.5.8 网络推理时间对比 |
4.6 本章小结 |
第5章 Flask后台及Android前端 |
5.1 引言 |
5.2 Flask服务端 |
5.2.1 Flask的简单例子 |
5.2.2 Flask路由 |
5.2.3 上传图像 |
5.2.4 Flask模板 |
5.2.5 本文构建的flask本地服务 |
5.3 Flask网页端数据接收和处理 |
5.4 Flask检测结果对比图 |
5.5 Android前端算法应用实例 |
5.6 Flask部署优势及存在的问题 |
5.7 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间取得的成果 |
致谢 |
(9)基于孪生网络的单目标跟踪算法研究及其应用(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景和意义 |
1.2 可见光目标跟踪研究现状 |
1.2.1 传统算法 |
1.2.2 相关滤波 |
1.2.3 深度学习 |
1.3 红外目标跟踪研究现状 |
1.4 现状分析 |
1.5 研究内容及结构安排 |
2 目标跟踪相关背景与理论 |
2.1 引论 |
2.2 目标跟踪算法流程 |
2.3 孪生结构 |
2.3.1 SiamFC |
2.3.2 SiamRPN |
2.3.3 SiamMask |
2.4 数据集及相关评测指标 |
2.4.1 ImageNet-VID2015 |
2.4.2 ImageNet-DET2015 |
2.4.3 COCO2017 |
2.4.4 You Tube-VOS |
2.4.5 VOT基准数据集与测评指标 |
2.5 本章小结 |
3 融合注意力机制的单目标跟踪 |
3.1 引论 |
3.2 引入二值分割的多任务学习框架 |
3.2.1 基本网络结构 |
3.2.2 调优网络结构 |
3.2.3 目标优化函数 |
3.3 融合注意力机制的深度孪生网络 |
3.3.1 现有网络缺陷 |
3.3.2 瓶颈注意力模块 |
3.3.3 融合注意力机制的基本网络 |
3.3.4 融合注意力机制的调优网络 |
3.4 实验结果与分析 |
3.4.1 制作训练样本 |
3.4.2 基本网络 |
3.4.3 调优网络 |
3.4.4 跟踪模型对比 |
3.5 本章小结 |
4 融合注意力孪生网络在红外场景中的应用 |
4.1 引论 |
4.2 红外目标跟踪应用 |
4.2.1 热红外与可见光图像 |
4.2.2 红外目标跟踪应用 |
4.3 红外数据与评价标准 |
4.3.1 视频采集与标注 |
4.3.2 标注可行性分析 |
4.3.3 细节描述与评价标准 |
4.4 实验对比与分析 |
4.4.1 定量对比 |
4.4.2 定性对比 |
4.5 本章小结 |
5 总结与展望 |
5.1 主要工作总结 |
5.2 未来工作展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(10)视频智能填充的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 研究现状 |
1.2.1 基于补丁的传统方法 |
1.2.2 基于卷积神经网络的深度学习方法 |
1.3 面临的问题与挑战 |
1.4 研究内容与主要工作 |
1.5 论文组织结构 |
第二章 视频填充相关技术与评价指标 |
2.1 生成模型 |
2.2 视频合成 |
2.3 图像填充 |
2.3.1 传统方法 |
2.3.2 矩形掩码图像填充 |
2.3.3 任意形状掩码图像填充 |
2.4 视频填充 |
2.5 评价指标 |
2.6 本章小结 |
第三章 图像填充网络 |
3.1 网络结构 |
3.1.1 门控卷积网络 |
3.1.2 U型自注意力网络UANet |
3.1.3 U型金字塔注意力网络UPANet |
3.1.4 由粗到细的金字塔上采样网络PUNet |
3.2 损失函数 |
3.3 知识蒸馏 |
3.4 实验与结果分析 |
3.4.1 实验细节 |
3.4.2 实验结果与分析 |
3.5 本章小结 |
第四章 视频填充网络 |
4.1 多帧融合金字塔上采样网络FF-PUNet |
4.2 时序位移金字塔上采样网络TS-PUNet |
4.3 实验与结果分析 |
4.3.1 实验细节 |
4.3.2 实验结果与分析 |
4.4 本章小结 |
第五章 基于实例分割的短视频智能填充系统 |
5.1 需求分析 |
5.1.1 功能需求 |
5.1.2 性能需求 |
5.2 总体设计 |
5.3 详细设计与功能实现 |
5.3.1 开发环境 |
5.3.2 输入模块与输出模块 |
5.3.3 实例分割模块 |
5.3.4 视频填充模块 |
5.4 系统测试 |
5.4.1 功能测试 |
5.4.2 性能测试 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 未来展望 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
四、Bitblt()函数与掩码图像制作(论文参考文献)
- [1]基于单目视觉引导的托盘拾取方案实现[D]. 陈骞. 四川大学, 2021(02)
- [2]基于卷积网络的手部姿态与形状估计方法研究[D]. 李晓冬. 大连理工大学, 2021(01)
- [3]医疗图像小目标检测与分割研究[D]. 龙坤. 电子科技大学, 2021(01)
- [4]基于深度学习的唐卡图像修复研究与应用[D]. 刘丹青. 青海师范大学, 2021(09)
- [5]高精度三维人体重建及其在虚拟试衣中的应用[D]. 谢昊洋. 东华大学, 2020(01)
- [6]基于注意力机制的源相机模型识别算法研究[D]. 闵永浩. 山东大学, 2020(02)
- [7]基于深度学习的端到端手写文本检测与识别方法研究[D]. 黄富伟. 哈尔滨工业大学, 2020(01)
- [8]基于卷积神经网络的钢筋端面定位与分割[D]. 唐楚柳. 广西师范大学, 2020(02)
- [9]基于孪生网络的单目标跟踪算法研究及其应用[D]. 宋国鹏. 北京交通大学, 2020(03)
- [10]视频智能填充的研究与实现[D]. 成楚璇. 北京邮电大学, 2020(05)