一、基于最小生成树的基因分类算法(论文文献综述)
林鸿仁[1](2020)在《基于树形重心与割边约束的聚类算法研究》文中进行了进一步梳理聚类分析是模式识别与数据挖掘等诸多领域的重要技术之一。然而,由于簇的大小、形状、分布各异,目前已有的聚类算法,包括划分式、层次式、基于密度峰值和基于最小生成树等方法都无法令人满意。大量研究发现,相比均值中心和密度中心,使用代表点作为聚类中心的方法具有较好的性能,该方法受噪声、离群点和簇的形状的影响较小。另外,最小生成树的形状并不会随簇边界的变化而变化,因此,基于最小生成树的聚类算法能解决对簇的形状和噪声敏感的问题。本文重点解决了如何在最小生成树上搜索代表点,计算类间距离,以及簇的合并准则,并构建了基于最小生成树的快速聚类算法。本文从在当前研究现状的基础上,主要进行了以下工作:(1)提出了一种基于最小生成树树形重心的类间距离度量方法。该方法的提出主要基于以下几个原因:首先,传统的基于最小生成树的聚类算法,对最小生成树的几何形状利用率不高;其次,使用欧几里德距离的度量方法对类别的形状分布敏感;最后,传统的基于代表点的类别中心选取方法的时间复杂度较高。最小生成树的树形重心作为代表点能够充分利用其几何形状,测地距离可以适应多种形状的簇。通过树链剖分技术和二分算法快速地合并簇,从而大大降低计算代表点与类间距离的时间复杂度。(2)提出了一种限制条件下,结合广度优先搜索算法的预聚类方法。为使代表点方法不退化为样本点到样本点之间的距离,提出了该预聚类方法来解决算法初期每个类别内部样本点数量过少的问题,以满足后续应用最小生成树树形重心的类间距离度量的需求,从而提高聚类性能。(3)提出了一种基于最小生成树树形重心和割边约束的多阶段层次聚类算法。整体算法分为三个阶段:预聚类、基于割边约束I的小类合并过程和基于割边约束II的最终聚类过程。该算法考虑到了两个因素:类间距离和两个邻接类簇之间的内在联系,从而使得算法中合并的过程更加准确,减少错误的合并过程。经过人工合成数据集和UCI真实数据集上的实验验证,本文算法具有良好的聚类性能。
彭佳琪[2](2020)在《演化的数据流聚类算法研究》文中进行了进一步梳理作为数据挖掘领域的一大分支,数据流挖掘一直是一大研究热点,现有的一些成果也已经在理论研究和实际应用中做出了重要的贡献。数据流挖掘的关键特征是通过一次扫描从海量,连续,动态演化的数据流中实时提取有价值的知识。然而,绝大多数算法都建立在数据有完整标签的基础上,且对数据流的演化形式(如,概念漂移,概念演化,特征演化等)有较强的假设,这极大地限制了数据流挖掘在实际场景中应用的广度和深度。因此,建立可靠的自适应聚类算法,使之能够有效应用于标签缺失的场景,并且对多种演化形式能快速适应及学习,是当前数据流挖掘领域的一个重要任务。本文的主要工作包括对概念演化数据流进行自适应的无监督学习以及对复杂的数据流进行特征演化的学习,本文的工作内容和主要创新点主要为以下三个方面:第一,针对概念演化数据流中滑动窗口(或衰减速率)不合适导致聚类表现变差以及聚类结果不能正确反映当前数据分布的问题,本文首次提出聚类生命周期的概念,并基于此提出聚类生命周期学习(CLL)算法,为每一个类在数据流中出现的时间和消亡的时间进行有效的预测。该算法通过为每一个带权微簇自适应地学习一个遗忘函数来调整微簇权重的衰减速率,加速组成过时概念微簇的权重衰减并减缓正确反映当前数据分布的微簇的权重衰减,有效地提高了聚类的性能。第二,针对传统基于窗口的聚类演化检测方法存在检测不及时和演化检测错失的问题,本文在聚类生命周期自适应学习的基础上,提出一种基于最小生成树的动态聚类算法。该算法通过实时维护树(类)结构以及树(类)与树(类)之间的关系来在线监测聚类结构是否发生演化,提高了聚类演化检测的及时性和准确性。第三,针对数据流中特征演化场景下数据流挖掘算法需要解决复杂的优化问题以及没有考虑概念漂移的问题,本文提出一种基于微簇结构的特征演化学习算法框架:FEMC。其基本思想是从度量学习的角度出发,学习一个保留特征上的权重向量,将消失特征包含的信息压缩到保留特征上,使得原特征空间上的模型仍然有效。并结合懒惰学习模型,将FEMC分别应用到数据流分类和聚类任务上。FEMC为提高学习的可靠性和学习算法在数据流上的可适应性提供了有效的支撑。
杜伟光[3](2020)在《基于科创板股票网络构建的投资组合策略研究》文中提出科创板于2019年在我国成功挂牌上市,作为我国最新设立的股市板块,科创板以其开创性的制度体系和针对高新科技公司的特殊战略意义受到广泛关注。但针对科创板的学术研究尚处于空白阶段。针对科创板的网络结构研究更少。本文利用复杂网络等理论技术,以科创板现有的所有股票中满足一定交易日的股票和主板中的科创板概念股两类股票的日收盘价为数据,结合Matlab、Gephi等软件进行编程计算和绘图,构建了科创板网络、科创板与科创板概念股合并网络。通过对该两个网络的包括度、度分布、聚类系数、模块化Q值等参数分析,本文成功找到了影响科创板走势的一些重要股票节点,并发现了科创板股票间相关性较高、股票社团抱团现象较大的特点,得出了科创板的发展阶段就其行业分类、股票成分而言处于较不成熟阶段,且投资者行为可能是主板对科创板的主要影响方式的一系列结论。根据对科创板网络的相关研究结果,本文设计了一种利用科创板的度值、社团结构同时辅助风险厌恶因子构建的综合评价值来构建投资组合的策略。利用该策略进行科创板投资组合的构建成功的实现了更高的平均收益和更低的平均风险水平,风险收益比远高于传统行业分类的数值,行之有效。
谢江[4](2019)在《基于密度核心和局部合力的聚类分析和异常检测研究》文中研究指明科学技术的发展,尤其是智能移动互联和物联网相关技术的普及,影响了数据的维度、大小、种类以及产生方式,增加了数据的复杂度,从而使数据的标注愈加困难。所以,如何在类标未知的样本中解决模式识别的相关问题成了无监督学习应用的背景。在无监督学习中,聚类和异常检测是两类广泛使用的方法。早在《战国策.齐策三》中,我们的先人就提出了“物以类聚,人以群分”的思想。近年来,密度代表点这一概念被广泛应用于聚类分析领域。其中,密度代表点和聚类算法相结合的方法在图像处理和模式识别领域取得了很好的结果。但是在处理任意形状、高维、多密度层次或含有噪声的复杂数据时,单一代表点的方式不能有效刻画和反应簇的各种信息,从而对聚类的结果产生负面的影响。由于密度核心能够有效地代表和描述其所在簇的属性,本文在聚类分析中引入了密度核心的概念,从而解决了基于单个代表点的现有聚类方法不能应用于包含复杂形状和多密度层次数据集的问题。聚类分通常用于寻找一般模式,而异常检测通常用于识别数据中有效和有潜在价值的特殊模式。由于简单、快速和有效,基于距离和密度的异常检测方法近年来被广泛应用。然而,对参数敏感的缺陷常常导致这类方法的检测性能不稳定。因此,受万有引力的启发,本文提出了局部合力变化率模型,并将其引入到离群点和边界点的检测中。基于局部合力变化率的检测方法能够有效地检测到离群点和边界点,同时对输入参数不敏感。本文对密度核心和局部合力在聚类分析和异常检测的应用进行了研究,主要贡献和创新如下所示:(1)本文提出了一种基于密度核心和动态扫描半径的聚类方法DCNaN(Density Core-based Clustering Algorithm with Dynamic Scanning Radius)。DCNaN结合自然邻居概念,在不需要手动输入参数的情况下,通过使用动态扫描半径r对传统密度核心的获取方法进行了改进。使用基于动态扫描半径r和均值漂移(Mean-Shift)方法获取密度核心的过程能够自动适应多密度层次的数据集,解决了现有聚类方法无法应对含有复杂形状簇和多密度层次数据集的问题。(2)本文提出了一种基于密度核心和相对密度的聚类方法RDcore(A Relative Density-core-based Clustering Algorithm with Natural Neighbor)。RDcore通过引入自然邻居的方式自动获取k值,提出了基于自然邻居的相对密度获取方法NaNRNKD(Relative K-nearest Neighbor Kernel Density Measure Based on the Natural Neighbor)。NaNRNKD可以快速准确地获取属于密度核心的数据点,解决了使用均值漂移获取密度核心时间复杂度过高的问题。(3)本文提出了一种基于密度核心的聚类内部评价指标DCVI(A New Internal Index Based on the Density Core for Clustering Validation)。DCVI通过引入密度核心,将所有数据的内部评价指标转换为密度核心的内部评价指标。根据簇内的紧致度和簇间的分离度,本文提出了聚类的内部评价指标,从而有效地避免噪声,复杂形状和重叠对评价指标的影响。结合最小生成树(MST)聚类方法,本文提出了DCVI-MST聚类方法,可以准确快速地评估出聚类簇的个数以及给出有效的聚类结果。同时DCVI可以有效地应用于基K-means,密度或层次划分的聚类中,寻找最优的聚类个数。(4)本文提出了一种基于局部合力变化率的异常点检测方法LGOD(a Novel Local-gravitation-based Outlier Detection Method)。LGOD利用局部合力变化率获取离群点、边界点和内部点变化率的排序,通过使用层次划分方法寻找到离群点,用于消除传统异常检测方法对参数敏感,且需要人为选择的缺陷。(5)本论文提出了一种基于局合力变化率的边界点检测方法LGBD(a Novel Local-gravitation-based Boundary Point Detection Method)。LGBD利用局部合力变化率,通过选择比例参数,可以较准确地获取处于数据集中的边界点。相比于其它方法,LGBD能够更好地反应数据的分布特点。通过人工数据集和真实数据集的实验对比,本文提出的相关理论和方法要明显优于现有的相关方法和理论。通过对聚类和异常检测领域的基础理论和相关算法进行分析研究,希望在丰富现有无监督学习方法的同时,能够对聚类分析和异常检测领域存在的难题和应用瓶颈提供解决思路。
苏晓曼[5](2019)在《基于单细胞测序数据的细胞分化轨迹算法探究》文中研究表明单细胞测序技术的发展,让我们能够以低成本、高精度获得大量的单细胞转录组数据,使其成为揭示细胞间异质性和窥探细胞发育过程的有力工具。在分析细胞发育过程的基因动力学和变异性的复杂性时,使用单细胞基因表达数据重建细胞分化的伪时间轨迹是目前研究的热点和面临的挑战。尽管最近已经开发了许多用于单细胞分析的计算和统计方法,但现存方法都有其局限性和改进的空间,更高效准确的算法仍待提出。细胞分化伪时间轨迹的重建主要由数据处理和细胞排序两部分组成。其中数据处理是算法基础,也是保证细胞排序准确的前提。本文使用的单细胞测序数据是大维稀疏矩阵,并且基因表达数据有着从10-6到10 2的量级跨度,这增加了分析的难度,并对算法的适用性提出了挑战。为了解决这个问题,我们需要先对数据进行清洗、归一化和降维。首先,本文利用dpFeature进行基因的特征选择,删除对分化过程作用甚微的基因;为了消除数据的量级跨度,对数据进行对数归一化处理;最后,为了消除数据噪声和方便数据可视化,并且基于基因数据的特点和结构,我们选择修正的局部线形嵌入(Modified Locally Linear Embedding,简称MLLE)降维方法对数据降维。在细胞排序部分,本文先是提出了一种动态半径近邻方法寻找cell-marker并对细胞集群进行聚类;再利用cell-marker构建最小生成树描绘细胞分化轨迹的整体分支框架;最后本文提出了一种基于Apollonius圆的新的细胞伪时间计算方法对细胞进行排序。在验证部分,将本方法应用于人胚胎干细胞数据集和小鼠胚胎单细胞数据集,将实证结果的预测轨迹与实验室分化轨迹结果进行Spearman相关性分析,分别得到了0.872和0.894较好的结果。
闫艳[6](2019)在《网络推断在生物网络中的应用研究》文中提出高通量技术的快速发展为基因组范围内的基因表达和蛋白质活性提供了大量信息。生物数据出现了前所未有的增长,有效的利用这些数据,由这些数据挖掘出其背后的生物网络是系统生物学的研究热点之一。复杂网络理论为我们探索各种复杂系统提供了一个新的视角,人们逐渐认识到研究过程中不能仅局限于单个基因,而是应该全面地从系统的角度去探寻生物分子间的相互作用关系,从而研究整个生物系统的运行机制。生物网络推断的目的正是从生物数据中构建生物分子间相互作用关系所构成的网络结构。因此,生物网络推断的研究具有重要的意义。蛋白质参与和控制了生物内大部分生命活动。蛋白质间相互作用网络(PPI)的分析方法成为蛋白质功能特性研究的重要途径,对蛋白质间相互作用网络的分析不仅为系统认识细胞内生命活动的作用机制提供有效方法,同时也在疾病诊断治疗和药物开发等方面的广泛应用发挥了重要的作用。三阴性乳腺癌(TNBC)是指癌组织免疫组织化学结果为雌激素受体(ER)、孕激素受体(PR)和原癌基因(Her-2)均为阴性的乳腺癌。TNBC往往更具侵略性,与受体阳性亚型的预后相关,在青年和非洲裔美国妇女中更常见。乳腺癌是全世界女性中最常见的生命危害疾病之一,乳腺癌的各种遗传指标已经过详尽的研究。据统计,三分之一的乳腺癌患者后来复发或转移。尽管检测和新兴治疗已取得很大进展,但必须进一步改进早期诊断以减少转移的机会。为了更好的预测疾病,监测和早期诊断非常重要,了解身体的蛋白质水平可能会导致产生癌症如何发挥作用的新预测模型。由于细胞的实际功能特性是通过蛋白质传播的,一些癌症研究人员使用细胞系或由于技术挑战而分析深度较低,已经对蛋白质组学进行了广泛的研究。超过80%的乳腺癌可通过靶向治疗进行治疗,但三阴性乳腺癌是一个重要的未得到解决的临床问题。本文以三阴性乳腺癌的蛋白质组学数据为研究对象,通过研究MAPK信号传导通道中与细胞增殖有关的特定途径的蛋白质,这些特定的途径包括MAP激酶、JNK激酶和P38激酶路径通道。通过对特定途径蛋白质相互作用网络进行构建,挖掘蛋白质间相互作用关系,检测出对于动态过程的关键蛋白质,这些关键蛋白质的发现能够为医疗诊断及诊断效果的监控等许多生物及医学难题提供参考依据。近些年来,基于信息论的相关性度量方法被广泛应用以构建生物网络。有学者提出了以条件互信息(CMI)为网络节点间相关性的度量指标,并基于路径相容算法(PCA)进行网络边的删除的方法构建网络。该算法具有非线性独立性的检测性能,且具有计算简便、运行速度快的特点,比较适合用来构建复杂的生物网络。因此,我们选用Yair Pozniak等(2016)文献中收集的乳腺癌不同阶段的88个样本,通过Go-enrichment对基因集进行功能分析,选出Ras-Protein和Response to cytokine功能的90个蛋白质进行研究。运用PCA-CMI算法,我们对所选出的90个蛋白质在不同状态下构建了四个不同的网络,并对所构建的网络的拓扑结构和特性进行了对比。在对MAPK信号传导的特定蛋白质进行蛋白质间相互作用网络构建时,我们首先对MAPK通道的特定蛋白质数据进行处理,基于生物学背景挑选出经典传导路径的60个蛋白质进行研究,然而由于数据缺失比例较大,移除缺失率高达50%的蛋白质,对剩下的27个蛋白质数据进行补全。然后通过扩散图和Wanderlust算法对44个非时间序列的27个蛋白质进行伪时间排序,然后通过高斯过程回归对这27个数据进行平滑处理。我们发现有部分经过平滑后的蛋白质数据和原始数据相比存在很大的“噪音”,因而将这些蛋白质移除。最后对剩下的16个蛋白质数据进行蛋白质间相互作用动态网络的构建。其次我们针对经过选择及数据处理后的16个蛋白质进行蛋白质间相互作用网络的推断。其推断过程主要分为两部分:首先通过自上而下的方法(高斯图模型)对16个蛋白质构建静态网络;然后基于此静态网络的拓扑结构,我们通过自下而上的方法(即微分方程建模)对所推断的静态网络进行动态网络的构建。我们将原始数据运用在高斯图模型上进行静态网络的构建,在进行微分方程建模时我们采用的是经过伪时序平滑处理后的蛋白质数据。通过近似贝叶斯计算的拒绝算法对微分方程的参数进行估计。在构建微分方程数学模型时我们假定所推断的网络拓扑结构中节点间的边具有双向性(即同时具有正向调控作用和负向调控作用)。利用Kitano教授提出的稳定性理论对微分方程的稳定性进行检验,我们逐步小心的依次删除具有方向的边。最后推断出12个蛋白质间相互作用的动态网络。最后,本文通过对条件互信息(CMI)和路径相容算法(PCA)相结合的网络推断算法进行研究(即PCA-CMI算法和与此相类似的PCA-PMI算法)。我们发现路径相容算法(PCA)会因输入变量顺序的不同而产生不同的结果。在处理高维数据时,这种情况尤其突出。为解决这一问题,我们结合统计方法,以PCA-CMI算法为基础,通过多次随机实验模拟得到网络边的频率矩阵从而构建网络。实验表明,依据边的频率矩阵的方法构建的网络并不理想。然后,我们又对PCA-CMI算法的0阶、1阶及2阶的条件互信息矩阵(边的权重矩阵)进行实验模拟。在Matlab上对算法进行计算分析,我们发现依据边权重矩阵(即2阶条件互信息矩阵)的均值矩阵构建网络的方法具有较高的精度。因而,我们提出依据边权重(2阶CMI矩阵)的均值矩阵构建网络的新方法(简称为EWMM)。通过ROC曲线对比表明,我们所提出的EWMM算法比PCA-CMI算法具有更好的性能。本文的主要创新之处有以下四点:第一,我们基于非时间序列的三阴性乳腺癌数据进行动态网络的构建,这是目前为止第一个对于非时间序列数据的动态网络研究。第二,在构建动态网络时,我们提出了一个新的数学模型。利用该数学模型,我们可以探讨蛋白质间相互作用关系。同时该数学模型在判定蛋白质相互作用关系时具有较高的灵活性。第三,基于三阴性乳腺癌病人的蛋白质数据,我们对特定途径的蛋白质进行了静态网络和动态网络的构建。因此所构建的动态网络同基于正常细胞所推断的网络模型相比具有一些相同和不同之处。因此,我们所构建的三阴性乳腺癌病人蛋白质相互作用网络,对以后的实验研究具有一定的预测意义。第四,基于相关性对静态网络的推断,我们提出了一个新的算法。该算法建立在PCA-CMI算法基础之上,我们解决了PC(Path consistency)算法因输入变量顺序不同而得到不同结果的问题。即提出了一个统计的方法,通过多次试验模拟得到边权重均值矩阵,依据所得到的边权重均值矩阵对网络进行推断。我们所提出的新算法与现有算法相比具有一定的优势。
张炜[7](2019)在《村落边界形态类型识别及驱动因子相关性研究 ——以江苏宜兴为例》文中进行了进一步梳理村落是由一定规模的从事农业相关的人群,在特定地域范围内集中居住、活动的现象、过程与形态。村落的发展历程伴随其形态的生长与演变,其本质是村落内部建筑单体的集聚及与其他要素融合的过程,最终呈现为边界与空间结构形态。基于建筑对村落边界生长、界定的重要影响,论文主要就村落建筑平面轮廓入手,从图形视角出发探究村落二维边界的界定原理、数据库构建、类型识别及其驱动因子相关性规律。首先,论文规定那些仅受建筑单体集聚影响而界定的村落边界为“建设边界”,并以其为对象展开研究。在外部空间原理的基础上结合数理方法,利用聚类原理筛选村落样本、德洛内三角网原理可视化村落内建筑的空间关系、最小生成树算法原理选择建筑群内的运算对象以及凸包原理提取村落的建设边界图形。由于运算过程较为庞大与复杂,论文运用Python编程,整合各类原理,以宜兴市150个村落的建筑轮廓总平面为样本进行初始数据输入,求取其二维边界图形以及属性指标。基于此,论文整合边界矢量数据与形态属性指标数据,选择MapGIS平台,以地图与元数据为呈现形式,完成村落形态数据库的框架构建及初步数据的录入,并保证其科学性与可扩展性。其次,论文基于传统定性分析的村落形态分类,初步构建了150个村落的样本数据,旨在利用属性指标实现村落形态的类型识别。针对村落的整体布局,运用聚类算法下村落子类个数识别,完成集中型与组团型村落的类型识别;针对建筑布局的聚散程度,运用边界图形空缺率及建筑密度与建筑间平均距离三类指标,完成集聚型与散漫型村落的类型识别;针对边界形状特征,运用边界图形长宽比、图形密实度与形状指数三类指标数据,实现线型、团块型与指状型村落的类型识别。最后,论文探讨了影响村落边界形态生成的外部驱动因子,主要包含自然要素、区位要素及社会经济要素三类。根据比对分析,论文最终选择将山体、水体、田地及道路等四类具象的驱动因子纳入研究范围,针对组团式村落、村落边界不同的图形特征以及边界曲折度三个层面,基于驱动因子影响度概念,初步分析并探讨了驱动因子与村落形态之间的相关性及其内在规律。综上所述,论文旨在利用建筑学的基本原理结合数理方法与计算机编程语言,探索村落边界形态界定与提取的新方法,进一步凝练与之相关的形态属性指标,建立村落形态数据库,为村落形态分类识别、驱动因子关联影响、内在机制揭示以及村落更新规划提供更为科学、具体的量化依据,在局部层面实现村落形态研究从定性向定量的转型升级。
蒋一帆[8](2019)在《A股市场的收益特征及预测研究 ——基于符号时间序列分析方法》文中提出近些年来,随着中国经济的飞速增长,金融市场也得到了快速的进步和提高。金融业在我国国民经济中的重要地位愈发凸显,极大的影响着经济和社会的稳定。因此,运用科学合理的方式认识股票市场的特征对于分散风险、及时发现风险并尽可能规避风险有重要的意义。我国传统计量学方法在收益预测上面已经有了很大的成就,但对于金融系统这个非线性系统,还可以从一些新的角度新的方法进行研究学习,弥补传统方法的不足。本文即基于此考虑,将无须构建模型和任何假设的符号时间序列分析方法引入金融市场中,试图对股票收益和网络结构进行分析研究。本文首先介绍了文章的研究背景、研究意义,并对文中应用到的研究方法、理论基础、结构框架等进行了简单的描述,随后提出了创新点所在。第一章主要是理论探讨部分,包括时间序列符号化的过程、序列间差异性描述所用到的欧几里得范数等。随后介绍了最小生成树以及分层树方法。第二章主要对金融市场收益特征及聚类特征进行实证分析。首先将上证综指、深证成指、上证工业股、商业股、地产股和公用事业股指数6个指数收益序列符号化,得出了其收益水平的主要变化模式,并依据相关统计量进行了序列间的差异性分析,随后基于主要变化模式对收益区间进行了预测分析。最后对上证180指数成分股进行网络结构分析,得出最小生成树和分层树,分析标的股票间的聚集效应,得到标的股票的分类聚集信息。第三章提出了基于序列比对的收益预测方法。通过利用生物DNA学中的基因配对方法,得到可用于进行预测的基础收益序列,通过动态规划算法预测未来收益值,并计算平均绝对百分比误差(MAPE)值来评估预测效果如何,证明了该方法的可行性。随后分别对上证综指采取静态法和动态法进行符号化处理,并将结果进行对比,得出最优方法。通过对金融收益特征分析,所研究的上证综指等收益序列的收益水平的变化模式主要为连续四个交易日为中等收益以及连续四个交易日为中等收益、中等收益、低收益、高收益;且通过分析各指数间的差异性得出,上证工业股指数与房地产股指数相关性比较小,两者的收益差异性较大,上证房地产股指数与公用事业股指数相关性较大,其收益差异最小。而细分到单个成分股可以看出,所研究的成分股之间呈现出同行业聚类、同区域聚类、合作型分布聚类以及同股东分布聚类等特点,即股价相关性较大,这对于投资者分散风险有很强的指导意义。在基于序列比对的收益预测中,MAPE值均小于0.1,表明序列比对方法预测效果较好。通过对动态法与静态法得出的预测精度对比发现,动态的符号化方法要优于静态法,与其他学者研究结果一致。
魏江勇[9](2019)在《单细胞数据的伪时间轨迹和调控网络推断研究》文中研究指明近年来快速发展的单细胞测序技术可以在单次实验中同时测量数万个细胞数千个基因的表达量,产生了大量静态的单细胞快照数据,从而可以揭示出不同细胞间的微小差异。单细胞的规模性和复杂性使其成为了大数据研究的范例。如何从大规模异质单细胞数据集提取有效的生物信息,揭示基因之间隐藏的关联、交互和动态特性面临着重大挑战。对于单细胞数据的分析和处理已经成为了计算生物学的一个热门课题,有许多问题有待于解决和突破,受到了大量研究人员的关注。本文主要研究单细胞数据的伪时间轨迹推断以及基于伪时间轨迹的单细胞基因调控网络构建问题。通过识别单细胞的伪时间轨迹,为理解细胞行为和命运决定提供了全新的视角,为细胞发育的动力学机制提供了理论解释。通过构建基因调控网络,有助于从整体上了解不同基因的功能和基因之间的相互作用,更好地理解细胞内部的基因表达机制,促进疾病病理的研究。本文的主要研究工作如下:第一,我们开发了一个新的基于路标点构建单细胞伪时间轨迹的算法SCOUT。该方法首先通过局部线性嵌入降维算法将数据投影到一个低维空间。然后我们提出一种新的基于细胞密度寻找路标点的方法,可以比常规的基于聚类中心的方法找到更多的路标点,这样构建的最小生成树会更加稳健,从而减少了单细胞数据噪声的影响。此外我们提出基于阿波罗圆投影或者权重距离来计算单细胞伪时间,提高了伪时间轨迹推断算法的准确性。第二,我们开发了一个新的基于扩散传播的单细胞伪时间轨迹推断算法DTFLOW。该方法首先基于每个数据点及其邻近点的欧氏距离构建一个近邻图矩阵,然后利用高斯核函数将其转换为一个马尔可夫转移矩阵,这时可以通过重启随机游走算法将不同的数据点转化为同一概率空间的不同离散分布。接着利用巴氏系数可以构建一个巴氏核矩阵,并通过对数操作将其转换为一个新的核矩阵,基于该核矩阵进行降维和伪时间排序。我们提出的新方法一方面其降维过程采用了新的技巧,另一方面单细胞的伪时间排序不完全依赖于降维过程,大大减少了信息损失。我们同时提出一种新的基于已排序结果在近邻图上逆向搜索识别分支的方法,比较符合单细胞的分化过程。数据实验表明DTFLOW优于目前先进的伪时间轨迹算法。第三,我们设计了一个新的基于伪时间轨迹的的单细胞基因调控网络构建模型。假定通过伪时间轨迹推断算法已经得到了不同单细胞的伪时间排序。该模型通过一个自顶向下的方法和一个自底向上的方法来研究调控网络,即首先基于单细胞的伪时间推断基因调控网络的结构,然后构建一个微分方程来描述基因调控网络的动态特征。该过程考虑了单细胞基因调控的时间依赖性,实验结果表明其用于基因调控网络是一种非常有效的方法。综上所述,本文的研究为单细胞的数据分析问题提供了一个新的框架,并在该框架中实现了新的算法和模型,针对单细胞数据上的信息提取进行了有意义的探索和尝试,为今后的研究提供了思路。
蔡媛媛[10](2019)在《聚类算法的研究与实现》文中进行了进一步梳理聚类算法是数据挖掘、模式识别等方向的重要研究内容之一,被广泛应用于各个行业的数据分析和处理。多年来,研究学者针对不同应用需求,提出了各种聚类算法,这些算法各有长处,也各有其局限性。论文的主要任务是研究K-Means,PAM,DBSCAN这三个常用算法,针对各自缺陷提出改进方案,并利用多个数据集对改进前后算法进行测试对比,评价改进效果。论文完成的主要工作包括以下几个方面:论文研究并实现了K-Means聚类算法的改进方法,针对K-Means聚类算法的分类效果不稳定,对初始中心点的依赖性高的缺陷,设计实现了基于最小生成树的K-Means改进算法,构建最小生成树并剪断距离最大的6)-1个枝后,计算得到的6)个簇的中心点作为K-Means聚类的初始中心点。经实验验证,算法稳定性有了较大提高;论文研究并实现了PAM聚类算法的改进方法,针对PAM算法在遍历整个数据集,交换中心点和重新计算距离上造成的时间复杂度过高的缺点,设计实现了一个存储最近距离的PAM改进算法。通过存储每个非中心点的最近距离简化更新聚类的过程,经实验验证,改进后的算法在同一数据集上速度明显快于PAM算法;论文研究并实现了DBSCAN聚类算法的改进方法,针对DBSCAN算法在多种密度分布的数据集上分类能力较差的缺点,设计实现了多参数和合并邻近簇的改进算法。在VDBSCAN聚类结果的基础上,对距离较小的簇进行合并。经实验验证,改进后的DBSCAN算法既保持了对不同密度分布的簇的识别能力,又提高了准确率。论文研究并改进了K-Means聚类算法在硬件上的实现,实验首先通过软硬件协作实现了K-Means算法,经实验验证,改进后的算法在速度提高的同时,对资源的占用也大幅提升。之后,实验针对K-Means算法在距离计算上消耗过多的时间,采用了基于6)-(9树的聚类算法来减少距离计算的次数。实验对算法中硬件无法支持的部分进行了改写和调整,并依据硬件特性进行优化。经实验验证,改进方法能够有效提高算法运行速度,同时避免了资源占有过高的问题。
二、基于最小生成树的基因分类算法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于最小生成树的基因分类算法(论文提纲范文)
(1)基于树形重心与割边约束的聚类算法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 引言 |
1.2 国内外研究现状 |
1.3 本文主要工作 |
1.4 论文研究及章节安排 |
第2章 现有聚类算法及相关理论知识 |
2.1 划分式聚类算法 |
2.1.1 K-means算法 |
2.1.2 K-medoids算法 |
2.2 基于密度的聚类算法 |
2.3 层次式聚类算法 |
2.3.1 CURE层次聚类算法 |
2.3.2 Chameleon层次聚类算法 |
2.4 最小生成树聚类算法 |
2.4.1 朴素分裂式最小生成树聚类算法 |
2.4.2 SAM算法 |
2.4.3 其他最小生成树聚类算法 |
2.5 本章小结 |
第3章 一种基于最小生成树树形重心的类间距离度量方法 |
3.1 相似度度量方法及类别中心选取 |
3.1.1 欧几里德距离及其推广 |
3.1.2 其他经典相似度度量 |
3.1.3 测地距离度量 |
3.1.4 类别中心及代表点法 |
3.2 最小生成树树形重心 |
3.3 基于最小生成树树形重心的类间距离度量方法 |
3.4 本章小结 |
第4章 一种基于限制广度优先搜索的预聚类方法 |
4.1 广度优先搜索算法 |
4.2 一种基于限制广度优先搜索的预聚类算法 |
4.3 本章小结 |
第5章 一种基于割边约束条件的多阶段层次聚类方法 |
5.1 阶段Ⅱ:基于割边约束的小类合并过程 |
5.2 阶段Ⅲ:最终聚类 |
5.3 完整算法 |
5.4 整体算法时间复杂度分析 |
5.5 本章小结 |
第6章 算法对比实验 |
6.1 聚类评价指标 |
6.2 实验环境介绍 |
6.3 人工数据集实验结果 |
6.4 UCI真实数据集实验结果 |
6.5 算法运行时间对比 |
6.6 本章小结 |
第7章 全文总结与展望 |
7.1 本文工作总结 |
7.2 研究展望 |
参考文献 |
攻读硕士学位期间的相关成果 |
致谢 |
(2)演化的数据流聚类算法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 国内外研究历史与现状 |
1.2.1 数据流聚类 |
1.2.2 聚类演化检测 |
1.2.3 特征演化数据流学习 |
1.3 本文的主要贡献与创新 |
1.4 本论文的结构安排 |
第二章 数据流聚类理论基础 |
2.1 演化数据流及其时间局部性 |
2.2 数据流聚类算法 |
2.2.1 数据流存储结构 |
2.2.2 两阶段聚类模式 |
2.2.3 数据流常见聚类算法及复杂度分析 |
2.3 数据流聚类概念演化学习与检测 |
2.3.1 基于拓扑的演化检测 |
2.3.2 基于二部图的演化检测 |
2.4 特征演化数据流学习 |
2.4.1 FESL算法 |
2.4.2 OCDS算法 |
2.4.3 OLVF算法 |
2.5 本章小结 |
第三章 数据流自适应聚类算法 |
3.1 问题描述 |
3.2 方法介绍 |
3.2.1 方法总览 |
3.2.2 自适应聚类生命周期学习 |
3.2.3 基于最小生成树的聚类 |
3.2.4 自动聚类演化检测与分析 |
3.2.5 时间和空间复杂度分析 |
3.3 实验验证 |
3.3.1 实验设置 |
3.3.2 算法有效性验证 |
3.3.3 聚类算法表现分析 |
3.3.4 参数敏感性分析 |
3.4 本章小结 |
第四章 特征演化数据流学习 |
4.1 问题描述 |
4.2 方法介绍 |
4.2.1 总体概述 |
4.2.2 基于微簇的数据表征 |
4.2.3 特征演化学习框架:FEMC |
4.2.4 基于FEMC的聚类算法 |
4.2.5 基于FEMC的分类算法 |
4.2.6 时间空间复杂度分析 |
4.3 实验验证 |
4.3.1 数据集 |
4.3.2 对比实验及设定 |
4.3.3 实验表现分析 |
4.3.4 敏感性分析 |
4.4 本章小结 |
第五章 全文总结与展望 |
5.1 全文总结 |
5.2 后续工作展望 |
致谢 |
参考文献 |
攻读专业硕士学位期间取得的成果 |
(3)基于科创板股票网络构建的投资组合策略研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究的背景 |
1.1.1 科创板设立背景 |
1.1.2 复杂网络背景 |
1.2 研究的目的和意义 |
1.3 研究的内容、方法和技术路线 |
1.3.1 研究内容及方法 |
1.3.2 技术路线 |
1.4 本文的研究贡献 |
第2章 文献综述与相关理论 |
2.1 文献综述 |
2.1.1 复杂网络的研究 |
2.1.2 复杂网络在金融领域的研究 |
2.2 相关理论 |
2.2.1 复杂网络的构建方法 |
2.2.2 基本指标 |
2.2.3 最小生成树理论 |
2.2.4 社团理论 |
第3章 科创板网络结构问题的描述与分析 |
3.1 科创板网络结构问题描述 |
3.1.1 科创板市场特征 |
3.1.2 我国股市网络结构研究现状描述 |
3.1.3 提出问题 |
3.2 科创板网络结构问题分析 |
3.2.1 网络结构研究工具分析 |
3.2.2 网络结构问题研究方法分析 |
第4章 科创板股票网络的构建 |
4.1 数据来源与处理 |
4.2 网络的构建及参数计算 |
4.2.1 基于阈值法的网络构建及参数计算 |
4.2.2 基于最小生成树法的网络构建及参数计算 |
第5章 基于社团理论的投资组合策略 |
5.1 GN算法下的科创板社团计算 |
5.2 基于社团划分及节点度值的投资组合策略 |
5.2.1 投资组合策略研究 |
5.2.2 投资组合策略实证 |
第6章 结论与建议 |
6.1 结论 |
6.2 建议 |
6.2.1 对监管者的建议 |
6.2.2 对投资者的建议 |
参考文献 |
附录 |
附录1 网络构建及参数计算的Matlab主程序 |
附录2 Prim算法程序 |
附录3 度及度分布程序 |
附录4 聚类系数程序 |
附录5 GN算法程序 |
致谢 |
(4)基于密度核心和局部合力的聚类分析和异常检测研究(论文提纲范文)
中文摘要 |
英文摘要 |
1 绪论 |
1.1 选题背景 |
1.2 国内外研究现状 |
1.2.1 聚类算法研究 |
1.2.2 聚类评价指标研究 |
1.2.3 异常检测研究 |
1.3 研究目标 |
1.4 研究内容 |
2 相关概念和方法 |
2.1 聚类方法概述及相关研究 |
2.1.1 聚类算法定义 |
2.1.2 聚类方法概述 |
2.2 聚类评价指标概述及相关研究 |
2.2.1 聚类评价指标定义 |
2.2.2 聚类评价指标方法概述 |
2.3 异常检测概述及相关研究 |
2.3.1 异常检测定义 |
2.3.2 异常检测方法概述 |
2.3.3 异常检测评价标准 |
2.4 密度核心 |
2.4.1 密度核心来源 |
2.4.2 密度核心的基本概念 |
2.5 局部合力 |
2.5.1 局部合力来源 |
2.5.2 局部合力的基本概念 |
3 基于密度核心和动态扫描半径的聚类算法 |
3.1 聚类方法的相关分析及存在的问题 |
3.2 自然邻居 |
3.3 聚类方法DCNaN |
3.4 人工数据集的聚类对比实验 |
3.5 真实数据集的聚类对比实验 |
3.6 人脸数据集上的聚类对比实验 |
3.7 本章小结 |
4 基于密度核心和相对密度的聚类算法(RDcore) |
4.1 Dcore和 DCNaN存在的问题 |
4.2 聚类算法RDcore |
4.3 人工数据集的聚类对比实验 |
4.4 真实数据集的聚类对比实验 |
4.5 人脸数据集上的聚类对比实验 |
4.6 RDcore和 DCNaN的区别 |
4.7 本章小结 |
5 基于密度核心的内部评价指标研究 |
5.1 现有内部评价指标分析及相关缺陷 |
5.2 基于密度核心的内部评价指标(DCVI) |
5.2.1 DCVI指标的定义 |
5.2.2 基于MST-Clustering和 DCVI的聚类数量评估方法 |
5.2.3 DCVI在其它聚类算法的扩展研究 |
5.3 实验 |
5.3.1 MST-DCVI在人工数据集上的对比实验 |
5.3.2 MST-DCVI在真实数据集上的对比实验 |
5.3.3 基于DCVI的其它聚类算法在合成数据上的实验 |
5.3.4 基于密度核心和基于全局数据集的对比实验 |
5.4 本章小结 |
6 基于局部合力的异常检测方法研究 |
6.1 局部合力变化率的定义及意义 |
6.2 基于局部合力变化率的离群点检测方法 |
6.3 基于局部合力变化率的边界点检测方法 |
6.4 实验 |
6.4.1 关于LGOD的实验 |
6.4.2 关于LGBD的实验 |
6.5 本章小结 |
7 总结和展望 |
7.1 主要结论 |
7.2 后续研究工作展望 |
参考文献 |
附录 |
A.作者在攻读学位期间发表的论文目录 |
B.作者在攻读学位期间取得的科研成果目录 |
C.学位论文数据集 |
致谢 |
(5)基于单细胞测序数据的细胞分化轨迹算法探究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 选题背景 |
1.2 选题意义 |
1.3 国内外研究现状 |
1.3.1 基于维度减少的算法 |
1.3.2 基于最近邻图的算法 |
1.3.3 其他谱系重建算法 |
1.4 本文主要研究工作 |
第2章 预备知识 |
2.1 Spearman相关系数 |
2.2 Apollonius圆 |
2.3 EM算法 |
2.4 本章小结 |
第3章 数据处理 |
3.1 数学记号 |
3.2 特征选择和数据归一化 |
3.3 降维 |
3.4 本章小结 |
第4章 构建细胞分化伪时间 |
4.1 选取cell-marker |
4.1.1 高斯混合模型聚类 |
4.1.2 动态半径近邻方法 |
4.2 构建最小生成树确定分支 |
4.3 分化伪时间分配 |
4.4 本章小结 |
第5章 实证分析 |
5.1 引言 |
5.2 人胚胎干细胞数据集 |
5.3 小鼠胚胎单细胞数据集 |
结论 |
参考文献 |
致谢 |
(6)网络推断在生物网络中的应用研究(论文提纲范文)
摘要 |
abstract |
导论 |
一、研究背景及研究意义 |
二、国内外研究综述 |
三、研究内容及逻辑结构 |
四、研究方法 |
五、创新之处 |
第一章 蛋白质间相互作用网络研究基础 |
第一节 生物学中的网络基本概念 |
一、系统生物网络相关介绍 |
二、网络的相关概念 |
三、生物网络的统计特征 |
第二节 基因(蛋白质)间相关性度量 |
一、基于线性关系相关性的度量 |
二、基于非线性关系的相关性度量 |
三、不同相关性度量方法的比较 |
第三节 蛋白质间相互作用网络相关介绍 |
一、蛋白质间相互作用网络(PPI) |
二、蛋白质间相互作用网络(PPI)的基本特性 |
本章小结 |
第二章 蛋白质间相互作用网络推断及相关算法 |
第一节 网络推断的理论基础 |
一、生物网络推断的介绍 |
二、基于模型的网络推断方法 |
三、基于相关性的网络推断方法 |
第二节 高斯图模型理论及相关研究 |
一、概率图模型的介绍 |
二、邻接矩阵 |
三、高斯图模型理论 |
第三节 基于信息论的网络推断 |
一、路径相容算法(PC算法) |
二、基于信息论相关算法 |
三、基于全样本蛋白质数据网络的构建 |
四、不同状态下网络结构对比 |
第四节 动态网络相关理论介绍 |
一、基于微分方程的动态网络模型构建 |
二、基于因果推断的动态网络模型 |
本章小结 |
第三章 蛋白质数据的分析与处理 |
第一节 基于病人蛋白数据的筛选 |
一、蛋白质组学数据的选择 |
第二节 缺失数据的补全方法 |
一、处理缺失数据的方法 |
二、基于病人蛋白数据的补全方法 |
第三节 基于单个病人蛋白数据的伪时间排序 |
一、伪时间排序 |
二、数据平滑 |
三、基于单个病人蛋白数据伪时间排序模拟 |
本章小结 |
第四章 基于单个病人蛋白质数据的调控网络推断 |
第一节 基于高斯图模型构建的网络 |
一、MAPK通路 |
二、16个基因构成的网络 |
三、12个蛋白质构成的网络 |
第二节 数学模型的建立 |
一、基于贝叶斯推断的参数估计 |
二、近似贝叶斯计算相关介绍 |
三、动态网络的构建 |
第三节 模型的稳定性分析及网络优化 |
一、参数估计的选择标准 |
二、稳定性检验 |
三、网络的优化 |
本章小结 |
第五章 基于输入变量顺序独立的网络的构建 |
第一节 PC算法的变量顺序依赖性相关论述 |
一、PC算法输入变量顺序对输出图骨架的影响 |
第二节 基于边出现频率的网络推断 |
一、基于边出现频率构建网络的思想 |
二、算法的结果分析 |
第三节 基于边权重均值矩阵的网络推断 |
一、基于边的权重构建网络的思想 |
二、基于边权重的均值矩阵算法 |
三、对边权重均值矩阵的算法(EWMM法)构建网络的评估 |
第四节 MAPK信号通路网络的构建 |
一、57个蛋白质构建的网络 |
二、基于最小生成树的最小连通图 |
三、边权重的均值法(EWMM)构建的网络 |
四、三个网络同KEGG通路的比较 |
本章小结 |
总结与展望 |
一、研究内容总结 |
二、研究中的局限与展望 |
参考文献 |
在读期间科研成果 |
一、已完成的科研论文 |
二、参加的学术交流 |
附录 |
附录 A |
附录 B |
致谢 |
(7)村落边界形态类型识别及驱动因子相关性研究 ——以江苏宜兴为例(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.1.1 村落发展状况及存在问题 |
1.1.2 村落研究数据库的缺乏 |
1.1.3 村落研究量化技术发展沿革 |
1.2 研究内容及范围 |
1.2.1 研究内容 |
1.2.2 研究范围 |
1.3 相关理论与研究综述 |
1.3.1 数据库构建 |
1.3.2 国内村落形态量化研究的对象与方法 |
1.4 研究目标和意义 |
1.4.1 研究目标 |
1.4.2 研究意义 |
1.5 研究方法和框架 |
1.5.1 研究方法 |
1.5.2 研究框架 |
第二章 村落边界形态类型、属性及界定原理 |
2.1 基本概念 |
2.1.1 物质边界与抽象边界 |
2.1.2 单一边界与复合边界 |
2.1.3 简单边界与复杂边界 |
2.1.4 研究内容定义 |
2.2 边界形态属性 |
2.2.1 形态差异 |
2.2.2 属性分类 |
2.2.3 小结 |
2.3 边界形态界定原理 |
2.3.1 边界图形设定 |
2.3.2 界定原理 |
2.3.3 案例研究 |
2.4 本章小结 |
第三章 村落样本选择及其边界形态数据库构建 |
3.1 村落样本选择 |
3.2 基础数据整理与重绘 |
3.2.1 基本要求 |
3.2.2 重绘结果 |
3.3 边界图形求取 |
3.4 属性数据采集 |
3.4.1 聚类算法下的子类个数 |
3.4.2 基础物理数据 |
3.4.3 村落建筑之间的平均距离 |
3.4.4 边界图形密实度 |
3.4.5 长宽比 |
3.4.6 形状指数 |
3.5 村落形态数据库构建 |
3.5.1 数据纳入种类 |
3.5.2 数据库设计原则 |
3.5.3 数据库构建平台及过程 |
3.5.4 数据库结果呈现 |
3.6 本章小结 |
第四章 基于多属性指标的村落边界形态的类型识别 |
4.1 传统定性分类 |
4.2 基于聚类算法下子类个数的村落类型识别 |
4.2.1 集中型与组团式 |
4.2.2 识别指标与方法 |
4.2.3 类型识别结论 |
4.3 基于村落密度、建筑平均距离及边界空缺率的村落类型识别 |
4.3.1 集聚型与散漫型 |
4.3.2 识别指标与方法 |
4.3.3 类型识别结论 |
4.4 基于边界图形长宽比与形状指数的村落类型识别 |
4.4.1 线型、团块型与指状型 |
4.4.2 识别指标与方法 |
4.4.3 类型识别结论 |
4.5 本章小结 |
第五章 影响村落边界形态的驱动因子及其内在关联 |
5.1 驱动因子概述 |
5.1.1 定义 |
5.1.2 分类 |
5.2 相关性概述 |
5.3 基于驱动因子影响度的内在相关性 |
5.3.1 驱动因子的影响度解析 |
5.3.2 基于组团式村落的驱动因子影响度分析 |
5.3.3 基于边界图形特征的驱动因子影响度分析 |
5.3.4 基于边界曲折度的驱动因子影响度分析 |
5.4 本章小结 |
第六章 结语 |
6.1 研究成果总结 |
6.1.1 探索求取村落边界形态的新方法 |
6.1.2 提出学科交叉融合的研究模式 |
6.1.3 构建村落形态的基本数据库 |
6.1.4 总结出基于属性指标识别村落形态的有效方法 |
6.1.5 探索村落边界形态与驱动因子的内在相关性 |
6.2 村落边界形态量化分析的优势与应用前景 |
6.2.1 村落形态数据库的可扩展性与可操作性 |
6.2.2 村落量化分析的可拓展性 |
6.2.3 量化研究对村落保护与更新的指导性 |
6.3 不足与展望 |
6.3.1 研究对象确定阶段 |
6.3.2 边界识别规则及计算机辅助求取 |
6.3.3 量化分析与评判 |
致谢 |
参考文献 |
插图及附表清单 |
第一章 |
第二章 |
第三章 |
第四章 |
第五章 |
附录 |
作者简介 |
(8)A股市场的收益特征及预测研究 ——基于符号时间序列分析方法(论文提纲范文)
摘要 |
abstract |
绪论 |
一、研究背景及意义 |
二、文献综述 |
三、研究目的、主要内容及研究方法 |
四、本文的创新点 |
第一章 研究方法概述 |
第一节 符号时间序列分析方法 |
一、符号的转换方法 |
二、符号序列的编码 |
三、子序列长度L的选择 |
第二节 符号序列间的统计分析 |
一、符号序列直方图与符号树 |
二、相对熵与欧几里得范数 |
三、对称交互熵 |
第三节 网络结构分析方法 |
一、网络结构分析概述 |
二、最小生成树与分层树 |
第二章 股票市场金融收益特征分析 |
第一节 股票市场收益特征分析 |
一、收益序列符号化 |
二、收益序列的主要变化模式分析 |
三、基于主要变化模式的收益区间预测 |
四、收益序列间的差异性分析 |
第二节 股票市场聚类特征分析 |
一、数据选取与处理 |
二、实证结果及分析 |
第三节 本章小结 |
第三章 基于序列比对模式的金融收益预测 |
第一节 序列比对及算法 |
一、序列比对概述 |
二、动态规划算法 |
三、计分函数与空位罚分 |
第二节 收益预测与效果分析原理 |
一、基于模式匹配的预测原理 |
二、预测效果分析 |
第三节 基于序列比对模式收益预测的实证分析 |
一、基于动态符号化方法的上证综指的收益预测 |
二、基于静态符号化方法的上证综指的收益预测 |
第四节 本章小结 |
总结与展望 |
参考文献 |
附录A 上证180 指数收益序列分位数划分情况 |
附录B 代码 |
致谢 |
(9)单细胞数据的伪时间轨迹和调控网络推断研究(论文提纲范文)
摘要 |
Abstract |
导论 |
一、选题背景与意义 |
二、研究综述 |
三、研究方法及内容结构 |
四、研究创新之处 |
第一章 核方法与降维 |
第一节 核方法介绍 |
一、核函数与核矩阵 |
二、核构造 |
三、巴氏核 |
第二节 图结构 |
一、近邻图搜索算法 |
二、最小生成树和最短路径算法 |
第三节 基于核方法的降维 |
一、核主成分分析降维算法 |
二、多维标度和等距特征映射降维算法 |
三、局部线性嵌入降维算法 |
四、扩散映射降维算法 |
五、拉普拉斯特征映射降维算法 |
六、DPT伪时间排序算法 |
本章小结 |
第二章 基于路标点的单细胞伪时间轨迹推断算法 |
第一节 SCOUT算法实现 |
一、路标点细胞选取 |
二、基于阿波罗圆投影的伪时间轨迹排序 |
三、基于权重距离的伪时间轨迹排序 |
四、沿着伪时间的数据平滑 |
第二节 实验结果分析 |
一、模拟数据集 |
二、人类胚胎干细胞数据集 |
三、小鼠胚胎单细胞数据集 |
本章小结 |
第三章 基于扩散传播的单细胞伪时间轨迹推断算法 |
第一节 DTFLOW算法实现 |
一、马尔科夫转移矩阵构建 |
二、巴氏核特征分解降维 |
三、伪时间距离排序 |
四、逆向搜索分支识别 |
第二节 实验结果分析 |
一、小鼠胚胎单细胞数据集 |
二、小鼠骨髓祖细胞数据集 |
第三节 关于巴氏核特征分解的进一步讨论 |
一、新的可视化思路 |
二、手写数字数据集 |
本章小结 |
第四章 基于伪时间轨迹的单细胞基因调控网络构建 |
第一节 网络构建模型 |
一、GENIE3网络推断 |
二、微分方程数学建模 |
三、近似贝叶斯计算拒绝采样估计模型参数 |
第二节 实验结果分析 |
一、小鼠胚胎早期造血干细胞q PCR数据集说明 |
二、伪时间轨迹推断 |
三、调控网络构建 |
四、微分方程建模 |
本章小结 |
结论及展望 |
一、主要结论 |
二、研究不足与展望 |
参考文献 |
在读期间科研成果 |
附录A 统计学三大相关性系数评估指标 |
致谢 |
(10)聚类算法的研究与实现(论文提纲范文)
摘要 |
Abstract |
缩略语表 |
第一章 绪论 |
1.1 课题研究背景和意义 |
1.1.1 课题的发展背景 |
1.1.2 聚类算法的主要特点和研究现状 |
1.2 本论文的研究意义、任务及重难点分析 |
1.2.1 论文研究意义 |
1.2.2 论文研究任务 |
1.3 论文结构安排 |
第二章 聚类算法介绍与分析 |
2.1 聚类算法的基本概念 |
2.1.1 聚类的定义 |
2.1.2 数据类型的量化处理 |
2.1.3 聚类算法的准则函数分析 |
2.2 传统聚类算法的分类 |
2.2.1 基于划分的聚类算法 |
2.2.2 基于层次的聚类算法 |
2.2.3 基于密度的聚类算法 |
2.2.4 基于网格的聚类算法 |
2.2.5 基于模型的聚类算法 |
2.3 聚类算法的应用方向 |
2.4 本章小结 |
第三章 三种聚类算法的改进与实现 |
3.1 K-Means聚类算法的改进与实现 |
3.1.1 K-Means聚类算法的改进方法研究 |
3.1.2 K-Means聚类算法的改进方法验证 |
3.2 PAM算法的改进与实现 |
3.2.1 PAM聚类算法的改进方法研究 |
3.2.2 PAM聚类算法的改进方法验证 |
3.3 DBSCAN聚类算法的改进与实现 |
3.3.1 DBSCAN聚类算法的参数依赖性分析 |
3.3.2 DBSCAN的改进研究 |
3.4 本章小结 |
第四章 K-Means聚类算法的硬件实现 |
4.1 硬件实现背景 |
4.1.1 硬件实现平台简介 |
4.1.2 并行计算 |
4.1.3 流水线技术 |
4.2 实验环境简介 |
4.2.1 硬件实验工具 |
4.2.2 ZedBoard开发板简介 |
4.2.3 SDSoC开发流程 |
4.3 K-Means算法的硬件实现 |
4.4 基于k-d树的 K-Means 聚类算法的实现 |
4.4.1 基于k-d树的聚类算法思想 |
4.4.2 k-d树聚类算法在硬件上的改进 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
致谢 |
参考文献 |
四、基于最小生成树的基因分类算法(论文参考文献)
- [1]基于树形重心与割边约束的聚类算法研究[D]. 林鸿仁. 上海师范大学, 2020(07)
- [2]演化的数据流聚类算法研究[D]. 彭佳琪. 电子科技大学, 2020(07)
- [3]基于科创板股票网络构建的投资组合策略研究[D]. 杜伟光. 上海师范大学, 2020(07)
- [4]基于密度核心和局部合力的聚类分析和异常检测研究[D]. 谢江. 重庆大学, 2019(01)
- [5]基于单细胞测序数据的细胞分化轨迹算法探究[D]. 苏晓曼. 哈尔滨工业大学, 2019(02)
- [6]网络推断在生物网络中的应用研究[D]. 闫艳. 中南财经政法大学, 2019(08)
- [7]村落边界形态类型识别及驱动因子相关性研究 ——以江苏宜兴为例[D]. 张炜. 东南大学, 2019(05)
- [8]A股市场的收益特征及预测研究 ——基于符号时间序列分析方法[D]. 蒋一帆. 中南财经政法大学, 2019(09)
- [9]单细胞数据的伪时间轨迹和调控网络推断研究[D]. 魏江勇. 中南财经政法大学, 2019(08)
- [10]聚类算法的研究与实现[D]. 蔡媛媛. 东南大学, 2019(06)