遗传算法在数据挖掘中的应用

遗传算法在数据挖掘中的应用

一、遗传算法在数据挖掘中的应用(论文文献综述)

窦炜博[1](2020)在《改进的CARMA算法对中职学生学习成绩的分析与应用》文中进行了进一步梳理学生成绩是衡量学生知识掌握程度的重要依据,也是一个学校教学质量高低的重要体现。中职院校肩负着为社会培养技能型人才、高素质劳动者的重任,教学依然是其各项工作开展的核心。对中职学生学习成绩进行有效分析,可以了解学生知识掌握的不足之处,以便更好的查缺补漏。数据挖掘作为数据分析的有力工具,可以用于学生成绩深度分析。论文针对学生学习成绩受多种因素影响的问题,基于改进的CARMA算法对中职学生学习成绩进行了关联分析与应用。论文的主要工作如下:(1)针对CARMA算法运行效率较低的问题,将遗传算法与CARMA算法相结合提出了改进的CARMA算法。将遗传算法引入到强项集合中,找出最优强项集合。使用遗传算法,以降低数据I/O操作,来提高CARMA算法运行效率。算法初始将数据库拆分为多个子数据库,并将数据转移到内存中,实行合并强项集操作;再将遗传算法引入到强项集合中,找出最优强项集合。利用遗传算法交叉算子、变异算子进行数据快速搜索,通过仿真结果表明改进的CARMA算法相比传统CARMA算法在运行效率方面得到有效提升。(2)将改进的CARMA算法对中职学生课程和成绩进行关联分析。学籍信息表包括学生信息表、家庭信息表、成绩信息表、高考信息。采用字段类型判断对于异常数据类型进行过滤,实现学籍信息数据清洗;课程维度关联分析采用改进的CARMA算法进行学生课程关联分析;学生维度关联分析主要对学生群体特征挖掘、加权成绩一致性分析。通过这几个方面的关联分析,找寻出学习成绩中对提高教学质量的有用数据信息。

张宁[2](2020)在《数据流分解策略与集成分类器自适应学习的研究》文中研究表明近年来,随着智能设备与网络、计算机软件与硬件的快速发展,越来越多的数据流数据被产生,如电商的交易记录,微博热门话题推荐以及讨论,新闻事件的评论等。数据流数据会以数据序列的形式存在且会随着时间的推移而发生变化。这些变化的数据中往往蕴含着大量有价值信息,挖掘这些有价值信息的过程称为数据流挖掘。由于数据流挖掘通常与实际问题有着密切的关联,因此成为当前最受欢迎的研究领域之一。数据流分类是数据流挖掘领域的重要组成部分之一。在进行数据流分类时分类任务的复杂度往往会随着分类类别数量的增加而增加,且数据之间存在的巨大重叠进一步增加了建立明确决策边界的难度。集成分类器是数据流分类中常用的分类模型,现有的集成分类器在挑选基分类器时多采用贪心原则,即挑选出基分类器池中分类性能较好的部分分类器用于构建集成分类器。这种挑选原则往往会造成集成分类器陷入到局部最优的陷阱中。为此本文针对数据流中的多分类问题和集成分类器中基分类器的选择展开了研究,主要研究工作和成果如下:(1)在使用分解策略解决数据流分类中的多分类问题时,通常会使用近邻中类属性值信息或距离信息而不是同时使用,这容易造成近邻信息的浪费。分类器在应对数据流中的概念漂移时,可以使用隐式和显示两种策略进行自适应更新。由于隐式策略适应速度慢,显示策略对噪音数据敏感,因此用户可以根据分类模型的需求选择合适的自适应更新策略。(2)为了更好的解决数据流中的多分类问题,本文提出了一种基于分解策略的距离加权算法。该算法在使用“一对一”分解策略对测试样例进行分类预测时,不仅会使用近邻样例中的类属性值信息,还会使用近邻样例到测试样例的距离信息对预测的类属性值加权。充分利用了近邻中包含的信息,进一步提高了分类器的预测准确性。(3)针对集成分类器中基分类器的选择,本文将其与遗传算法相结合,从而提出了一种新颖的集成分类器。该集成分类器在数据流发生概念漂移时能够增大交叉和变异的概率,进而生成更多优秀且多样的个体。另外,该集成分类器中下一代种群的产生包含了上一代种群中优秀的个体,优秀个体间交叉和变异产生的新个体以及通过轮盘赌策略产生的新个体。本文提出算法与其他对比分类算法在真实数据集和合成数据集上进行了对比实验,实验结果表明本文提出算法在分类精度上都有一定的提高。说明本文提出算法能够处理数据流分类问题,具有一定的实用性。

刘亚芬[3](2020)在《基于GA的CART决策树改进算法与应用》文中进行了进一步梳理自20世纪中期互联网技术的不断发展,信息技术跟随着迅猛发展,用户随时随地都产生了大量的图像、文本、音频、视频等信息。如何从这些不断增长的数据中得出对人们有利用价值的信息?于是,诞生了数据挖掘技术。数据挖掘就是不断的在数据中寻找有用信息,通过各种不同的分析方式和分析工具建立起各种数学模型与数据之间的联系,然后通过对这些构建好的模型与数据进行分析以及预测。分类预测是数据挖掘中的一项重要领域,在数据挖掘中,分类预测占有重要地位。决策树算法就是分类中一种易于理解并且使用范围较广的算法,决策树相较于其他方法有预测速率快、高精度且生成的分类规则易于解释等好处,因此是分类预测中比较常用的方法。常用的决策树算法有ID3算法、C4.5算法和CART算法,ID3算法适用于处理小规模数据集且无法处理离散属性。C4.5算法改善了ID3算法的缺点,能同时处理连续属性,且在剪枝的时候加入了初步正则化思想,防止过拟合,但C4.5算法只能处理分类问题,无法处理回归问题。CART算法在此问题上进行了改进,既能处理分类问题也能处理回归问题,且用Gini系数代替信息增益率进行分裂,降低了数据的计算量。但CART算法同样有着自身的不足,CART算法是采用二分法进行分割,二分法最大的缺陷是局部最优,本文的切入点就是解决二分法局部最优的问题,创新点就是利用遗传算法全局优化的特性,通过遗传算法找到最优的分裂点,对CART算法进行优化。当数据集的特征个数偏多,训练模型的时间花销就越大,训练得出的模型就会更加复杂,那么模型的推广能力也会有所下降。通过实验证实,使用遗传算法来找到最优的特征建树,能大大的提高分类的精度。本文在构建决策树的过程中,使用的是CART算法,大多数情况下CART构建的决策树模型比其他算法构建的模型准确率更高,且当样本越大,数据量越复杂,变量越多,算法的效果就越显着。但是CART算法也有自身的缺陷,CART算法是通过二分法进行分裂,但是二分法最大的缺陷是局部最优,每一次计算只能找到当前这步的最优值,很容易陷入局部收敛,遗传算法作为全局最优搜索算法之一,其过程是通过不断的选择、交叉和变异操作,寻找到最优个体,文中是利用遗传算法代替二分法找到最优分裂点。遗传算法因具有优秀的性能,在优化问题中应用颇多,遗传算法在寻找最优分类规则中应用得较为成熟,而在决策树算法中,从本质上最终也是得到分类规则,从这方面来看,通过遗传算法对决策树改进也是可行的。虽然遗传算法也不能保证在理论上得到百分之百的最优,但是也提供了寻优的可能,且后续实验中也证明了使用遗传算法代替二分法寻找的最优分裂点能提高分类的精度。

刘奕[4](2020)在《5G网络技术对提升4G网络性能的研究》文中进行了进一步梳理随着互联网的快速发展,越来越多的设备接入到移动网络,新的服务与应用层出不穷,对移动网络的容量、传输速率、延时等提出了更高的要求。5G技术的出现,使得满足这些要求成为了可能。而在5G全面实施之前,提高现有网络的性能及用户感知成为亟需解决的问题。本文从5G应用场景及目标入手,介绍了现网改善网络性能的处理办法,并针对当前5G关键技术 Massive MIMO 技术、MEC 技术、超密集组网、极简载波技术等作用开展探讨,为5G技术对4G 网络质量提升给以了有效参考。

邓玉芳[5](2020)在《基于标准差的K-medoids聚类分析及应用》文中认为聚类分析是数据挖掘中的重要内容之一,是将数据对象按照相似性度量划分成各类簇的过程,并广泛的应用在数据挖掘,模式识别等领域。K-medoids聚类算法是一种基于划分的聚类分析方法,具有对孤立点敏感度较低和良好的鲁棒性等优点。但由于初始聚类中心的选取和中心点迭代更新等,聚类精度和效率较低,严重地影响了聚类分析效果。本文针对K-medoids聚类算法中的初始中心点的选取和k值的确定等进行了深入研究,其主要成果如下:(1)给出了一种基于标准差的K-medoids聚类算法。该算法利用标准差定义了初始中心点候选集,并采用逐步增加的方式确定初始中心点,从而保证了选取密集程度较大的样本点作初始聚类中心点,同时避免选取到密集程度较低的样本点尤其是孤立点作为初始中心点。采用UCI数据集和人工数据集,实验验证了该聚类算法的有效性。(2)给出了一种自适应聚类簇数的K-medoids聚类算法。该算法利用聚类中心点通常具备较高的密度,并且聚类中心点之间相距较远的原理,定义了一种在聚类过程中决策聚类簇数的方法。采用了UCI数据集,实验验证了该聚类算法的有效性。(3)在上述研究成果的基础上,利用eclipse开发工具,设计实现了一个天体光谱聚类分析原型系统,其运行结果分析表明该原型系统可为特殊未知天体光谱的知识发现,提供一种有效途径。

毛莹[6](2019)在《基于医疗信息系统的数据挖掘算法研究》文中指出随着科技的进步和发展,数据呈现爆炸式增长,如今的社会是快速发展的社会,也是数据社会,随着数据库技术的不断发展和普及,数据存储已经成为可能,海量的数据实现了存储,数据库转化为数据仓库。数据的存储已经不再成为问题,数据的分析和处理逐渐成为学者的研究对象,数据挖掘这门学科诞生。它是研究数据更高级的形式,海量的数据中有不完整,有噪声但是价值极高的数据,针对这些数据,数据挖掘这门学科进行高度智能化分析,通过归纳总结,发掘到数据间一抹的关联,数据挖掘研究两个方面的内容,第一个方面从数据中寻找有用信息,建立初步模型。第二个方面,随着数据的不断加入,可以改善数据挖掘的方法,改善新的模型。随着经济的发展,医疗技术得到了不断的发展,医学需要大量有效的信息和知识,帮助医生可以进行快速的诊治。目前医院已经实现了数字化系统,全世界成千上万的海量数据产生于这些数字系统。本文主要结合医院医疗信息系统使用现状,对数据挖掘技术开展了深刻的研究。主要内容有:一、分析了数据挖掘技术的国内外研究现状。二、研究医院信息系统的发展和体系机构,分析医院系统的主要缺陷。三、研究了数据挖掘技术的方法、流程和常用技术。四、重点研究了Apriori算法在医疗信息系统中的应用。主要完成工作如下:第一,建立数据挖掘基本理论,结合实际分析医疗信息系统的特点,结合基本理论找出数据挖掘的特点,找到适用于医院的数据挖掘算法;第二,对医院的具体数据表结构进行分析,找出数据表的关联关系,根据实际需求建立与医院数据库对应的事实表,对所需的数据进行数据准备操作。第三,建立数据库,为后续的工作打下坚实的基础;第四,利用SQL集成环境创造环境,基于医院的数据库管理系统,建立适用于医院新系统的挖掘模型,选择合适的算法和工具;第五,利用数据模型分析历史医疗数据,并得到其中有价值的信息用来为临床诊断和管理者决策提供依据。最后对研究的结果和问题进行了总结,并且展望未来的研究方向和目标。

李渊[7](2019)在《研究生招生数据分析系统的研究与应用》文中指出随着高等学校研究生教育制度的改革与发展,我国研究生招生规模不断扩大,招生数据量持续增加。研究生招生管理的数据分析需求日益紧迫。如何利用数据挖掘技术,将历史研究生招生数据转化为对教学管理有价值的信息,显得尤为重要。因此,将数据挖掘技术应用到研究生招生系统中,辅助高校招生,是一个好的应用及创新。本文在数据挖掘技术、关联规则算法及决策树算法的基础上,提出高校研究生数据分析与数据挖掘技术相结合的思想。在原有的普通高校招生管理系统基础上,融合数据挖掘技术,建立高校研究生数据模型;其次,以某高校研究生学院近几年报到情况为基础数据,对数据进行采集、整合和预处理,将原始数据分成训练集和测试集,运用数据挖掘中的关联规则、决策树等技术对这些数据分析,找到有价值的信息;最后,采用Apriori算法分别计算训练集数据中主要属性的支持度与置信度。通过设定阈值分析影响新生报到的主要因素和各因素之间关联程度,通过测试数据集来验证正确性。再选择C4.5算法,分别计算训练集数据的信息熵和信息增益率,建立决策树并剪枝,得到决策模型,运用测试集数据对模型进行验证和完善。本文主要将数据挖掘技术应用到研究生分析系统中。利用数据挖掘的关联规则和决策树方法对研究生信息分析,得到理想的、有价值的规律及结论,挖掘结果基本上符合高校招生的规律。从而实现了数据挖掘技术在某大学研究生招生数据分析系统的应用,同时改善了研究生招生传统的流程与方式,提高了研究生招生管理的效率和质量。

邢彪[8](2019)在《基于粗糙集的随机森林算法优化研究》文中研究说明在大数据时代,单分类器技术已经不能满足日益复杂和大量的数据需求;因此多分类器变得更加重要和有效。多分类器的思想就是组合多个单分类器,然后根据多个单分类器的产生的结果进一步得到最终结果。随机森林就是一种多分类器。随机森林算法随机性之一是从整体特征中随机选择一定数量的特征,以尽可能地减少树之间的相关性,但数据中通常存在冗余特征,因此会对随机森林模型的泛化能力造成影响。针对随机森林特征选择时数据集中存在冗余特征的情况,通过对传统随机森林算法的分析,决定采用粗糙集对传统随机森林算法进行优化改进。粗糙集可以简化数据并保留数据的最小知识,同时保留关键信息。粗糙集能对随机森林特征选择时数据集中存在较多冗余特征而影响模型的分类效果的问题进行有效的处理。基于此,本文选择用基于遗传算法的粗糙集属性约简方法对随机森林算法进行优化,在随机森林选取特征之前就剔除掉总体特征中的冗余特征,从而提高随机森林算法的效率。本文完成了以下几个方面的工作:(1)介绍了属性约简研究现状、粗糙集属性约简研究现状和随机森林国内外研究现状;详细介绍了粗糙集基础理论。详细研究了随机森林算法的基本数学概念、性质;对决策树算法进行了详细的研究,介绍了决策树的产生以及ID3、C4.5、CART算法;在构建决策树的基础上,研究了随机森林算法构建过程,对随机森林数据集的产生以及单个决策树的构建以及随机森林算法的执行过程进行了详细的分析。(2)针对随机森林在特征选择时存在冗余特征的问题,将基于遗传算法的粗糙集属性约简方法与随机森林分类思想结合,提出了一种基于遗传算法的粗糙集和随机森林结合的分类预测算法;对基于遗传算法的粗糙集属性约简方法在多个UCI数据集上进行了属性约简,同时与PCA、CHI2在约简后模型分类效果进行了对比实验,选用平均准确率作为客观评价参数,来评价三种不同的约简方法效果。(3)通过编程实现基于遗传算法的粗糙集和随机森林结合的分类预测算法,主要通过与经典的随机森林算法进行比较,在葡萄酒数据集和宫颈癌数据集上测试其效率,选择分类准确率、运行时间、ROC曲线、AUC均值、OOB以及ooberror作为评价指标对其进行综合评价;同时,在多个机器学习数据集上与多种机器学习算法进行对比分析,选择平均准确率作为评价指标,验证了优化后随机森林算法的在分类方面的有效性。本论文在粗糙集和随机森林原理研究的基础上,采用基于遗传算法的粗糙集属性约简方法优化随机森林特征选择,对随机森林的分类效果有较大的提升。因此,基于遗传算法的粗糙集属性约简和随机森林分类相结合的方法,不仅具有一定的方法创新,同时在实际应用中也具有重要价值。

谢莎莎[9](2018)在《基于数据挖掘的工程造价指数研究》文中研究说明面对当今大数据时代的冲击,各种纷繁复杂的建筑工程项目数据信息经过收集、整理、清洗、重组之后具备极大的利用价值,如何结合数据挖掘的方法用好这些宝贵资源,是实现工程造价行业可持续发展、实施信息化管理战略、加速造价服务行业转型的迫切需要。为了适应社会主义市场经济高速发展的需求,建设工程造价管理必须改变完全依靠政府发布的定额计价模式,在遵循政府发布的定额和调价规定的前提下,工程造价的确定需由企业根据市场情况以及自身生产和管理水平确定。本课题应用工程造价和统计学相关理论,在清单计价模式下设计出完整的造价指数测算系统,将数据挖掘理论应用于造价指数管理中,包括造价指数信息的筛选、测算、预测等方法,最后在此研究基础上设计了建筑工程造价指数信息平台。本课题对国内外有关造价指数测算方法及体系设置方面的文献进行了系统整理和分析,以期得到适用于我国信息化建设中建筑工程造价指数系统的建设方法。通过收集近年来典型工程的特征值,调研各城市造价指数的设置情况,建立了一套完整的指数测算系统、筛选系统及预测系统的数学模型。本课题对指数理论、数据挖掘理论、知识管理理论、BP神经网络、遗传算法进行了阐释并讨论了其适用范围和用于本课题的价值。分别针对北美地区及英国的指数体系设置和发布方法进行研究,对国内六个城市或省份地区进行了调研分析,结果表明,各城市指数体系差别较大,主要体现在以下三个方面:第一,发布形式不同。香港、重庆、深圳、成都为定基指数,而江西采取的是环比指数,天津既有定基指数又有环比指数。第二,发布机构不同。香港造价指数体系的设置与发布方式类似英国,由建筑署负责发布政府层次的造价指数,同时利比、威宁谢两大测量师行编制的投标价格指数也发挥着重要的作用,而我国内地工程造价指数主要由各省市地方政府编制并定期发布。第三,编制范围不同,香港造价指数编制成本指数和价格指数,我国内地造价指数编制单项指数和综合指数。本课题通过对国内外建筑工程造价指数测算体系研究,基于当前建筑市场特点,确定对建筑工程造价指数测算体系编制设计以清单计价模式为主。对建筑工程进行分类,提出主要对三大类指数进行编制,分别是建筑工程造价指数、建筑工程费用指数和建筑工程消耗量指数。本课题针对典型工程的样本筛选方法进行了研究。在进行建筑工程造价指数测算时,若将不同类型的工程造价信息杂糅在一起,则会使造价指数失去意义,因而选取典型建筑工程作为测算样本非常重要,在建筑功能、结构形式等进行划分之后再将同类工程汇总。根据建筑工程周期内样本稀少、影响因素众多的特征,在筛选典型工程的过程中,本课题采集了100个建筑工程信息,采取了“专家评选法”、“灰色关联法”、“T检验法”与“决策树法”,首先用“专家评选法”进行样本特征值的初选,选取了有价值的特征值,然后用“灰色关联法”完善“专家评选法”的结论,确定八个特征值,接着用“T检验法”进行筛选,原定的八个特征属性中工程地点、层高、结构类型这三个特征属性对工程造价的影响不显着,因此被剔除,最后引入决策树模型补充T检验法仅能检验因变量而无法检验样本本身的不足。将四种方法相结合,从初选到完善,提高筛选的精度。本课题研究了造价指数的测算模型。测算信息的采集方式主要为人工采集法,选取大量的行业内资深信息员对工程信息进行统计与上报,通过审核的工程信息可进入系统数据。针对造价信息的采集方式、发布方式进行了研究,并针对信息员采集方式设计了完整的信息采集表。从两方面对造价指数进行调整,其一,在典型工程相应的消耗量给定情况下,对典型工程重新组价,可以得到相应的指数和指标;其二,在我国由于建筑材料需要市场采购的范围越来越大,主要建筑材料如钢材、木材、水泥等的价格对工程造价的影响很大,因此,本课题利用调值公式对相应的材料指数进行调整。本课题对建筑工程造价指数的预测进行了研究。由于受建筑工程样本特征值缺失和样本数量较少的影响,在预测未来造价指数时单纯使用BP神经网络具有局限性,会降低预测的准确性和精度,需要结合建筑工程样本特点,对原始BP神经网络进行改进,最佳方法是结合适用于样本数量较少的灰色预测模型。课题以武汉市建筑工程中高层住宅及公寓(含商住楼)项目(12层以上)为例,进行建筑工程造价指数预测的实证分析。案例选取对建筑工程造价影响较大的人工、材料、施工机具费用指数进行造价指数的分析与预测,收集了从2014年第3季度到2016年第4季度各项价格及建筑工程总价指数数据信息。通过计算证明,经过基于遗传算法优化的GA-BP神经网络模型进行建筑工程造价指数的预测精度达97%左右,对建设项目投资决策有着较为关键的参考意义。最后,本课题对建筑工程造价指数平台信息采集系统进行了研究。课题设计了信息采集系统,由平台使用者在采集平台上收集建筑工程核心造价信息,建立地区工程造价信息数据库。通过系统数据清洗、审核、加工服务,最终由地方造价站在发布展示平台按标准要求定期向社会发布建筑工程指标指数,以提升造价管理的效率和服务水平。

吴雷明[10](2018)在《基于优化遗传算法的聚类分析研究》文中提出随着计算机技术以及网络的普及程度越来越高,不可避免的会产生大量的数据,当产生的数据量规模越来大时,想要在庞大的数据海洋中获取有用的数据信息,成为一件备受关注的问题。而依靠传统的数据库查询渐渐力不从心,查询出的数据往往不能让人满意。进而,出现了大数据,数据挖掘,云计算等越来越多需要进行数据计算的技术。有效的数据信息能够帮助管理者,决策者作出正确的决定措施,想要从海量的数据中挖据出有效的数据信息,找出数据之间千丝万缕的关系,就需要数据挖掘的帮助。而聚类分析是数据挖掘中的一个方法分支,有着广泛的应用,但传统的聚类算法往往存在着一些弊端,需要作出一定的优化,更好的用于实际的工作中。本文首先介绍数据挖掘的基本概念以及较为常用的聚类挖掘算法K-means算法,该算法是聚类分析中的一种经典算法。但是该算法容易受到初始聚类中心的影响而不一定能够获取到最优解,具有一定的局限性,是一种局部的搜索技术。针对聚类中存在的问题,进而引出遗传算法,遗传算法是一种生物类型的进化算法,根据达尔文进化论,孟德尔遗传学说而来,物竞天择,优胜劣汰是它的特点。遗传算法虽然具有天然的优势,但同样传统的遗传算法具有过早收敛,易陷入局部最优值的缺陷。提出并对现有的遗传算法进行改造,利用多种群机制、动态分配交叉变异概率、模拟退火算法中收敛速度较慢、可跳出局部最优解等优点,提出动态分配多种群模拟退火遗传算法。将该算法与聚类中的K-means算法结合在一起,用于聚类分析中,起到了良好的效果。将优化后的遗传算法与聚类算法结合在一起,通过实验数据进行试验后,实验数据表明,优化后的遗传算法与K-means算法,比只使用K-means算法和标准遗传K-means算法要有一定的优势。在实验结果表明,动态分配多种群模拟退火K-means算法在数据准确度上有了较为明显的提升。说明在使用优化后的遗传算法同K-means算法结合在一起,会使算法更加高效合理,聚类效果更加优秀,适用于聚类分析中。

二、遗传算法在数据挖掘中的应用(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、遗传算法在数据挖掘中的应用(论文提纲范文)

(1)改进的CARMA算法对中职学生学习成绩的分析与应用(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 国内研究现状
        1.2.2 国外研究现状
    1.3 研究内容
    1.4 本章小结
第2章 相关理论
    2.1 数据挖掘
        2.1.1 数据挖掘过程
        2.1.2 数据挖掘方法
    2.2 关联规则方法
        2.2.1 关联规则算法度量
        2.2.2 关联规则挖掘经典算法
    2.3 本章小结
第3章 改进的CARMA算法
    3.1 CARMA算法基本原理
    3.2 改进的CARMA算法
        3.2.1 遗传算法
        3.2.2 算法改进
    3.3 实验结果与分析
    3.4 本章小结
第4章 改进的CARMA算法在中职学生学习成绩分析中的应用
    4.1 数据库设计
        4.1.1 个人信息模块
        4.1.2 教师信息模块
        4.1.3 课程信息模块
    4.2 数据预处理
        4.2.1 数据清洗
        4.2.2 数据转换
    4.3 课程维度的关联分析
        4.3.1 中职学生课程关联分析的方法
        4.3.2 中职学生课程关联分析结果
    4.4 学生维度的关联分析
        4.4.1 学生群体特征挖掘
        4.4.2 高考成绩对学生大学成绩的关联分析
        4.4.3 英语成绩关联分析
    4.5 本章小结
结论
参考文献
致谢
个人简历

(2)数据流分解策略与集成分类器自适应学习的研究(论文提纲范文)

致谢
摘要
ABSTRACT
1 引言
    1.1 研究背景及意义
    1.2 研究现状
    1.3 本文研究内容
    1.4 本文组织结构
2 数据流分类相关工作
    2.1 相关概念
    2.2 概念漂移的处理方法综述
    2.3 数据流分类算法综述
        2.3.1 单分类器分类算法
        2.3.2 集成分类器分类算法
    2.4 分解策略综述
    2.5 遗传算法综述
    2.6 本章总结
3 基于分解策略的距离加权数据流分类算法
    3.1 ADWIN概念漂移检测器
    3.2 霍夫丁决策树构建过程
    3.3 距离加权的计算过程
    3.4 算法实现过程
    3.5 本章总结
4 基于动态优化选择机制的数据流集成分类器
    4.1 自适应集成分类器
    4.2 遗传算法中适度函数及交叉概率的改进
    4.3 动态优化集成分类器中基分类器的选择
    4.4 本章总结
5 实验设计与结果分析
    5.1 实验环境
    5.2 数据集
    5.3 分类器性能度量
    5.4 DW-OVO算法的性能分析
        5.4.1 对比实验
        5.4.2 参数设置
    5.5 EC-DOSM算法的性能分析
        5.5.1 对比实验
        5.5.2 参数设置
    5.6 本章总结
6 结论与展望
    6.1 结论
    6.2 展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集

(3)基于GA的CART决策树改进算法与应用(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 课题研究的背景和意义
    1.2 国内外研究现状
    1.3 本论文主要研究内容
    1.4 本章总结
第二章 数据挖掘概述
    2.1 数据挖掘的相关理论
    2.2 数据挖掘常见的分类算法
        2.2.1 神经网络方法
        2.2.2 粗糙集理论方法
        2.2.3 聚类
        2.2.4 关联规则
        2.2.5 统计分析方法
        2.2.6 回归分析
        2.2.7 决策树方法
    2.3 本章总结
第三章 决策树分类技术
    3.1 决策树的定义和结构
    3.2 决策树的构造过程
    3.3 常用的决策树算法简介
        3.3.1 ID3算法简介
        3.3.2 C4.5算法
        3.3.3 CART算法
        3.3.4 决策树的应用
    3.4 本章总结
第四章 基于遗传算法的CART优化的研究
    4.1 引言
    4.2 遗传算法介绍
    4.3 基于遗传算法的CART算法的研究分析
        4.3.1 基于遗传算法的CART算法的基本原理
        4.3.2 基于遗传算法的CART算法的基本步骤
        4.3.3 基于遗传算法的CART算法的实现
    4.4 算法验证
        4.4.1 数据说明
        4.4.2 基于CART算法的决策树分类
        4.4.3 基于上层遗传算法优化分类规则的CART分类
        4.4.4 基于双层遗传算法优化CART算法的过程
    4.5 实验结果
第五章 总结和展望
参考文献
附录:算法用到的相关函数介绍
致谢

(4)5G网络技术对提升4G网络性能的研究(论文提纲范文)

引言
1 4G网络现处理办法
2 4G网络可应用的5G关键技术
    2.1 Msssive MIMO技术
    2.2 极简载波技术
    2.3 超密集组网
    2.4 MEC技术
3 总结

(5)基于标准差的K-medoids聚类分析及应用(论文提纲范文)

中文摘要
ABSTRACT
第一章 绪论
    1.1 数据挖掘概述
        1.1.1 数据挖掘定义
        1.1.2 数据挖掘过程
        1.1.3 数据挖掘的数据类型
        1.1.4 数据挖掘的任务
        1.1.5 数据挖掘常用技术
        1.1.6 数据挖掘的主要问题
        1.1.7 数据挖掘的应用
        1.1.8 聚类分析及应用
    1.2 国内外研究动态
    1.3 研究工作及论文组织
第二章 聚类分析
    2.1 相似性测度
        2.1.1 距离度量
        2.1.2 相似系数度量
    2.2 聚类分析的算法分类
    2.3 聚类分析要求
    2.4 聚类评估
    2.5 K-medoids聚类算法
    2.6 本章小结
第三章 一种基于标准差的K-medoids聚类算法
    3.1 引言
    3.2 基于标准差的K-medoids聚类分析
        3.2.1 相关定义
        3.2.2 初始中心点候选集
        3.2.3 算法描述
        3.2.4 时间复杂度分析
    3.3 实验分析
        3.3.1 数据集
        3.3.2 聚类分析精度
        3.3.3 聚类分析效率
        3.3.4 聚类分析鲁棒性
    3.4 本章小结
第四章 一种自适应聚类簇数的K-medoids聚类算法
    4.1 引言
    4.2 自适应聚类簇数的K-medoids聚类分析
        4.2.1 聚类簇数的决策
        4.2.2 算法思想
        4.2.3 算法描述
        4.2.4 时间复杂度分析
    4.3 实验分析
        4.3.1 数据集
        4.3.2 聚类分析精度
        4.3.3 聚类分析效率
    4.4 本章小结
第五章 天体光谱聚类分析原型系统
    5.1 相关工作
    5.2 原型系统功能模块
    5.3 运行结果及分析
    5.4 天体光谱聚类性能实验分析
        5.4.1 聚类精度
        5.4.2 聚类效率
    5.5 本章小结
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢
攻读学位期间发表的学术论文目录

(6)基于医疗信息系统的数据挖掘算法研究(论文提纲范文)

摘要
Abstract
1 绪论
    1.1 研究背景
        1.1.1 选题目的
        1.1.2 选题意义
    1.2 国内外研究现状
        1.2.1 国外研究现状
        1.2.2 国内研究现状
    1.3 论文结构
2 相关概念与技术介绍
    2.1 数据挖掘概念
        2.1.1 数据挖掘模型
        2.1.2 数据挖掘方法
        2.1.3 数据挖掘一般流程
        2.1.4 数据挖掘功能
        2.1.5 数据挖掘研究方向
    2.2 常用数据挖掘技术
    2.3 医疗数据挖掘算法对比分析
3 关联规则算法分析
    3.1 关联规则算法概述
    3.2 Apriori算法分析
        3.2.1 算法概述
        3.2.2 Apriori算法性能分析
    3.3 关联规则应用举例
4 关联规则数据挖掘在HIS中应用
    4.1 项目背景
    4.2 医院管理系统简介
        4.2.1 医院管理系统发展
        4.2.2 医院管理体系结构
        4.2.3 医学数据挖掘意义
    4.3 医学数据挖掘基本过程
    4.4 医疗数据处理模型
    4.5 数据挖掘在医院管理系统应用实例
        4.5.1 算法实现过程分析
        4.5.2 数据分析
        4.5.3 数据提取
        4.5.4 数据处理
        4.5.5 数据集成
        4.5.6 实验结论
        4.5.7 算法实际应用
总结与展望
参考文献
附录 程序关键代码
致谢

(7)研究生招生数据分析系统的研究与应用(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究背景
    1.2 研究意义
    1.3 国内外研究现状
        1.3.1 数据挖掘技术研究现状
        1.3.2 研究生招生系统研究现状
        1.3.3 本文的创新
    1.4 论文组织结构
    本章小结
第二章 数据挖掘理论基础
    2.1 数据挖掘概括
        2.1.1 数据挖掘的起源
        2.1.2 数据挖掘的定义
    2.2 数据挖掘方法
        2.2.1 数据挖掘过程
    本章小结
第三章 数据挖掘相关技术及经典算法
    3.1 关联规则挖掘相关技术
        3.1.1 关联规则背景及简述
        3.1.2 关联规则的定义
        3.1.3 Apriori算法
    3.2 决策树技术
        3.2.1 决策树分类
        3.2.2 决策树的构建
        3.2.3 ID3算法
        3.2.4 C4.5算法
    本章小结
第四章 系统设计与数据建模
    4.1 需求获取和需求分析
    4.2 系统结构设计
    4.3 数据库设计
        4.3.1 数据库表的设计
    4.4 数据建模
        4.4.1 数据挖掘任务
        4.4.2 数据挖掘模型建立
        4.4.3 数据结果分析与决策制定
    本章小结
第五章 数据挖掘算法在系统中应用
    5.1 决策分析描述
    5.2 数据准备工作
        5.2.1 数据采集
        5.2.2 数据预处理
    5.3 关联规则分析
        5.3.1 训练集与测试集
        5.3.2 关联规则法建立决策模型
        5.3.3 利用测试集数据验证挖掘模型
    5.4 决策树挖掘
        5.4.1 训练集和测试集
        5.4.2 决策树方法建立决策模型
        5.4.3 建立训练集的决策树模型
        5.4.4 结果分析
    本章小结
第六章 研究生管理系统的实现
    6.1 基础管理功能模块
        6.1.1 系统登录
        6.1.2 主页管理
        6.1.3 新生信息管理
        6.1.4 新生报到管理
        6.1.5 宿舍信息管理
    6.2 分析功能模块
        6.2.1 决策分析管理
    本章小结
结论
参考文献
攻读学位期间发表的学术论文
致谢

(8)基于粗糙集的随机森林算法优化研究(论文提纲范文)

摘要
Abstract
第1章 引言
    1.1 选题依据和研究意义
    1.2 国内外研究现状
        1.2.1 属性约简研究现状
        1.2.2 粗糙集属性约简研究现状
        1.2.3 随机森林算法研究现状
    1.3 论文的研究内容
    1.4 研究思路与技术路线
    1.5 论文结构介绍
    1.6 研究成果与创新
第2章 粗糙集基本原理简介
    2.1 粗糙集基本原理简介
        2.1.1 知识与不可分辨关系
        2.1.2 粗糙集合的下近似、上近似、边界区
        2.1.3 约简与核
    2.2 本章小结
第3章 随机森林算法基本原理与构建简介
    3.1 随机森林基本原理与性质概述
        3.1.1 随机森林的基本原理简介
        3.1.2 随机森林算法数学性质
    3.2 决策树基本原理与性质概述
        3.2.1 构建决策树的分裂节点算法
        3.2.2 ID3、C4.5、CART分类树算法总结
        3.2.3 决策树分类中存在的问题
    3.3 随机森林算法模型构建
        3.3.1 随机抽样产生数据集
        3.3.2 训练决策树
        3.3.3 随机森林模型构建过程
    3.4 随机森林中常用的评价指标
    3.5 本章小结
第4章 基于遗传算法的粗糙集属性约简
    4.1 属性约简理论简介
    4.2 传统属性约简方法
        4.2.1 PCA属性约简方法
        4.2.2 CHI2 属性约简方法
    4.3 基于遗传算法的粗糙集属性约简
        4.3.1 遗传算法理论简介
        4.3.2 基于遗传算法的粗糙集属性约简
        4.3.3 数据属性约简效果分析
    4.4 本章小结
第5章 基于粗糙集的随机森林算法优化
    5.1 基于粗糙集的属性约简与随机森林结合的分类算法
    5.2 基于sklearn的随机森林实现以及分析
        5.2.1 scikit-learn随机森林算法库简介
        5.2.2 算法模拟实验与分析
        5.2.3 改进后随机森林算法运行效率对比
    5.3 基于粗糙集优化的随机森林算法与其它分类算法对比
        5.3.1 数据集构造
        5.3.2 模拟实验对比分析
    5.4 本章小结
结论
致谢
参考文献
攻读学位期间取得学术成果

(9)基于数据挖掘的工程造价指数研究(论文提纲范文)

中文摘要 Abstract 第1章 导论
1.1 研究背景及意义
    1.1.1 研究背景
    1.1.2 研究意义
1.2 国内外研究现状
    1.2.1 工程造价指数方面
    1.2.2 数据挖掘方面
    1.2.3 知识管理方面
    1.2.4 研究现状评述
1.3 研究思路和研究方法
    1.3.1 研究思路
    1.3.2 研究技术路线
    1.3.3 研究方法
1.4 拟解决的关键问题和创新点
    1.4.1 研究的关键问题
    1.4.2 论文创新点 第2章 理论综述
2.1 指数理论分析
    2.1.1 指数的定义
    2.1.2 指数的作用
    2.1.3 统计指数体系及分类
    2.1.4 指数的编制原则和方法
2.2 建筑工程造价指数的含义及其特性
    2.2.1 建筑工程造价指数的概念
    2.2.2 建筑工程造价指数包含的内容及其特征分析
2.3 数据挖掘理论
    2.3.1 数据挖掘理论概述
    2.3.2 数据预处理与数据仓库实现
    2.3.3 数据挖掘的类型与方法
    2.3.4 数据挖掘在工程造价指数信息化管理研究中的应用
2.4 知识管理理论
    2.4.1 知识管理的定义
    2.4.2 知识管理的流程
    2.4.3 知识管理系统
    2.4.4 知识管理理论在工程造价指数信息化管理研究中的应用
2.5 BP神经网络
    2.5.1 BP神经网络概述
    2.5.2 BP神经网络结构及算法
    2.5.3 BP神经网络的结构设计与参数选取
    2.5.4 BP神经网络的性能分析
2.6 遗传算法
    2.6.1 遗传算法的基本概述
    2.6.2 遗传算法的基础理论
    2.6.3 遗传算法的特点 第3章 建筑工程造价指数测算体系的建立
3.1 国内外建筑工程造价指数体系
    3.1.1 国外发展现状
    3.1.2 国内发展现状
3.2 建筑工程造价指数典型工程及投入品的选择
3.3 建筑工程造价指数权数及基期的选择
3.4 建筑工程造价指数编制范围的确定 第4章 典型建筑工程样本信息筛选模型研究
4.1 样本信息筛选的意义及目标
4.2 样本信息数据筛选模型选择与建立
    4.2.1 专家评选法
    4.2.2 灰色关联法
    4.2.3 T检验法
    4.2.4 “决策树”模型
    4.2.5 多元线性回归模型
4.3 样本筛选模型的实证检验
    4.3.1 分类变量标准化
    4.3.2 t检验结果分析
    4.3.3 构建决策树模型 第5章 建筑工程造价指数测算模型研究
5.1 建筑工程造价指数测算信息的采集
    5.1.1 造价信息采集-发布流程
    5.1.2 工程造价信息采集方式
    5.1.3 建筑工程造价信息采集表设计
    5.1.4 采集表说明
5.2 建筑工程造价指数的测算方法
    5.2.1 建筑工程造价指数测算基础概述
    5.2.2 建筑工程造价指数测算模型
5.3 建筑工程造价指数调整
    5.3.1 基于2013 费用定额的造价重组法
    5.3.2 基于典型工程的调值系数法 第6章 建筑工程造价指数预测模型研究
6.1 造价指数预测的意义
6.2 造价指数预测内容的确定
6.3 造价指数预测模型的建立
    6.3.1 造价指数预测模型的选择
    6.3.2 多元线性回归模型预测
    6.3.3 改进神经网络模型预测 第7章 建筑工程造价指数信息平台设计
7.1 建筑工程造价指数信息平台设计规划
    7.1.1 测算平台建设目标
    7.1.2 测算平台建设原则
7.2 建筑工程造价指数信息平台各模块功能分析
    7.2.1 录入系统
    7.2.2 发布系统
7.3 建筑工程造价指数信息平台操作设计
    7.3.1 平台操作组织范围
    7.3.2 数据采集系统流程及主要操作
    7.3.3 加工计算流程及主要操作
    7.3.4 网站发布系统查询流程及主要操作
7.4 建筑工程造价指数信息平台系统价值 第8章 结论与展望
8.1 结论
8.2 展望 致谢 参考文献 附录 A
A1 博士期间参与的主要科研项目
A2 博士期间发表的学术论文 附录 B
附表1 手动录入采集表
附表2 自动录入采集表
附表3 发布表
附表4 工程项目特征表
附表5 计量单位取定表

(10)基于优化遗传算法的聚类分析研究(论文提纲范文)

摘要
Abstract
1 绪论
    1.1 引言
    1.2 国内外研究现状
        1.2.1 国外研究现状
        1.2.2 国内研究现状
    1.3 本论文的研究目的和意义
    1.4 本文研究内容
2 数据挖掘及聚类分析概述
    2.1 引言
    2.2 数据挖掘基本概念
    2.3 数据挖掘技术及工具
        2.3.1 数据挖掘技术
        2.3.2 数据挖掘工具
    2.4 数据挖掘过程
    2.5 聚类分析
        2.5.1 聚类分析概述
        2.5.2 相似性度量
        2.5.3 聚类算法的分类
        2.5.4 聚类算法概述
        2.5.5 聚类分析的应用
3 遗传算法及模拟退火算法简介
    3.1 引言
    3.2 遗传算法基础
        3.2.1 遗传算法的产生及发展
        3.2.2 遗传算法的基本思想
        3.2.3 遗传算法的基本特征
        3.2.4 遗传算法的组成
        3.2.5 遗传操作过程
    3.3 模拟退火算法简介
        3.3.1 模拟退火算法概念
        3.3.2 模拟退火算法原理
        3.3.3 模拟退火算法的操作过程
4 动态分配多种群模拟退火遗传算法
    4.1 遗传算法改进思想
    4.2 遗传算法改进措施
    4.3 动态分配多种群模拟退火遗传算法过程
5 优化遗传算法的K-means算法在聚类中应用
    5.1 引言
    5.2 动态分配多种群模拟退火遗传的K-means聚类算法具体操作
        5.2.1 染色体编码
        5.2.2 种群初始化
        5.2.3 适应度函数设计
        5.2.4 选择算子
        5.2.5 交叉和变异算子
        5.2.6 优化遗传算法K-means聚类操作流程
6 实验结果及分析
    6.1 引言
    6.2 数据采集
    6.3 数据测试及分析
7 总结与展望
    7.1 结论
    7.2 展望
参考文献
致谢
作者简介及读研期间主要科研成果

四、遗传算法在数据挖掘中的应用(论文参考文献)

  • [1]改进的CARMA算法对中职学生学习成绩的分析与应用[D]. 窦炜博. 西北师范大学, 2020(12)
  • [2]数据流分解策略与集成分类器自适应学习的研究[D]. 张宁. 北京交通大学, 2020(03)
  • [3]基于GA的CART决策树改进算法与应用[D]. 刘亚芬. 广州大学, 2020(02)
  • [4]5G网络技术对提升4G网络性能的研究[J]. 刘奕. 数码世界, 2020(04)
  • [5]基于标准差的K-medoids聚类分析及应用[D]. 邓玉芳. 太原科技大学, 2020(05)
  • [6]基于医疗信息系统的数据挖掘算法研究[D]. 毛莹. 内蒙古科技大学, 2019(03)
  • [7]研究生招生数据分析系统的研究与应用[D]. 李渊. 大连交通大学, 2019(08)
  • [8]基于粗糙集的随机森林算法优化研究[D]. 邢彪. 成都理工大学, 2019(02)
  • [9]基于数据挖掘的工程造价指数研究[D]. 谢莎莎. 武汉理工大学, 2018(08)
  • [10]基于优化遗传算法的聚类分析研究[D]. 吴雷明. 安徽理工大学, 2018(01)

标签:;  ;  ;  ;  ;  

遗传算法在数据挖掘中的应用
下载Doc文档

猜你喜欢