数据挖掘中的数据准备

一、数据挖掘中的数据准备工作（论文文献综述）

高晓楠^[1]（2021）在《面向决策支持的分类属性数据深度无监督挖掘研究》文中指出数据驱动的决策支持是管理决策过程的重要环节,包含三个核心阶段:决策空间表征、决策分析过程和决策结果评价。结构化的未标记分类属性数据是决策支持过程中面临的主要数据类型之一,具有属性取值为枚举型,不可微且无法进行代数运算的特点,导致面向此类型数据的已有挖掘方法存在数据间关系度量不精准的缺陷,影响挖掘结果准确性。由此,目前针对分类属性数据的决策支持过程面临着有效分析方法匮乏等困境,仅能选择少数且挖掘效果有限的方法,限制了最终管理决策过程的正确性和科学性。深度学习理论在结构化的数值属性数据和非结构化数据的无监督挖掘中取得了显着优于传统数据挖掘方法的成果,为解决分类属性数据无监督挖掘问题提供了新的研究思路。本文面向决策支持过程的三个核心阶段,将深度学习相关理论引入分类属性数据无监督挖掘研究中,提出分类属性数据深度无监督挖掘系列方法,解决传统方法无法有效处理的分类属性数据无监督挖掘难点,为面向分类属性数据的决策支持过程提供理论支撑及有效解决方案。本文研究主要解决如下三个实际问题:（1）决策空间表征阶段,将待分析数据从原始特征空间映射到决策空间中,获得其决策空间表征,以便更好地服务于后续分析过程。对于分类属性数据,现有方法难以深入挖掘数据的潜在特征,导致无法获得能够准确反映数据间关系的决策空间表征,影响决策分析过程的准确性。（2）决策分析过程阶段,基于待分析数据的决策空间表征,选择或开发合适的分析方法,从中发现潜在有用的知识模式,为管理决策提供高质量的方案支持。对于分类属性数据,现有方法难以精准度量数据间关系,造成基于此类型数据的决策分析结果准确性较差。（3）决策结果评价阶段,对决策分析结果的有效性进行定量评价,并从中识别出最优结果,以确保依据科学的分析结果支持管理决策过程。对于分类属性数据,现有方法未充分衡量决策分析结果中全部相关信息的有效性,影响评价结果的准确性,难以保证决策支持过程的科学性。基于上述实际问题,本文开展面向决策支持的分类属性数据深度无监督挖掘研究,主要创新性成果包括:（1）提出面向决策空间表征的分类属性数据深度特征学习方法,借鉴深度无监督特征学习和网络嵌入基本思想,能够深入挖掘分类属性数据中隐含的实际意义及其相关关系,并将其显示地表达在决策空间表征中,为决策支持过程奠定数据基础。现有相关研究存在分类属性数据潜在特征挖掘能力不足及特征学习结果受参数影响敏感的缺陷,并且受制于分类属性数据不可微且不可进行代数运算的限制,深度学习方法无法直接应用于分类属性数据挖掘。本文将结构化的分类属性数据转化为网络数据,打破应用深度学习相关方法解决分类属性数据挖掘问题的障碍,能够获得蕴含着原始分类属性数据潜在有用信息的决策空间表征,为后续决策分析过程提供数据基础。（2）提出面向决策分析过程的分类属性数据深度聚类方法,借鉴深度聚类和网络嵌入基本思想,能够充分挖掘分类属性数据间关系,获得更加精确的聚类划分结果,为决策支持过程处理分类属性数据提供有效的分析方法。现有相关研究存在分类属性数据间关系度量不精准影响聚类结果准确性的不足。本文基于深度聚类和网络嵌入基本思路,构建并融合聚类目标和特征学习目标,可以更精准地度量分类属性数据间关系,提升此类型数据的聚类划分效果,为决策支持过程中分析分类属性数据提供更准确的挖掘方法。（3）提出面向决策结果评价的分类属性数据聚类内部有效性评价指标,能够深入衡量分类属性数据聚类结果中数据对象间的细节分布信息,得到更准确的聚类评价结果,适用于具有深度特征的深度聚类结果评价任务,为科学地支持管理决策过程提供保障。现有相关研究基于分类属性取值的独立性假设,仅能衡量聚类结果中类的整体表现,忽略了数据对象的细节分布情况。本文通过构建符合距离定义的分类属性数据距离度量,结合具有设计优势的评价框架,能够尽可能考虑聚类结果中的全部细节分布信息,更加精确地对分类属性数据聚类结果进行评价,保障决策支持过程的科学性。（4）建立面向决策支持的分类属性数据深度无监督挖掘系列方法,可以作为一整套解决方案处理决策支持过程中面临的未标记分类属性数据。应用本文提出的分类属性数据深度特征学习方法、深度聚类方法、聚类内部有效性评价指标,支持某数据科学领域企业的人才招聘决策过程,将人才数据细分到不同类中,识别出最优人才细分结果,通过分析各类别人才特征,总结出支持人才招聘决策的管理建议,表明本文研究成果能够作为一整套解决方案用于面向未标记分类属性数据的决策支持过程。

张昶^[2]（2021）在《多因素作用下中国国有企业晋升机制研究》文中研究说明国有企业在我国的经济体制中占有重要的地位,国有企业的改革是我国经济体制改革的核心。在我国一直推行的国有企业“三项制度”改革中,人事制度改革是完善现代企业制度的重要部分,也是企业提升运行效率和经营管理水平的基础,更是公司治理结构改革的重要着力点。人事制度的改革和深化为员工的晋升提供了明确的方向,而晋升对于员工来说是一种有效地激励手段,好的晋升机制可以有效提升员工的工作积极性,提升企业的整体效能,最终增强企业在经济市场中的活力与竞争力,所以晋升机制的改革是人事改革中优化人力资源配置的一项十分重要的工作。探究晋升机制的核心在于把握影响晋升的因素,国务院于2020年6月印发的《国企改革三年行动方案》中明确强调国企的改革应快速地朝着现代企业的市场化方向靠拢,并进一步强调了选人、用人应全面的、合理的根据经营业绩和工作实绩进行考核,提出了国企管理者的“去行政化”、企业的“经济效益优先”等具体政策。但是目前,国企依然存在企业性质“政治性”,企业目标和岗位“多样性”等现状,加之委托人想要“降低代理人工作水平的甄别成本”以及“对高人力资本员工的高组织承诺”等行为,这会导致在晋升中业绩因素并不一定会占据十分主要的作用,而非业绩因素反而会在晋升中发挥较大的作用,形成国有企业内部的较为复杂的晋升机制,最终影响晋升激励的效果,降低企业的整体的经营管理水平和绩效产出,降低企业资源配置。所以,围绕国有企业的晋升机制这一问题,本文深入剖析了影响员工内部晋升的因素,分析了这些因素的变化和交互对于员工在国有企业中的晋升产生的不同的作用,概括了国有企业晋升模式,并研究了晋升机制的激励作用对企业带来的影响。研究的结果有助于国有企业决策层更为清楚的看到企业内部晋升中存在的问题,更为深入的理解其内部的晋升机制对于员工的激励作用,从而更有针对性的分析和设计员工晋升的评价指标,更为合理的制定相关的政策和制度解决晋升中存在的问题,实现激励相容,降低信息不对称以及代理人的风险问题,有效推进国有企业中的人事制度改革。本文以人力资本理论、高阶理论、管理激励理论以及委托代理理论为基础,以文献综述为出发点,采用文献分析与理论推演、实证分析、比较研究、博弈研究等方法,对国有企业中员工的内部晋升进行了研究。具体来说:首先,对国有企业内不同晋升方式进行分析,以内容激励理论为基础构建灰色关联度模型,研究不同晋升形式为员工带来的不同满足感,并以此为基础确定后续研究的因变量。第二,对影响晋升的因素进行思考,以人力资本理论和高阶理论为基础分析非业绩因素对晋升的影响,选择了一些人口学特征因素并构造了政治资源因素作为职位晋升研究的自变量。以中国邮政集团有限公司以及其各省、地市、区县分公司的晋升数据为研究对象,对数据进行有效处理后,以选定的非业绩因素作为独立变量并设计交互变量,以Logistic回归模型对影响员工内部职位晋升的因素进行深入分析,并从业绩变量的引入,晋升层级的变化为切入点替换数据集,进行模型的稳健性检验。第三,本文运用数据挖掘中决策树、随机森林、支持向量机与人工神经网络等主要分类算法,对晋升数据进行建模和精度对比分析,找到最适用于晋升数据的分类算法,构建模型并基于不同因素的综合作用概括出国有企业内部不同层级员工的职位晋升模式和特征,这些模式和特征的总结也再一次印证了非业绩因素对于职位晋升的作用。最后,本文分析了国有企业晋升机制的公平与激励问题,提出国有企业内同时存在的两种晋升机制,以员工感受为视角,通过多层模糊综合评价的方法进行了实证。并以不同的晋升机制对获得晋升员工的不同激励为基础,构建委托人与代理人之间的晋升博弈模型,以此研究国有企业中的晋升激励、员工绩效与企业收益的问题。纵观全文,得到的研究结论及理论贡献简要概括如下:（1）在我国国有企业的晋升形式中,职位晋升是最重要的一种晋升形式,员工也会因此获得更多的激励和满足感。该结论为企业晋升研究中的因变量选择提供了一定理论基础。（2）在我国国有企业内部职位晋升中,非业绩因素对于职位晋升会产生重要影响。本研究得到:男性员工总是比女性员工更容易获得职位晋升,晋升中的性别歧视以及女性的“晋升天花板”仍然存在。员工的初始学历和最终学历越高,越容易获得职位晋升,且学历对于女性员工的职位晋升更为重要,即女性员工的晋升标准要高于男性员工。在不同层级的职位晋升中,员工的最终学历是否在入职前获得对于晋升的影响是不同的。同时,员工的年龄也在各层级的职位晋升中起到不同的作用,这说明“干部年轻化”的政策在企业内不同层级被差异化执行。岗位年限方面,在一定年龄阈值内,员工在晋升前岗位的任职年限越长越容易获得职位晋升,这与我国现行的干部政策中对岗位年限的要求相关。政治资源方面,员工的政治资源越强则越容易获得职位晋升,而相对于高学历员工,政治资源对于低学历员工在职位晋升中的作用更为明显。这些结论揭示了国有企业中非业绩因素对于职位晋升的作用,为晋升研究中自变量的选择提供了理论依据;同时,不同于以往研究普遍关注的企业“一把手”的外部政治晋升,本文将研究视角聚焦于企业内部的不同层级,丰富了晋升研究的框架。（3）基于晋升模式概括和归纳的目的,在目标维度为离散型,输入维度既有离散型又有连续型的晋升数据中,随机森林是精度最高的算法。而对于小数据样本,支持向量机分类是一个不错的选择。但是,对于目标维度为二分类的晋升数据,人工神经网络算法的精度相对较低,其更适用于目标维度为连续型的数据。此外,数据挖掘方法可以概括出一些具体的、不同层级的晋升模式。这些模式为企业内部各层级晋升特征的研究提供了一定理论依据,同时分类算法的适用性也为企业晋升数据的处理和分析提供了新的思路。（4）晋升公平除了对一般员工会产生不同的激励效用,对于获得晋升的员工同样也会产生不同的激励,即通过非业绩因素晋升的员工在新岗位上的工作努力程度不如通过业绩因素晋升的员工。此外,我国国有企业中并不是只有一个固定的晋升标准,而是以业绩因素为主和以非业绩因素为主的两类晋升机制同时存在,企业对于不同的员工,在不同的情况下可能会采用不同的晋升机制,这种同时存在的两种晋升机制是可以被员工感受到的,由此会增大激励效用的差距。该结论对于国有企业晋升激励的研究进行了有效的补充,使晋升激励的理论延伸到获得晋升的员工。（5）基于委托代理的零和博弈分析,可以得到企业在两种晋升机制共存的情况下,若想使自身效益最大化,企业对于晋升后员工提供的薪资福利并不是越高越好,而是应与企业对员工工作的甄别成本和不同激励下员工晋升后为企业带来的绩效的差额成正比,并与员工创造的最小绩效相关。该结论为晋升激励中的薪酬设定提供了理论依据,并将晋升候选人之间基于业绩的“锦标赛”博弈扩展为委托人和已获得晋升的代理人之间的基于不同晋升机制的博弈,这为晋升博弈研究提供了新的视角。

毛莹^[3]（2019）在《基于医疗信息系统的数据挖掘算法研究》文中认为随着科技的进步和发展,数据呈现爆炸式增长,如今的社会是快速发展的社会,也是数据社会,随着数据库技术的不断发展和普及,数据存储已经成为可能,海量的数据实现了存储,数据库转化为数据仓库。数据的存储已经不再成为问题,数据的分析和处理逐渐成为学者的研究对象,数据挖掘这门学科诞生。它是研究数据更高级的形式,海量的数据中有不完整,有噪声但是价值极高的数据,针对这些数据,数据挖掘这门学科进行高度智能化分析,通过归纳总结,发掘到数据间一抹的关联,数据挖掘研究两个方面的内容,第一个方面从数据中寻找有用信息,建立初步模型。第二个方面,随着数据的不断加入,可以改善数据挖掘的方法,改善新的模型。随着经济的发展,医疗技术得到了不断的发展,医学需要大量有效的信息和知识,帮助医生可以进行快速的诊治。目前医院已经实现了数字化系统,全世界成千上万的海量数据产生于这些数字系统。本文主要结合医院医疗信息系统使用现状,对数据挖掘技术开展了深刻的研究。主要内容有:一、分析了数据挖掘技术的国内外研究现状。二、研究医院信息系统的发展和体系机构,分析医院系统的主要缺陷。三、研究了数据挖掘技术的方法、流程和常用技术。四、重点研究了Apriori算法在医疗信息系统中的应用。主要完成工作如下:第一,建立数据挖掘基本理论,结合实际分析医疗信息系统的特点,结合基本理论找出数据挖掘的特点,找到适用于医院的数据挖掘算法;第二,对医院的具体数据表结构进行分析,找出数据表的关联关系,根据实际需求建立与医院数据库对应的事实表,对所需的数据进行数据准备操作。第三,建立数据库,为后续的工作打下坚实的基础;第四,利用SQL集成环境创造环境,基于医院的数据库管理系统,建立适用于医院新系统的挖掘模型,选择合适的算法和工具;第五,利用数据模型分析历史医疗数据,并得到其中有价值的信息用来为临床诊断和管理者决策提供依据。最后对研究的结果和问题进行了总结,并且展望未来的研究方向和目标。

乔万冠^[4]（2019）在《大数据背景下煤矿安全管理效率分析及提升仿真研究》文中研究说明随着大数据技术的快速发展和安全管理理论的逐渐完善,数据挖掘技术在安全管理决策领域中受到了众多学者和企业的关注。面临着员工日益提高的安全需求以及社会舆论的高度关注,煤矿企业不得不提升安全管理水平来适应社会的快速发展。然而,如何精确、高效和客观的评价煤矿企业的安全管理效率,并对其进行有效性提升是当前煤矿企业迫切需要解决的安全问题。在《安全生产“十三五”规划》（国办发﹝2017﹞3号）指出“应全面推进安全生产大数据等信息技术应用,提升重大危险源监测、隐患排查、风险管控、应急处置等预警监控能力”。表明当前政府和煤矿企业对大数据技术和方法在煤矿安全管理中的应用显得极为迫切。基于上述背景,本论文结合安全管理、系统工程以及数据挖掘等理论和方法,从大数据背景出发,对当前中国煤矿安全管理研究基础变革,煤矿安全管理内涵、范式及事故发生机理,煤矿安全管理影响要素深度挖掘、煤矿安全管理效率评估和煤矿安全管理效率提升等五个方面进行研究,来解决煤矿企业在实施安全管理过程中存在的效率问题,从而有针对性的制定提升煤矿安全管理水平的发展路径及相关策略。本论文具体研究内容和结论如下:（1）在大数据背景下煤矿安全管理研究基础变革方面,本文主要从安全管理理念、安全管理效率、安全管理方法以及安全管理思维四个方面进行阐述。在安全管理念方面,指出安全管理理念具有事故致因、传统安全、系统安全、大数据安全四种视角,而这四种视角下安全管理理念具有一定的时序性,但又在各自时期存在交叉重叠现状。在安全管理效率的变革方面,认为当前煤矿安全管理效率研究缺乏全面型、前瞻性和时效性,并构建大数据背景下的安全管理效率研究基本框架。在安全管理方法的变革方面,从知识驱动、模型驱动和数据驱动三个方面梳理了当前煤矿安全管理的研究模型和方法,并提出基于混合驱动的煤矿安全管理方法。最后,从经验、制度、风险预控以及大数据化四个方面阐述了当前安全管理思维的变革。发现大数据背景下煤矿安全管理思维正在由因果-相关,静态-动态,逆向-正向,经验-数据思维转变。（2）在大数据背景下煤矿安全管理内涵、特征及事故机理分析方面,首先,定义了煤矿安全管理数据化内涵,认为大数据背景下煤矿安全管理对象由传统的实物个体转向对个体产生的大数据管理,并指出大数据背景下煤矿安全管理既具有大数据的主要特征,也存在自身的不足。其次,从煤矿安全管理数据的结构、来源和属性的不同,对煤矿安全管理数据进行总结和分类。然后,从数据大小的角度对煤矿安全管理的大数据和小数据进行对比分析,提出了大数据背景下煤矿安全管理数据、信息和规律转化模型,结果显示煤矿安全管理数据、信息和规律之间并不是简单的直线型结构,而是以安全知识为中介的三角转化模式。最后,引入数据场理论,从数据角度阐释了煤矿事故发生机理。结果发现,当煤矿安全数据时间效应产生的关联规则存在误差则有可能会导致煤矿安全事故发生;当通过煤矿安全数据空间效应产生的新的煤矿安全数据、信息、知识和规律与原有的煤矿数据空间不匹配,也会导致安全信息不对称或者安全规律不稳定,引发事故。当煤矿安全时间数据和空间数据相互碰撞交叉而产生时空交叉效应,会造成煤矿生产系统中人-机-环-管交互的不稳定,产生煤矿事故。（3）在大数据背景下煤矿安全管理数据挖掘方面,首先从安全生产操作维、方法维和领域维三个方面提出了煤矿安全管理大数据挖掘的三维结构模型,同时给出了大数据的六大主要功能以及在煤矿安全管理中应用的十大领域。其次,从问题定义、数据预处理、建模、模型评估及模型应用和优化五个方面阐述了煤矿安全管理数据挖掘的基本流程。然后利用决策树中的分类功能对矿工不安全行为数量进行分类挖掘。结果发现:培训、出勤、经验和年龄都是影响人类不安全行为频率的因素。培训因素对不安全行为的影响最大。最后利用Apriori关联规则算法对煤矿安全隐患数据中的部门、时间、位置、月份和风险水平等影响因素进行挖掘,发现多个维度之间的强关联规则,避免或减少煤矿事故的发生。（4）在煤矿安全管理效率评估及预测方面,将数据驱动方法和模型驱动方法相结合来评估和预测煤矿安全管理效率。首先介绍了煤矿安全管理效率模型驱动和数据驱动评估方法优缺点。然后,提出DEA-BP神经网络混合驱动的煤矿安全管理效率评估预测模型。通过利用DEA-BBC模型的对煤矿安全管理效率进行静态分析,再利用DEA-Malmquist指数进行动态的分析。然后,将DEA模型得到效率评估结果进行编码作为二次评估预测的期望输出。最后,运用BP神经网络进一步对不同煤矿企业的安全管理效率进行评估和预测。结果表明:煤矿安全管理效率呈现出震荡上升的趋势,说明当前煤矿企业的安全管理效率并不稳定。同时,安全管理效率有效的企业数量也呈现出震荡上升趋势。在进行动态分析过程中,煤炭企业在对待企业改善安全效率方面具有一定的盲目性,没有注意到安全效率是技术效率和技术进步指数共同作用的结果,导致技术效率下降而技术进步效率上升或者是技术效率进步而技术进步效率下降的现象发生。最后,对于产出不足的煤矿企业应加大对事故以及隐患数据的管理,找出煤矿事故和隐患之间存在的强关联规则,利用这些规则来提高煤矿隐患排查率和减少事故伤亡人数。对于投入冗余的煤矿企业应把重点放在人员结构和安全投入效率上面,适当减少投入增加规模效益上。（5）在大数据背景下煤矿安全管理效率仿真优化方面,首先,利用系统动力学将煤矿安全管理效率系统边界定义为员工安全管理子系统、隐患管理子系统、事故管理子系统和安全投入管理子系统4个层面,并引入大数据影响系数作为调节变量构建因果关系图和流图。最后,以王楼煤矿为例进行应用,得到以下结论:大数据影响系数的增加与煤矿安全管理效率水平的变化趋势保持一致性,不同的因素其影响系统安全管理效率水平的变化速度存在差异。其中大数据对员工安全管理的影响较为明显,大数据对矿工安全管理影响系数的增加必定带来煤矿安全管理效率水平的提高,但在达到一定的系数后,安全管理效率水平提高的越来越慢,这表明在大数据对煤矿安全管理效率影响是有限地,在达到一定的范围内,安全管理水平提升的难度就越来越大,单纯的改变单一大数据影响系数难以带来明显的效率增加。在改变多个大数据影响系数后发现,煤矿安全管理效率大幅增加,其中同时改变所有影响系数带来的效果最明显,其次是改变三个子系统大数据影响系数,最后是改变两个子系统影响系数。通过调整不同大数据影响系数的比例,比较不同方案条件下煤矿安全管理效率水平的变化速率,可以为煤矿企业进行大数据应用提供参考意见。该论文有图63幅,表35个,参考文献257篇。

吉祥^[5]（2019）在《数据挖掘中关联规则算法的研究》文中研究说明关联规则挖掘是数据挖掘中热门的研究方向之一。随着数据规模的爆炸式增长,传统的关联规则挖掘算法时间效率过低,如何提高算法的时间效率是关联规则挖掘的主要研究内容。本文从二元属性和多值属性两个方面展开对关联规则算法的研究。一方面,本文深入研究了基于二元属性的布尔关联规则算法Apriori算法,针对其候选项集规模庞大、计数过程较慢的缺点提出了一种基于Hash树的并行计数改进算法,算法从三个方面改进,第一,对频繁项集进行裁剪,降低连接产生的候选项集的规模;第二,使用Hash树存储候选1项集,加快支持度计数过程,从候选2项集开始,利用事务和项集已按字典序升序排列的特点,改进Apriori算法的计数过程;第三,充分利用多核CPU的优势,使用多线程技术改写计数过程实现并行计数。通过实验对Apriori算法和改进算法进行性能测试,结果表明,改进算法的时间性能大大提升。另一方面,本文深入研究Apriori算法处理多值属性数据集的过程,指出其处理过程中产生的无效项目集过多的问题,针对该问题,提出一种减少无效项目集数目的优化算法,该算法剔除了同一属性不同属性值连接产生的项集,从而降低了候选项集的规模。实验结果表明,优化算法的时间效率更高。

谢莎莎^[6]（2018）在《基于数据挖掘的工程造价指数研究》文中提出面对当今大数据时代的冲击,各种纷繁复杂的建筑工程项目数据信息经过收集、整理、清洗、重组之后具备极大的利用价值,如何结合数据挖掘的方法用好这些宝贵资源,是实现工程造价行业可持续发展、实施信息化管理战略、加速造价服务行业转型的迫切需要。为了适应社会主义市场经济高速发展的需求,建设工程造价管理必须改变完全依靠政府发布的定额计价模式,在遵循政府发布的定额和调价规定的前提下,工程造价的确定需由企业根据市场情况以及自身生产和管理水平确定。本课题应用工程造价和统计学相关理论,在清单计价模式下设计出完整的造价指数测算系统,将数据挖掘理论应用于造价指数管理中,包括造价指数信息的筛选、测算、预测等方法,最后在此研究基础上设计了建筑工程造价指数信息平台。本课题对国内外有关造价指数测算方法及体系设置方面的文献进行了系统整理和分析,以期得到适用于我国信息化建设中建筑工程造价指数系统的建设方法。通过收集近年来典型工程的特征值,调研各城市造价指数的设置情况,建立了一套完整的指数测算系统、筛选系统及预测系统的数学模型。本课题对指数理论、数据挖掘理论、知识管理理论、BP神经网络、遗传算法进行了阐释并讨论了其适用范围和用于本课题的价值。分别针对北美地区及英国的指数体系设置和发布方法进行研究,对国内六个城市或省份地区进行了调研分析,结果表明,各城市指数体系差别较大,主要体现在以下三个方面:第一,发布形式不同。香港、重庆、深圳、成都为定基指数,而江西采取的是环比指数,天津既有定基指数又有环比指数。第二,发布机构不同。香港造价指数体系的设置与发布方式类似英国,由建筑署负责发布政府层次的造价指数,同时利比、威宁谢两大测量师行编制的投标价格指数也发挥着重要的作用,而我国内地工程造价指数主要由各省市地方政府编制并定期发布。第三,编制范围不同,香港造价指数编制成本指数和价格指数,我国内地造价指数编制单项指数和综合指数。本课题通过对国内外建筑工程造价指数测算体系研究,基于当前建筑市场特点,确定对建筑工程造价指数测算体系编制设计以清单计价模式为主。对建筑工程进行分类,提出主要对三大类指数进行编制,分别是建筑工程造价指数、建筑工程费用指数和建筑工程消耗量指数。本课题针对典型工程的样本筛选方法进行了研究。在进行建筑工程造价指数测算时,若将不同类型的工程造价信息杂糅在一起,则会使造价指数失去意义,因而选取典型建筑工程作为测算样本非常重要,在建筑功能、结构形式等进行划分之后再将同类工程汇总。根据建筑工程周期内样本稀少、影响因素众多的特征,在筛选典型工程的过程中,本课题采集了100个建筑工程信息,采取了“专家评选法”、“灰色关联法”、“T检验法”与“决策树法”,首先用“专家评选法”进行样本特征值的初选,选取了有价值的特征值,然后用“灰色关联法”完善“专家评选法”的结论,确定八个特征值,接着用“T检验法”进行筛选,原定的八个特征属性中工程地点、层高、结构类型这三个特征属性对工程造价的影响不显着,因此被剔除,最后引入决策树模型补充T检验法仅能检验因变量而无法检验样本本身的不足。将四种方法相结合,从初选到完善,提高筛选的精度。本课题研究了造价指数的测算模型。测算信息的采集方式主要为人工采集法,选取大量的行业内资深信息员对工程信息进行统计与上报,通过审核的工程信息可进入系统数据。针对造价信息的采集方式、发布方式进行了研究,并针对信息员采集方式设计了完整的信息采集表。从两方面对造价指数进行调整,其一,在典型工程相应的消耗量给定情况下,对典型工程重新组价,可以得到相应的指数和指标;其二,在我国由于建筑材料需要市场采购的范围越来越大,主要建筑材料如钢材、木材、水泥等的价格对工程造价的影响很大,因此,本课题利用调值公式对相应的材料指数进行调整。本课题对建筑工程造价指数的预测进行了研究。由于受建筑工程样本特征值缺失和样本数量较少的影响,在预测未来造价指数时单纯使用BP神经网络具有局限性,会降低预测的准确性和精度,需要结合建筑工程样本特点,对原始BP神经网络进行改进,最佳方法是结合适用于样本数量较少的灰色预测模型。课题以武汉市建筑工程中高层住宅及公寓（含商住楼）项目（12层以上）为例,进行建筑工程造价指数预测的实证分析。案例选取对建筑工程造价影响较大的人工、材料、施工机具费用指数进行造价指数的分析与预测,收集了从2014年第3季度到2016年第4季度各项价格及建筑工程总价指数数据信息。通过计算证明,经过基于遗传算法优化的GA-BP神经网络模型进行建筑工程造价指数的预测精度达97%左右,对建设项目投资决策有着较为关键的参考意义。最后,本课题对建筑工程造价指数平台信息采集系统进行了研究。课题设计了信息采集系统,由平台使用者在采集平台上收集建筑工程核心造价信息,建立地区工程造价信息数据库。通过系统数据清洗、审核、加工服务,最终由地方造价站在发布展示平台按标准要求定期向社会发布建筑工程指标指数,以提升造价管理的效率和服务水平。

马辉^[7]（2018）在《可拓室内设计数据挖掘研究》文中认为可拓室内设计数据挖掘研究是国家自然科学基金项目《面向可拓建筑策划与设计的可拓数据挖掘理论及其方法研究》（51178132）的重要组成部分,是建筑学、可拓学和数据挖掘领域的交叉研究课题。研究建立在以数据为新能源的数据时代发展初期,探索智能化实现室内设计的新路径。是对现有室内设计理论与方法体系的扩充。研究目的在于利用计算机可以识别并运行的可拓设计语言,将可拓学的学理思想充分嵌入到数据挖掘全链条过程中,优解室内设计问题,发现优选模式下的室内设计知识规律,用于数据化实现可拓室内设计,推动室内设计研究向更理性、更科学、更智能、更高效的方向发展。论文运用跨学科交叉研究、可拓创新研究等方法,将可拓建筑学理论和可拓数据挖掘方法融入到室内设计数据挖掘研究中,构筑了可拓室内设计数据挖掘的基础研究、理论研究、方法研究、应用研究的框架结构。可拓室内设计数据挖掘的基本理论研究,是在可拓建筑设计研究和可拓数据挖掘研究的基础上,深度思考可拓室内设计数据挖掘的基本理论问题,提出支撑后续方法和应用研究的基本理论,为研究展开奠定基础。论文提出了可拓室内设计的概念;提出了描述室内精神感受的感元系统;阐述了计算机可以识别的可拓室内设计基元表达理论;阐述了可拓室内设计思维模式理论和可拓集理论;辨析了可拓室内设计数据挖掘的涵义和修辞关系;明确了研究的方向和任务。可拓室内设计数据仓库的设计研究,是在充分思考可拓学的核心优势和充分考虑设计数据特点的基础上,为设计策略输出建立的可拓数据挖掘操作平台研究,是面向可拓室内设计的,适合可拓数据挖掘结构型质的仓库设计指导。研究建立了处理数据和可拓数据的准入端口;确立了仓库的构成内容;提出了符合可拓数据特点和可拓数据挖掘特点的拓点结构;提出了三项重要的建库逻辑:即指导仓库目标系统设计的面向主题性原则、指导仓库动力系统设计的双轮驱动原则、指导仓库结构系统设计的原型设计原则,为可拓室内设计数据挖掘操作提供平台支持。可拓室内设计数据挖掘的方法研究,是在现有数据挖掘方法研究和可拓数据挖掘方法研究的基础上,按照可拓室内设计问题模式建立的挖掘操作方法研究。本质上是在挖掘到的普遍规律约束下寻找设计最优解或最优区间,以灵活的方式提供满足不同需求下的个性化设计对策。研究建立了以技术路线为依据,以挖掘步骤为展开方式,以实例解析为佐证的挖掘方法体系,详细论述了可拓室内设计数据挖掘的三种基本方法和一种创新方法。其中,有监督的可拓分类挖掘方法、无监督的可拓聚类挖掘方法、描述数据依赖关系的可拓关联挖掘方法,是针对剔除数据雍余后的多数模式的数据分析方法,而代表少数模式的离群数据在设计创新中具有非常重要的意义,研究针对这部分异常模式提出了可拓室内设计离群点挖掘方法,是针对设计数据的创新的挖掘方法。可拓室内设计数据挖掘的知识类型及其应用研究,是在可拓室内设计数据挖掘方法研究的基础上进行的挖掘成果研究,以及基于挖掘成果的应用方式研究。数据挖掘也被称作知识发现,此部分研究是自动处理数据工具的最后一环,是可拓数据挖掘技术与专业内容的衔接与落地。研究呈现了通过可拓数据挖掘方法可以生成的具体的室内设计知识内容,囊括了四种主要的知识类型,并分别阐述了不同类型知识的直接应用和可拓应用模式,完成了面向可拓室内设计的可拓数据挖掘的全过程。总之,研究旨在以数据为基础,以模型为工具,以方法为指导,在可拓室内设计数据仓库的平台上,进行可拓数据挖掘研究,发现以预测、优选、创新为核心的室内设计知识规律,探索一条以数据和需求共同驱动,智能化解决设计问题的数据化设计创新之路。为此,研究建立了可拓室内设计数据挖掘的理论体系、数据仓库设计体系、挖掘操作的方法体系、挖掘结果及其应用体系,形成了完整的可拓室内设计数据挖掘的研究结构。研究工作为数据时代设计发展提供了应对的新策略,为室内设计智能化实现提供了逻辑基础,研究成果拓展了可拓建筑学的学术边界。

王志强^[8]（2018）在《基于局部中心量度的聚类算法研究》文中研究指明聚类分析是数据挖掘的主流技术之一,它在人工智能领域有着广泛应用。簇的定义和聚类方法的双重多样性致使数据科学发展过程中聚类算法拥有“数量庞大”“类型多样”等特点。一般而言,能将无标签的样本点聚为若干个簇的算法都可以称为聚类算法,人们常根据这些算法的基本思想或基本假设将其分为几个常见的类型:分割聚类法、层次聚类法、密度聚类法、网格聚类法、模型聚类法等。该文提出了一类基于局部中心量度的聚类算法,其创造性成果主要体现在:1)首创性地提出了局部中心量度的概念。局部中心量度是衡量空间中任意点的局部中心程度的量,聚类过程中区分中心区域的点和边缘区域的点有赖于正确估计出样本点的局部中心程度。该文认为,密度聚类算法中选用的样本点密度起着局部中心量度的作用:密度高于预先设定的阈值的样本点被划分为核心区域的点,而密度低于阈值的样本点被划分为边缘区域的点,它们之间相互连接形成最终的聚类结果。经验上,样本点密度较大的区域通常是簇中心区域,而样本点密度较小的区域通常是簇边缘区域。因而,有着完善的数学理论基础的样本点密度最先成为局部中心量度被广泛应用。然而,样本点密度作为局部中心量度存在着缺陷:密度阈值难以先于经验给出,这将导致以样本点密度为局部中心量度的聚类算法对参数敏感;不同的簇可能有着相差较大的最佳阈值,这将导致以样本点密度为局部中心量度的聚类算法难以处理不平衡问题。因此,人们需要设计新的局部中心量度。2)设计了多个局部中心量度。局部中心量度的准确性直接影响到聚类结果的正确性,一个良好的局部中心量度除了能够正确反映样本点的真实局部中心程度外还需要考虑:局部中心量度的稳定性,即不论应用于何种分布的数据,区分中心区域和边缘区域的样本点的阈值相对稳定,易于算法参数的选取,降低算法对参数的敏感度;局部中心量度的健壮性,即计算结果不易受数据分布的不平衡性影响。该文分别从mean shift和局部引力模型出发,设计了稳定性和健壮性更强的局部中心量度。3)提出了局部引力模型和新的聚类算法。基于局部引力模型,该文借助不同的局部中心量度间的多样性,同时使用多个局部中心量度,提出了LGC算法和CLA算法。新提出的聚类算法具有易于调参,结果准确等特点。4)设计了适用于多性能指标体系下的非参数检验方法。衡量聚类算法性能的指标较多,常见的有RI、ARI、NMI等。多种指标之间的数值相互直接比较是没有意义的,如就算法甲的RI值和算法乙的NMI值进行直接比较是没有意义的。该文采用秩转化的方法,提出了三种不同的计算秩的方法,将不同的性能指标对应的具体数值转化为秩值,通过对秩值进行统计检验完成多性能指标的融合。

陈英^[9]（2018）在《基于属性加权的PBMMKM聚类算法研究与应用》文中研究指明K-means聚类算法对于小规模数据其聚类结果具有高效性和准确性,但对于大规模的数据,聚类结果的准确率明显下降。K-means聚类算法中的聚类数须事先确定,对初始聚类中心点的选取具有很大的依赖性和随机性,并且对噪声点非常敏感。针对K-means算法这些缺陷,论文提出了一种基于属性加权的K-means改进算法。论文提出了一种主成分分析与线性判别分析相结合的属性加权主成分分析PWPCA算法。利用线性判别分析的线性映射与主成分分析对数据维数进行约简,通过计算各属性的贡献率来确定权值,利用最小二乘法将其拟合,对于特征权值接近为零的维数可将该维约简,以便达到属性加权特征选择的效果。在维数约简后的数据上进行K-means聚类,减少了聚类计算量,提高了聚类准确率。与其它算法进行聚类分析比较,实验结果分析表明了基于PWPCA的K-means算法能有效解决聚类对异常点敏感及海量数据聚类准确率较低的缺陷。论文提出了一种基于并行二分最大最小距离的K-means算法PBMMKM（Parallel Bisecting Max Min K-means）。算法根据并行二分执行迅速的思想将数据集划分为特定的类数,在每个类中运用最大最小距离的思想进行聚类,依据最近邻类的合并原则进行小类合并,用BWP有效评价指标来反映聚类结果。PBMMKM算法在进行聚类时不需要确定聚类数,有效解决了 K-meatns聚类算法中的聚类数必须事先给定以及对初始聚类中心点的选取具有随机性这些缺陷。与其它算法进行聚类分析比较,仿真实验结果表明了基于属性加权的PBMMKM算法具有较高的稳定性和准确性。在客户关系管理系统中采用了 PBMMKM算法,对处理好的数据集分别用K-means算法、MMKM算法和论文提出的PBMMKM聚类算法进行客户聚类分析比较,通过客户聚类细分结果表明了 PBMMKM算法使得聚类结果更加准确和细化,具有更接近实际应用的聚类分析结果。

许珺怡^[10]（2017）在《基于计算辩论的多Agent联合学习方法研究》文中研究指明随着大数据时代的到来,分布式数据挖掘方法逐渐成为数据挖掘领域的主流技术,成为解决大规模数据环境下数据挖掘任务的基本方法之一。然而分布式数据挖掘仍有很多技术难题亟待解决。其中,分布式数据挖掘的知识集成问题关乎系统全局模式的质量优劣,得到当前分布式数据挖掘领域研究的广泛关注。因此,如何设计一种有效的知识评估与集成方法,来解决分布式数据挖掘的知识集成任务,成为富有研究价值与挑战性的前沿课题之一。本文针对分布式分类规则挖掘的知识集成问题,以多Agent系统技术为基础,综合运用多Agent辩论技术、关联规则挖掘技术、抽样技术、强化学习技术等相关领域知识,系统并深入地研究了基于计算辩论的多Agent联合学习方法的辩论模型、论据构建与性能分析,以及面对大规模数据以及动态数据的优化方法。本文的研究工作主要包括以下几个方面。（1）针对分布式数据挖掘中知识难以集成的问题,首先提出了从辩论中学习的思想,并通过理论分析、案例说明与实验验证多个角度证明了辩论具有学习能力。进而,将分布式数据挖掘与辩论技术相结合,提出了一种新的基于辩论的多Agent联合学习方法。该方法面向知识集成任务,涵盖了全局知识的抽取和优化两个主要功能,从而实现了分布式局部知识的有效集成,以及全局知识在应用阶段的更新与优化。在此基础上,使用Arena辩论模型,提出了一种基于Arena辩论模型的多Agent联合学习模型AMAJL,并从局部知识生成、全局知识生成和全局知识应用与优化三个不同层次,形式定义了AMAJL的基本功能和组成结构;最后,分析了多Agent联合学习模型AMAJL具有的重要性质。（2）为了证明基于辩论的多Agent联合学习方法的可行性与有效性,本文结合关联规则挖掘技术,对基于辩论的多Agent联合学习模型AMAJL进行了实例化,提出了基于关联规则的多Agent联合学习系统ArgAR。本文深入研究了ArgAR系统中局部规则与经验论据的实例化方法,并详细阐述基于关联规则的经验论据构建算法,以及基于关联规则的多Agent联合学习系统的主控流程与算法。最后,通过在UCI公共数据集上的大量分类实验,展示了ArgAR系统中全局知识抽取过程的收敛性,并验证ArgAR系统能够有效集成并抽取出的高质量全局知识。（3）面对大规模数据分析任务,本文将抽样技术应用于基于辩论的多Agent联合学习方法,研究并分析基于辩论的多Agent联合学习方法利用较小规模样本进行知识集成的效果。三个数据集上的分类实验表明,无论采用哪种抽样策略,基于辩论的多Agent联合学习方法中抽样比例达到50%以上,模型的分类准确度与90%抽样比例下的分类准确度仅相差5%左右。进一步表明,基于辩论的多Agent联合学习方法能够从规模较小的样本数据中抽取出高质量全局知识,有效应对大规模数据中的知识集成任务。（4）面对动态数据场景中知识集成任务,本文在基于辩论的多Agent联合学习方法的基础上,提出了一种组合强化学习的多Agent联合学习模型ArgRL,实现全局知识在动态数据的分类应用过程中的评估与优化。通过利用ε-贪婪策略进行动作选择,实现动态数据的分类过程;并借助蒙特卡罗强化学习方法,实现全局知识库在应用中动态更新与优化。在此基础上,通过在多个公共数据集上的分类实验,证明了组合强化学习的多Agent联合学习方法在动态数据环境中进行全局知识抽取与集成的可行性和有效性。

二、数据挖掘中的数据准备工作（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、数据挖掘中的数据准备工作（论文提纲范文）

（1）面向决策支持的分类属性数据深度无监督挖掘研究（论文提纲范文）

致谢

摘要

Abstract

1 引言

1.1 研究背景

1.2 研究意义

1.3 研究内容

1.4 创新点

1.5 文章结构

2 理论基础和文献综述

2.1 数据挖掘与决策支持

2.1.1 决策支持中的数据特征

2.1.2 决策支持中的数据挖掘方法

2.2 分类属性数据的无监督挖掘

2.2.1 决策空间表征中的分类属性数据特征学习

2.2.2 决策分析过程中的分类属性数据聚类分析

2.2.3 决策结果评价中的分类属性数据聚类结果有效性评价

2.3 深度学习相关理论基础

2.3.1 深度无监督特征学习

2.3.2 深度聚类

2.3.3 网络嵌入

2.4 本章小结

3 面向决策空间表征的分类属性数据深度特征学习

3.1 分类属性数据特征学习在决策支持中的实际需求

3.2 分类属性数据深度特征学习的概念准备

3.2.1 分类属性数据深度特征学习的问题定义

3.2.2 分类属性数据深度特征学习的两个基本定义

3.2.3 分类属性数据深度特征学习的基本思想

3.3 基于分类属性数据的加权异构网络构建方法

3.3.1 基于分类属性间关系的网络构建

3.3.2 基于分类属性内关系的网络构建

3.4 基于网络嵌入的分类属性数据深度特征学习方法

3.4.1 分类属性取值的深度特征学习

3.4.2 分类属性数据的深度特征学习

3.4.3 特征分析

3.5 实验分析

3.5.1 实验数据集及设计

3.5.2 深度特征学习结果准确性分析

3.5.3 深度特征对后续聚类效果的提升程度分析

3.5.4 参数敏感性分析

3.6 本章小结

4 面向决策分析过程的分类属性数据深度聚类

4.1 分类属性数据聚类分析在决策支持中的实际需求

4.2 分类属性数据深度聚类的概念准备

4.2.1 分类属性数据深度聚类的问题定义

4.2.2 分类属性数据深度聚类的基本思想

4.3 基于网络嵌入的分类属性数据深度聚类方法

4.3.1 分类属性数据加权异构网络中的对齐编码

4.3.2 分类属性数据聚类损失及类中心初始化

4.3.3 分类属性数据深度聚类过程

4.3.4 特征分析

4.4 实验分析

4.4.1 实验数据集及设计

4.4.2 引入聚类损失对聚类效果的提升程度分析

4.4.3 深度聚类结果准确性分析

4.4.4 参数敏感性分析

4.5 本章小结

5 面向决策结果评价的分类属性数据聚类结果有效性评价

5.1 分类属性数据聚类结果评价在决策支持中的实际需求

5.2 分类属性数据聚类内部有效性评价的概念准备

5.2.1 分类属性数据聚类内部有效性评价的问题定义

5.2.2 分类属性数据聚类内部有效性评价的相关讨论

5.2.3 分类属性数据聚类内部有效性评价的基本思想

5.3 分类属性数据聚类内部有效性评价指标

5.3.1 分类属性数据的距离度量

5.3.2 分类属性数据的聚类内部有效性评价指标构建

5.3.3 特征分析

5.4 实验分析

5.4.1 实验数据集及设计

5.4.2 聚类评价结果准确性分析

5.4.3 在深度聚类结果评价任务中的适用性分析

5.4.4 参数敏感性分析

5.5 本章小结

6 支持人才招聘决策的分类属性数据深度无监督挖掘应用

6.1 人才招聘中的分类属性数据无监督挖掘需求

6.2 人才招聘数据准备

6.2.1 人才招聘决策支持的数据来源

6.2.2 人才数据属性描述及预处理

6.2.3 人才数据基本特征分析

6.3 人才数据深度特征学习

6.3.1 人才数据深度特征学习过程

6.3.2 人才数据深度特征学习结果分析

6.4 人才数据深度聚类及有效性评价

6.4.1 人才数据深度聚类过程

6.4.2 人才数据深度聚类结果的有效性评价

6.5 基于人才数据聚类结果的人才招聘决策支持

6.5.1 不同类型人才的特征

6.5.2 支持人才招聘的决策建议

6.6 本章小结

7 结论与展望

7.1 研究结论

7.2 研究展望

参考文献

作者简历及在学研究成果

学位论文数据集

（2）多因素作用下中国国有企业晋升机制研究（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 选题背景与问题的提出

1.1.1 选题背景

1.1.2 主要问题的提出

1.2 关键概念的界定

1.3 研究意义与研究思路

1.3.1 研究意义

1.3.2 研究思路

1.4 研究内容、研究方法与技术路线图

1.4.1 主要研究内容

1.4.2 研究方法

1.4.3 技术路线图

1.5 研究创新点

第二章理论基础和文献综述

2.1 相关基础理论

2.1.1 人力资本理论

2.1.2 高阶理论

2.1.3 管理激励理论

2.1.4 委托代理理论

2.2 晋升概述

2.2.1 晋升的概念

2.2.2 职位晋升的划分

2.2.3 业绩因素对于职位晋升的影响

2.2.4 非业绩因素对于职位晋升的影响

2.3 晋升公平与晋升博弈研究

2.3.1 组织公平与晋升公平

2.3.2 公平与绩效的关系研究

2.3.3 晋升中的博弈研究

2.4 基于数据挖掘的智能化方法

2.4.1 数据智能化方法

2.4.2 分类中的数据模型

2.4.3 数据挖掘与人力资源管理中的晋升研究

2.5 理论与文献评述

第三章国有企业中的不同晋升形式分析

3.1 国有企业中的晋升形式

3.2 基于内容型激励理论的晋升形式分析

3.3 基于灰色关联度的实证分析

第四章国有企业中影响员工职位晋升的因素分析

4.1 研究基础及研究假设

4.1.1 文献与理论分析

4.1.2 研究变量的选择

4.1.3 主要研究对象及假设的提出

4.2 基于Logistic回归的实证分析

4.2.1 实证背景

4.2.2 数据及统计性描述

4.2.3 Logistic回归分析

4.2.4 稳健性检验

4.3 本章小结

第五章国有企业中职位晋升模式分析

5.1 数据挖掘分类方法在职位晋升中的应用

5.1.1 分类方法与晋升

5.1.2 决策树分类

5.1.3 随机森林分类

5.1.4 其他分类方法

5.2 员工晋升模式分析

5.2.1 数据的选择

5.2.2 分类结果的精度对比

5.2.3 晋升模式分析

5.3 本章小结

第六章国有企业中的晋升激励与企业收益

6.1 晋升的公平与激励

6.1.1 晋升中的公平性问题

6.1.2 晋升的激励与绩效产出

6.2 国有企业的晋升机制与收益

6.2.1 晋升中的委托代理问题

6.2.2 国有企业的双晋升机制

6.2.3 基于企业收益的一种晋升博弈分析

6.3 本章小结

第七章结论与展望

7.1 主要研究结论

7.2 政策建议

7.3 不足与展望

参考文献

附录

附录1 不同晋升形式满足感的问卷调查

附录2 双晋升机制的问卷调研

致谢

攻读学位期间取得的研究成果

（3）基于医疗信息系统的数据挖掘算法研究（论文提纲范文）

摘要

Abstract

1 绪论

1.1 研究背景

1.1.1 选题目的

1.1.2 选题意义

1.2 国内外研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 论文结构

2 相关概念与技术介绍

2.1 数据挖掘概念

2.1.1 数据挖掘模型

2.1.2 数据挖掘方法

2.1.3 数据挖掘一般流程

2.1.4 数据挖掘功能

2.1.5 数据挖掘研究方向

2.2 常用数据挖掘技术

2.3 医疗数据挖掘算法对比分析

3 关联规则算法分析

3.1 关联规则算法概述

3.2 Apriori算法分析

3.2.1 算法概述

3.2.2 Apriori算法性能分析

3.3 关联规则应用举例

4 关联规则数据挖掘在HIS中应用

4.1 项目背景

4.2 医院管理系统简介

4.2.1 医院管理系统发展

4.2.2 医院管理体系结构

4.2.3 医学数据挖掘意义

4.3 医学数据挖掘基本过程

4.4 医疗数据处理模型

4.5 数据挖掘在医院管理系统应用实例

4.5.1 算法实现过程分析

4.5.2 数据分析

4.5.3 数据提取

4.5.4 数据处理

4.5.5 数据集成

4.5.6 实验结论

4.5.7 算法实际应用

总结与展望

参考文献

附录程序关键代码

致谢

（4）大数据背景下煤矿安全管理效率分析及提升仿真研究（论文提纲范文）

致谢

摘要

abstract

1 绪论

1.1 研究背景及问题提出

1.2 研究意义

1.3 国内外研究现状

1.4 研究目标、技术路线及主要内容

1.5 研究方法

1.6 本章小结

2 大数据背景下安全管理研究基础变革

2.1 安全管理理念的变革

2.2 安全管理效率理论的变革

2.3 安全管理研究方法的变革

2.4 安全管理思维的变革

2.5 本章小结

3 大数据背景下煤矿安全管理内涵、特征及事故机理分析

3.1 煤矿安全管理大数据内涵

3.2 煤矿安全管理大数据分类

3.3 煤矿安全管理大数据与小数据特征

3.4 基于大数据的煤矿安全管理数据、信息和规律的关系模型

3.5 时空数据场理论下煤矿事故发生机理

3.6 本章小结

4 大数据背景下煤矿安全管理数据挖掘分析

4.1 数据挖掘在煤矿安全管理中的应用前景

4.2 煤矿安全管理数据挖掘基本流程

4.3 基于决策树的煤矿不安全行为数据挖掘

4.4 基于关联算法的煤矿隐患数据挖掘

4.5 本章小结

5 基于DEA-BP神经网络的煤矿安全管理效率评估及预测研究

5.1 常用的煤矿安全管理效率评估模型

5.2 基于DEA-BP神经网络的煤矿安全管理效率评估模型构建

5.3 模型应用

5.4 综合评价结果分析

5.5 本章小结

6 大数据背景下的煤矿安全管理效率仿真优化

6.1 煤矿安全管理效率系统边界的确定

6.2 煤矿安全管理效率影响因素及因果关系图

6.3 大数据背景下煤矿安全管理效率系统流图构建

6.4 案例分析

6.5 煤矿安全管理效率提升对策

6.6 本章小结

7 结论与展望

7.1 主要研究结论

7.2 研究创新

7.3 研究不足与展望

参考文献

附录

作者简历

学位论文数据集

（5）数据挖掘中关联规则算法的研究（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 课题研究背景

1.2 课题研究现状

1.2.1 数据挖掘研究现状

1.2.2 关联规则研究现状

1.2.3 未来发展趋势

1.3 本文主要工作

1.4 论文组织结构

第2章关联规则相关理论

2.1 数据挖掘简介

2.1.1 数据挖掘基本概念

2.1.2 数据挖掘过程

2.1.3 数据挖掘常用方法和技术

2.2 关联规则理论基础

2.2.1 关联规则相关定义

2.2.2 关联规则定理及性质

2.3 关联规则挖掘过程

2.4 本章小结

第3章基于二元属性的关联规则挖掘算法

3.1 经典关联规则算法Apriori

3.1.1 算法描述

3.1.2 算法实例

3.1.3 算法评价

3.1.4 Apriori算法的几种改进方法

3.2 基于Hash树的并行计数改进算法

3.2.1 算法思想

3.2.2 算法描述

3.2.3 实例分析

3.2.4 算法性能评价

3.3 本章小结

第4章基于多值属性的关联规则挖掘算法

4.1 多值属性关联规则概述

4.1.1 多值属性关联规则相关概念

4.1.2 多值属性关联规则挖掘步骤

4.2 多值属性数据处理

4.2.1 多值属性数据的特点分析

4.2.2 分类属性的处理

4.2.3 数值属性的处理

4.3 基于多值属性的Apriori优化算法

4.3.1 算法描述

4.3.2 实例分析

4.3.3 性能对比

4.4 本章小结

第5章结论与展望

5.1 论文总结

5.2 工作展望

参考文献

攻读硕士学位期间发表的论文及参与的科研项目

致谢

中文详细摘要

（6）基于数据挖掘的工程造价指数研究（论文提纲范文）

中文摘要

Abstract

第1章导论

1.1 研究背景及意义

1.1.1 研究背景

1.1.2 研究意义

1.2 国内外研究现状

1.2.1 工程造价指数方面

1.2.2 数据挖掘方面

1.2.3 知识管理方面

1.2.4 研究现状评述

1.3 研究思路和研究方法

1.3.1 研究思路

1.3.2 研究技术路线

1.3.3 研究方法

1.4 拟解决的关键问题和创新点

1.4.1 研究的关键问题

1.4.2 论文创新点

第2章理论综述

2.1 指数理论分析

2.1.1 指数的定义

2.1.2 指数的作用

2.1.3 统计指数体系及分类

2.1.4 指数的编制原则和方法

2.2 建筑工程造价指数的含义及其特性

2.2.1 建筑工程造价指数的概念

2.2.2 建筑工程造价指数包含的内容及其特征分析

2.3 数据挖掘理论

2.3.1 数据挖掘理论概述

2.3.2 数据预处理与数据仓库实现

2.3.3 数据挖掘的类型与方法

2.3.4 数据挖掘在工程造价指数信息化管理研究中的应用

2.4 知识管理理论

2.4.1 知识管理的定义

2.4.2 知识管理的流程

2.4.3 知识管理系统

2.4.4 知识管理理论在工程造价指数信息化管理研究中的应用

2.5 BP神经网络

2.5.1 BP神经网络概述

2.5.2 BP神经网络结构及算法

2.5.3 BP神经网络的结构设计与参数选取

2.5.4 BP神经网络的性能分析

2.6 遗传算法

2.6.1 遗传算法的基本概述

2.6.2 遗传算法的基础理论

2.6.3 遗传算法的特点

第3章建筑工程造价指数测算体系的建立

3.1 国内外建筑工程造价指数体系

3.1.1 国外发展现状

3.1.2 国内发展现状

3.2 建筑工程造价指数典型工程及投入品的选择

3.3 建筑工程造价指数权数及基期的选择

3.4 建筑工程造价指数编制范围的确定

第4章典型建筑工程样本信息筛选模型研究

4.1 样本信息筛选的意义及目标

4.2 样本信息数据筛选模型选择与建立

4.2.1 专家评选法

4.2.2 灰色关联法

4.2.3 T检验法

4.2.4 “决策树”模型

4.2.5 多元线性回归模型

4.3 样本筛选模型的实证检验

4.3.1 分类变量标准化

4.3.2 t检验结果分析

4.3.3 构建决策树模型

第5章建筑工程造价指数测算模型研究

5.1 建筑工程造价指数测算信息的采集

5.1.1 造价信息采集-发布流程

5.1.2 工程造价信息采集方式

5.1.3 建筑工程造价信息采集表设计

5.1.4 采集表说明

5.2 建筑工程造价指数的测算方法

5.2.1 建筑工程造价指数测算基础概述

5.2.2 建筑工程造价指数测算模型

5.3 建筑工程造价指数调整

5.3.1 基于2013 费用定额的造价重组法

5.3.2 基于典型工程的调值系数法

第6章建筑工程造价指数预测模型研究

6.1 造价指数预测的意义

6.2 造价指数预测内容的确定

6.3 造价指数预测模型的建立

6.3.1 造价指数预测模型的选择

6.3.2 多元线性回归模型预测

6.3.3 改进神经网络模型预测

第7章建筑工程造价指数信息平台设计

7.1 建筑工程造价指数信息平台设计规划

7.1.1 测算平台建设目标

7.1.2 测算平台建设原则

7.2 建筑工程造价指数信息平台各模块功能分析

7.2.1 录入系统

7.2.2 发布系统

7.3 建筑工程造价指数信息平台操作设计

7.3.1 平台操作组织范围

7.3.2 数据采集系统流程及主要操作

7.3.3 加工计算流程及主要操作

7.3.4 网站发布系统查询流程及主要操作

7.4 建筑工程造价指数信息平台系统价值

第8章结论与展望

8.1 结论

8.2 展望

致谢

参考文献

附录 A

A1 博士期间参与的主要科研项目

A2 博士期间发表的学术论文

附录 B

附表1 手动录入采集表

附表2 自动录入采集表

附表3 发布表

附表4 工程项目特征表

附表5 计量单位取定表

（7）可拓室内设计数据挖掘研究（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 研究背景及研究的目的与意义

1.1.1 研究背景

1.1.2 研究的目的与意义

1.2 国内外研究现状

1.2.1 建筑及室内设计人工智能的相关研究

1.2.2 可拓学与可拓建筑学的相关研究

1.2.3 数据挖掘与可拓数据挖掘的相关研究

1.2.4 研究综述

1.3 研究的内容与方法

1.3.1 研究的内容

1.3.2 研究的方法

1.4 论文研究框架

第2章可拓室内设计数据挖掘的基本理论

2.1 可拓室内设计的理论基础

2.1.1 可拓室内设计的概念与模型表达

2.1.2 可拓室内设计的思维模式

2.1.3 可拓室内设计的分析方法

2.2 可拓数据挖掘的理论基础

2.2.1 可拓集理论

2.2.2 可拓室内设计数据挖掘的内涵

2.3 可拓室内设计数据挖掘的特点

2.3.1 面向可拓室内设计的可拓数据挖掘的特点

2.3.2 基于可拓数据挖掘的可拓室内设计的优势

2.4 可拓室内设计数据挖掘的任务与目标知识类型

2.4.1 描述性任务

2.4.2 预测性任务

2.4.3 目标知识类型

2.5 本章小结

第3章可拓室内设计数据仓库的设计

3.1 建构可拓室内设计数据仓库的基础

3.1.1 可拓室内设计数据仓库与现有数据库的区别

3.1.2 数据库和数据仓库的平台选择

3.1.3 数据仓库的数据基础

3.1.4 数据仓库与联机分析处理技术

3.2 可拓室内设计数据仓库设计的原则

3.2.1 面向主题原则

3.2.2 双轮驱动原则

3.2.3 原型设计原则

3.3 可拓室内设计数据仓库的构成

3.3.1 基础数据仓库

3.3.2 可拓数据仓库

3.3.3 知识仓库

3.4 可拓室内设计数据仓库的拓点结构

3.4.1 量值拓点的关系体系

3.4.2 特征拓点的关系体系

3.5 本章小结

第4章可拓室内设计数据挖掘方法

4.1 可拓室内设计分类挖掘方法

4.1.1 可拓室内设计分类挖掘方法阐释

4.1.2 确立分类挖掘设计问题

4.1.3 基于设计问题类别数据域的建立

4.1.4 基于可拓分析的可拓集建立与可拓挖掘

4.1.5 实例解析

4.2 可拓室内设计聚类挖掘方法

4.2.1 可拓室内设计聚类挖掘方法阐释

4.2.2 确立聚类挖掘设计问题

4.2.3 基于设计问题聚类特征树的建立

4.2.4 基于聚类分析的叶节点聚类与可拓挖掘

4.2.5 实例解析

4.3 可拓室内设计关联挖掘方法

4.3.1 可拓室内设计关联挖掘方法阐释

4.3.2 确立关联挖掘设计问题

4.3.3 基于设计问题数据项集的建立

4.3.4 基于关联分析的频繁项集发现与可拓挖掘

4.3.5 实例解析

4.4 可拓室内设计离群点挖掘方法

4.4.1 发散式挖掘

4.4.2 传导式挖掘

4.4.3 共轭式挖掘

4.4.4 转换桥式挖掘

4.5 本章小结

第5章可拓室内设计数据挖掘的知识成果及其应用

5.1 可拓室内设计数据挖掘的形态要素型知识及其应用

5.1.1 挖掘的形态要素型知识

5.1.2 挖掘的形态要素型知识直接应用

5.1.3 挖掘的形态要素型知识可拓应用

5.2 可拓室内设计数据挖掘的主题风格型知识及其应用

5.2.1 挖掘的主题风格型知识

5.2.2 挖掘的主题风格型知识直接应用

5.2.3 挖掘的主题风格型知识可拓应用

5.3 可拓室内设计数据挖掘的文化特征型知识及其应用

5.3.1 挖掘的文化特征型知识

5.3.2 挖掘的文化特征型知识直接应用

5.3.3 挖掘的文化特征型知识可拓应用

5.4 可拓室内设计数据挖掘的行为与情境体验型知识及其应用

5.4.1 挖掘的行为体验型知识

5.4.2 挖掘的情境体验型知识

5.4.3 挖掘的行为与情境体验型知识直接应用

5.4.4 挖掘的行为与情境体验型知识可拓应用

5.5 本章小结

结论

参考文献

攻读学位期间发表的学术论文及其它成果

致谢

个人简历

（8）基于局部中心量度的聚类算法研究（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 聚类简介

1.2 有代表性的聚类算法

1.2.1 分割聚类法

1.2.2 层次聚类法

1.2.3 密度聚类法

1.2.4 网格聚类法

1.2.5 模型聚类法

1.2.6 其他聚类算法

1.2.7 小结

1.3 聚类评价指标

1.3.1 聚类纯度

1.3.2 RI指标和ARI指标

1.3.3 NMI指标

1.4 本文结构及实验代码

第二章 meanshift与局部中心量度

2.1 meanshift

2.1.1 meanshift的定义

2.1.2 meanshift的主要应用

2.2 局部中心量度

2.2.1 局部密度

2.2.2 基于meanshift的局部中心量度

2.2.3 采用随机策略估计ζ_(CE)和ζ_(CO)

2.3 实验对比与分析

2.3.1 局部中心量度的直观评判

2.3.2 在高斯数据集上的性能评判

2.3.3 在真实世界数据集上的性能评判

2.4 本章小结

第三章局部引力模型与局部中心量度

3.1 引言

3.2 相关工作

3.2.1 常见引力聚类算法

3.2.2 k近邻版本的meanshift

3.3 局部引力模型

3.4 局部中心量度间的对比讨论

3.5 实验对比与分析

3.5.1 局部中心量度的直观评判

3.5.2 在高斯数据集上的性能评判

3.5.3 在真实世界数据集上的性能评判

3.6 本章小结

第四章基于局部引力模型的聚类算法

4.1 引言

4.2 局部引力聚类算法

4.2.1 算法准备

4.2.2 聚类过程概述

4.2.3 粗略分类

4.2.4 相互连接

4.2.5 算法复杂度分析

4.2.6 算法参数

4.3 局部代理点通信聚类算法

4.3.1 聚类过程概述

4.3.2 选举局部代理点

4.3.3 相互连接通信

4.3.4 算法复杂度分析

4.3.5 算法参数

4.4 相关聚类算法间的比较

4.4.1 相关聚类算法概述

4.4.2 LGC算法和DBSCAN算法

4.4.3 CLA算法与密度峰值聚类算法

4.5 实验对比与分析

4.5.1 聚类效果的直观评价

4.5.2 在真实世界数据集上的性能评价

4.6 本章小结

第五章非参数检验技术评价聚类算法

5.1 引言

5.2 Friedman检验与多重比较检验

5.2.1 Friedman检验

5.2.2 Friedman对齐检验

5.2.3 多重比较检验

5.3 秩的计算方法

5.3.1 相关定义

5.3.2 朴素求秩法

5.3.3 权值求秩法

5.3.4 整体求秩法

5.3.5 整体权值求秩法

5.4 改进的Friedman检验与实验分析

5.4.1 人工数据上的非参数检验

5.4.2 真实世界数据上的非参数检验

5.5 多性能指标下的非参数检验

5.6 本章小结

结论与展望

参考文献

附录

攻读博士学位期间取得的研究成果

致谢

附件

（9）基于属性加权的PBMMKM聚类算法研究与应用（论文提纲范文）

摘要

ABSTRACT

1 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 论文主要工作和组织

2 数据挖掘中的聚类分析

2.1 数据挖掘技术

2.2 聚类算法分析

2.3 K-means聚类算法

2.4 本章小结

3 PWPCA-PBMMKM聚类分析算法

3.1 属性加权PWPCA算法

3.2 PWPCA-Kmeans聚类分析

3.3 BWP指标

3.4 PWPCA-PBMMKM算法

3.5 仿真实验及结果分析

3.6 本章小结

4 算法在CRM中的应用

4.1 客户关系管理系统

4.2 数据准备及预处理

4.3 客户聚类分析

4.4 本章小结

5 总结与展望

5.1 总结

5.2 展望

参考文献

致谢

攻读硕士学位期间主要成果

（10）基于计算辩论的多Agent联合学习方法研究（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 基于多Agent的分布式数据挖掘

1.2.2 基于辩论技术的数据挖掘方法

1.2.3 分布式数据挖掘中的知识集成方法

1.3 本文主要工作

1.3.1 主要研究工作与创新点

1.3.2 论文的组织结构

第二章多Agent从辩论中联合学习的方法

2.1 面向知识集成的联合学习

2.2 知识螺旋模型

2.3 从辩论中学习

2.3.1 多Agent辩论的学习能力分析

2.3.2 辩论学习的案例

2.3.3 辩论学习算法的实验验证

2.4 多Agent的联合学习方法

2.5 基于Arena的多Agent联合学习模型AMAJL

2.5.1 Arena辩论模型简介

2.5.2 分布式多Agent数据挖掘系统

2.5.3 多Agent辩论学习器

2.5.4 双方论据博弈过程

2.5.5 多方论据博弈过程

2.5.6 联合学习模型AMAJL

2.5.7 全局知识库及其优化

2.5.8 AMAJL具有的性质

2.6 本章小结

第三章基于关联规则的多Agent联合学习系统

3.1 大数据条件下的关联规则挖掘

3.2 关联规则挖掘的基本原理

3.3 基于关联规则的局部规则与经验论据实例化

3.3.1 局部规则的实例化

3.3.2 经验论据的实例化

3.4 基于关联规则的经验论据构建算法

3.4.1 主论据的构建

3.4.2 攻击论据的构建

3.5 基于关联规则的多Agent联合学习主控流程与算法

3.6 ArgAR实验分析

3.6.1 实验准备工作

3.6.2 收敛性分析

3.6.3 TCV对比分析

3.6.4 参数分析

3.7 本章小结

第四章结合抽样的多Agent联合学习方法

4.1 引言

4.2 数据挖掘中的抽样技术

4.2.1 数据挖掘中的抽样方法

4.2.2 当前的研究进展

4.2.3 本文关注的抽样策略

4.3 在多Agent联合学习方法中应用抽样技术

4.3.1 应用方法

4.3.2 多Agent联合学习方法在小样本中的优势分析

4.4 实验分析

4.4.1 抽样策略设置

4.4.2 抽样策略对比

4.4.3 实验结果分析

4.5 本章小结

第五章组合强化学习的多Agent联合学习方法

5.1 引言

5.2 蒙特卡罗强化学习方法

5.3 组合强化学习的多Agent联合学习模型

5.3.1 问题建模

5.3.2 ArgRL的工作过程

5.3.3 状态空间的泛化

5.3.4 应用评估值的更新

5.3.5 动作选择策略

5.3.6 应用n臂赌博机模型的合理性分析

5.3.7 ArgRL主控算法

5.4 ArgRL的实验分析

5.4.1 实验准备

5.4.2 收敛性分析

5.4.3 分类性能对比

5.5 本章小结

第六章总结与展望

6.1 本文主要研究成果

6.2 未来工作展望

致谢

参考文献

作者在学期间取得的学术成果

四、数据挖掘中的数据准备工作（论文参考文献）

[1]面向决策支持的分类属性数据深度无监督挖掘研究[D]. 高晓楠. 北京科技大学, 2021(08)
[2]多因素作用下中国国有企业晋升机制研究[D]. 张昶. 北京邮电大学, 2021(01)
[3]基于医疗信息系统的数据挖掘算法研究[D]. 毛莹. 内蒙古科技大学, 2019(03)
[4]大数据背景下煤矿安全管理效率分析及提升仿真研究[D]. 乔万冠. 中国矿业大学, 2019(01)
[5]数据挖掘中关联规则算法的研究[D]. 吉祥. 江苏科技大学, 2019(04)
[6]基于数据挖掘的工程造价指数研究[D]. 谢莎莎. 武汉理工大学, 2018(08)
[7]可拓室内设计数据挖掘研究[D]. 马辉. 哈尔滨工业大学, 2018(01)
[8]基于局部中心量度的聚类算法研究[D]. 王志强. 华南理工大学, 2018(12)
[9]基于属性加权的PBMMKM聚类算法研究与应用[D]. 陈英. 山东科技大学, 2018(03)
[10]基于计算辩论的多Agent联合学习方法研究[D]. 许珺怡. 国防科技大学, 2017

标签：大数据论文; 数据挖掘论文; 机器学习论文; 聚类论文; 关联规则算法论文;

数据挖掘中的数据准备

一、数据挖掘中的数据准备工作（论文文献综述）

二、数据挖掘中的数据准备工作（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、数据挖掘中的数据准备工作（论文提纲范文）

（1）面向决策支持的分类属性数据深度无监督挖掘研究（论文提纲范文）

（2）多因素作用下中国国有企业晋升机制研究（论文提纲范文）

（3）基于医疗信息系统的数据挖掘算法研究（论文提纲范文）

（4）大数据背景下煤矿安全管理效率分析及提升仿真研究（论文提纲范文）

（5）数据挖掘中关联规则算法的研究（论文提纲范文）

（6）基于数据挖掘的工程造价指数研究（论文提纲范文）

（7）可拓室内设计数据挖掘研究（论文提纲范文）

（8）基于局部中心量度的聚类算法研究（论文提纲范文）

（9）基于属性加权的PBMMKM聚类算法研究与应用（论文提纲范文）

（10）基于计算辩论的多Agent联合学习方法研究（论文提纲范文）

四、数据挖掘中的数据准备工作（论文参考文献）

猜你喜欢