快速关联规则发现算法在数据挖掘中的研究与应用

快速关联规则发现算法在数据挖掘中的研究与应用

一、数据挖掘中快速关联规则发现算法研究及应用(论文文献综述)

张孟姣[1](2021)在《基于效用的负序列规则挖掘关键技术研究》文中研究说明基于效用的序列规则挖掘能够挖掘出效用价值高的序列规则,被广泛的应用于金融、生物医学、制造业、电子商务、社交媒体等领域。与高效用正序列规则挖掘相比,高效用负序列规则挖掘还考虑了未发生事件,能提供更加全面的决策信息。目前的高效用正序列规则挖掘方法并不能直接用于高效用负序列规则挖掘,因高效用负序列规则挖掘过程中存在很多内在复杂性问题:(1)如何定义高效用负序列规则挖掘的问题。(2)如何计算高效用负序列规则中前件的局部效用值和前件的效用,这是计算效用置信度的关键步骤。(3)如何挖掘可直接用来决策的高效用负序列规则。这些问题的研究对于挖掘更加全面的、有价值的高效用负序列规则有着重要的理论价值和实际意义。为此,本文重点研究从高效用负序列模式中挖掘高效用负序列规则的方法,探索可决策的高效用负序列规则挖掘方法,并针对其中涉及的关键问题进行深入探讨。具体介绍如下:针对问题一和问题二,本文提出了一种从高效用负序列模式中挖掘高效用负序列规则的算法e-HUNSR。首先通过提出局部效用值和效用置信度等概念将高效用负序列规则问题形式化,然后给出了一种快速生成候选规则的方法以及一种剪枝策略,接着设计了一种数据结构存储必要的信息,并提出了一种高效的计算前件的局部效用值和效用值的简化计算方法。实验结果表明,e-HUNSR算法能够有效地从高效用负序列模式中挖掘出高效用负序列规则。针对问题三,本文提出了一种可决策的高效用负序列规则挖掘算法A-HUNSR。首先探索了可决策的高效用负序列规则的修剪机制,通过判断候选规则的前件、后件以及前件和后件组成的高效用负序列的支持度来完成第一次修剪,通过候选规则的相关性是否大于1完成第二次修剪。其次提出了在效用环境下支持度的计算方法,以及效用环境下候选规则的相关性的计算方法。实验结果表明,A-HUNSR可以修剪掉大量的无意义规则,并且拥有较好的效率。

汪哲[2](2021)在《基于关联规则挖掘的课程相关度及其可视化的研究》文中研究说明直到现在,关联规则挖掘算法仍然是大数据研究领域的核心热点之一,并且应用在各个领域之中。其中,教育事业通过与数据挖掘相结合的方式最为常见,通过这种方式可以更好地为学生、老师,提供针对性地学习以及教学计划。在海量的学生选课信息当中,往往隐藏着具有一定利用价值的隐藏信息,这些信息需要人为的进一步进行发现。目前,与关联规则挖掘算法相关的研究很多,主要集中在如何发现频繁项集和如何剪枝上。关联规则挖掘算法有很多,但这些算法大多是对整个数据集进行处理和分析,当数据集数量大时,对整个数据集进行挖掘会降低算法的效率。虽然可以用相关算法得到结果,但是效率不高而且得到的结果并不具有针对性。针对这一问题,本文提出了一种算法,首先利用K-means算法对数据集进行聚类,生成特定数量的聚类。再通过结合相关系数的改进Top-K算法找到每个聚类中的关联规则。聚类和改进的Top-K算法集成,可以对数据集先进行分类,再进行挖掘分析,通过集成算法来提高整个算法的准确性和效率。并通过BP神经网络构建了K-means算法的预测模型。通过最终实验表明,集成后的算法可以用来进行课程关联规则的挖掘以及分析,针对用户选课数据集,通过该算法挖掘出了相同类型用户所选课程之中的关联规则。提高了原算法的针对性以及准确性,并且与原算法相比,运行时间缩短了14%。最后为了直观的分析挖掘结果,在得到实验数据的基础上,分析了当前数据可视化的研究现状,并且针对关联规则挖掘结果的特性,提出了一种可用于合适展示课程数据关联规则挖掘结果的展现方法,并用此种展现形式对实验结果进行了数据可视化的展示。

徐嘉慧[3](2021)在《融合注意力机制的关联规则算法研究及应用》文中研究说明在大数据时代,丰富数据之间存在着隐藏、有价值的关联关系。而如何发现这些隐藏的、有价值的关系一直是数据挖掘领域的研究热点。关联规则挖掘是数据挖掘领域最有效的挖掘技术之一,可直接将数据库中丰富的关联关系挖掘出来,进而指导实际的营销工作。在传统关联规则中存在数据库中各项重要性相同、出现频率相似的前提假设,使得当数据库中的项目频率变化较大时,设置最小支持度较为困难,加权关联规则旨在解决该困难。然而该类算法中存在数据库中各项权重系数由专家人为方式标注的问题,面对现阶段呈指数级增长的大规模数据,专家人为标注显得不切实际。基于上述问题,本文在已有的算法基础上加以改进,提出了一种融合RNN与注意力机制的关联规则算法(3AM:Association Rule Algorithm Fusing RNN and Attention Mechanism)。该算法首先利用双向RNN融合注意力机制的深度学习方法进行数据项权重的求解,可实现数据库中各项权重的自动化标注。然后,基于所求权重,利用加权关联规则MINWAL(O)算法实现关联规则的生成。它可以充分学习数据库项目的隐含知识,生成更多有价值的关联规则,大大减少专家的工作量。最后,本文以高校图书馆数据为例进行实验设置,并基于聚类方法对各项的权重进行了分析。实验结果表明,相比传统的Apriori、FP-Growth和Apriori Inverse三种关联规则方法,本论文提出的方法具有较好的模型性能,且具有一定的解释性。本论文进一步设计了以图书馆推荐为例的原型系统,可为读者推荐较为准确的图书。

谢良才[4](2021)在《基于BP神经网络的数据挖掘技术探究及其在煤热转化数据规律分析中的应用》文中研究表明近十几年来,随着人们利用信息技术采集和分析数据能力的大幅提升以及人工智能技术的快速发展,极大的推动了数据挖掘技术在各类基础科学研究中的快速兴起,尤其是以人工神经网络智能算法为基础的数据挖掘技术应用更为广泛。鉴于此,本文以非线性映射能力、并行处理能力以及容错性能优异且广泛使用的BP神经网络数据挖掘技术为基础,将数据挖掘的方法和思想引入到煤热转化领域的数据规律挖掘之中,以期在煤质基础数据与其热转化特性之间探寻出有价值的内在规律或关系。本文的研究内容主要包括高性能数据挖掘技术的设计和在煤热转化领域实际应用两个方面的研究工作。首先,本文全面阐述了数据挖掘的基本理论与方法。在了解并分析了多种数据挖掘技术的基础上,重点对基于BP神经网络的数据挖掘技术进行了深入的分析与阐述。进一步的,本文针对BP神经网络算法中存在的收敛速度慢、网络初值随机性、易陷入局部极小等不足,提出了一种多算法优势集成、联合优化的改进型算法(HA-BP),并在非线性函数仿真中得到了充分论证。此外,本文基于HA-BP算法分别设计了HA-BP-3δ异常数据检测模型、HA-BP-MIV变量因素分析模型,它们的可靠性与实用性同样在非线性函数仿真中得到了充分论证。而后,本文将该数据挖掘技术应用于煤质基础数据(工业分析、元素分析、灰成分分析)对煤燃烧发热量、煤热解特性、煤气化灰流动温度的数据规律挖掘(预测目标)研究中。(1)煤工业分析、元素分析与燃烧发热量之间的数据规律挖掘本节以104组我国不同地域(涵盖了华东、华中、华北、华南以及西北地区)的煤质基础分析数据(工业分析、元素分析)以及发热量(Qnet,ad)数据样本为研究基础。首先,采用HA-BP-3δ模型剔除了6组原始训练数据样本。清洗后的样本(原始数据使用率达到93%),经HA-BP计算的总数据集的平均绝对误差为0.22 MJ/Kg。在此基础上,提取出挖掘到的内在关系,使用HA-BP-MIV对变量因素进行了分析,分析结果显示,FCad、Cad、Had、Nad以及Sad与煤的发热量呈正相关性,Mad、Aad与煤的发热量呈负相关性。此外,7个因素对煤发热量的影响大小为:Cad>Aad>FCad>Mad>Nad>Sad>Had;其中,Aad、Cad、FCad对煤发热量的累计影响值达到了总贡献率的90.31%。进一步的,基于三个主要因素计算的平均绝对误差为0.47 MJ/Kg。此外,鉴于部分企业缺乏煤质元素分析的数据,进而难以使用该算法挖掘到的内在关系,为此,本文进一步的使用煤质工业分析的Mad、Aad、FCad作为输入变量,借助HA-BP模型对发热量进行了研究。计算结果发现,仅通过工业分析数据计算的发热量总样本集的平均绝对误差为0.36MJ/Kg。(2)煤热解失重特性与工业分析、元素分析数据之间的数据规律挖掘本节以10组不同产地的煤为研究样本,借助HA-BP模型考察了煤(加氢)热解失重特性曲线与其工业分析、元素分析之间的内在关联。为了实现对煤热解失重特性曲线“线”预测的目标,本文首先基于煤热解失重的典型特征,有针对性的提取了部分数据点。经HA-BP计算后,发现训练样本、检验样本的计算值与实验值数据点的相关性R2分别为0.9966、0.9943。在此基础上,提取出挖掘到的内在关系,使用HA-BP-MIV对变量因素进行了分析,分析结果显示,T、Ad、Vd、Hd、Sd对煤热解失重呈现正相关性;Cd、Nd对煤热解失重呈现负相关性。此外,7个因素对煤热解失重结果的影响大小为T>Vd>Cd>Hd>Nd>Sd>Ad;其中,T、Vd、Cd、Hd这4个因素对煤热解失重的累计影响达到了总贡献率的98.26%。进一步的,我们发现基于4个主要因素预测的精度与7因素下的预测精度几乎相当。最后,基于简化后的4个主要因素成功的预测出了未知煤样的热解失重特性曲线(精度为每隔1 ℃),且整条失重曲线(200~1100 ℃)的绝对误差不超过2.25%。同样的方式,基于4个主要因素也成功的预测出了未知煤样的加氢热解失重特性曲线。(3)气化环境下的煤灰流动温度(FT)与其灰成分之间的数据规律挖掘本节以321组不同类型的煤灰组成以及FT数据样本作为研究基础。首先,采用HA-BP-3δ模型剔除了27组原始训练数据样本。清洗后的样本(原始数据使用率达到92%),经HA-BP计算的总数据集的平均绝对误差为25 ℃。在此基础上,借助HA-BP-MIV算法分析了各个化学组成对FT的影响。分析结果显示,SiO2、Al2O3、TiO2与FT之间表现出正相关性;CaO、Fe2O3、MgO、K2O+Na2O与FT之间表现出负相关性。此外,7个因素对FT的影响大小为:Al2O3>SiO2>CaO>Fe2O3>K2O+Na2O>TiO2>MgO,进一步的,基于变量因素的分析结果选取了3类典型的煤灰样本,在模拟高温、气化的环境下进行了结渣机理分析,并总结了不同煤灰的结晶特征。基于此,本文将煤灰分为酸性灰、中性灰、碱性灰三个类型,其中酸性灰的FT绝大多数都高于1400 ℃。而后,借助HA-BP-MIV分别对中性灰、碱性灰进行了关键特征参量的分析,并发现探寻到的关键特征参量与FT之间存在着显着的线性相关性。最后,通过实际测试值对基于关键特征参量提出的关系式进行了验证,并取得了良好的效果。这为调控FT助剂类型的选择、添加量的确定以及不同煤种的配煤和配煤比例提供了更为直接、有效的指导。本节提出的单因素、易调控的FT计算模型如下:1:酸性灰,A/B≧6.72,FT>1400℃;2:中性灰,0.96≦A/B<6.72,FT=136x1+1143.9;3:碱性灰,A/B<0.96,FT=116.81x2+1122.3.经本文的研究发现,煤质基础数据与其发热量、热解特性、FT之间确实存在着紧密的内在联系,通过数据挖掘的思想和方法,不仅实现了对煤热转化数据的异常数据诊断以及高效预测,而且实现了基础数据样本的有效增值,更为煤热转化过程中的数理分析、影响因素分析甚至后续的研究主攻方向等提供了新的研究方法和思路。

吴佳慧[5](2021)在《机器学习中隐私保护数据计算研究》文中认为随着云计算与分布式计算的发展,数据挖掘和深度学习等机器学习算法已能很好地结合大数据的优势,训练出更加精确的模型。因此,云外包学习和联邦学习成为当下流行的两种大数据机器学习范式。然而,在云外包机器学习和联邦学习过程中,要求数据拥有者提供原始数据或共享局部数据的训练参数,这些信息的提供均存在大数据隐私泄露的风险。例如,从医疗、金融等采集的大数据可能会泄露私人数据,包含个人基本信息、患者病历、经济信息等,一旦被披露,个人的生命财产将受到严重威胁。因此,研究云外包机器学习和联邦学习中隐私保护的大数据计算方法具有重要意义。本论文研究云计算环境下多数据拥有者的联合关联规则挖掘和分布式多客户端环境下的联邦深度学习中的隐私安全计算问题。论文分析现有的各类攻击方法,设计出安全数据加密算法。针对联合关联规则挖掘和联邦学习的各自特征,设计出各自特定的适用于加密数据的隐私保护数据计算方案。两种机器学习方法中,客户端提交给云服务器的原始数据均为加密数据,云服务器对加密数据进行计算,并返回加密形式的预测结果给客户端。论文证明了所提出的机器学习模型的适用性并评估了它们的性能。实验结果表明,论文中提出的方案能够提供准确的隐私保护关联规则挖掘和深度学习分类。本论文的主要研究成果是:(1)设计了数据库模糊方法,以保证数据挖掘效率。为了确保数据挖掘和深度学习的精度,论文的隐私保护计算均在密文数据上进行。考虑联合数据库的数据量非常庞大,无论是对数据的加密还是对加密数据的计算,所需的算力和存储消耗均会很大。因此,论文中并不是直接对数据集进行加密,而是设计一种数据库模糊方法,即在数据库中插入虚假交易以混淆敌手,从而保证数据库的隐私安全性;同时,为了保证数据集的可用性(可进行数据挖掘计算),需给每条交易标记一个标签,真实交易的标签为1,虚假交易的标签为0。这样,数据挖掘结果由插入虚拟交易后的数据库挖掘的结果和标签共同决定。(2)设计了多密钥同态加密机制,以防止在数据挖掘与深度学习过程中,多联合方的窜某攻击。具体地,论文设计了一种多方协商的秘钥划分方法,并基于该方法设计出两种同态加密算法:采用指数乘的对称同态加密算法和基于椭圆曲线的加法同态加密算法。论文利用指数乘的对称同态加密算法加密待挖掘数据库的标签,并设计出用于数据挖掘的安全比较算法,使得多方联合挖掘能够顺利进行。论文基于椭圆曲线加同态加密设计隐私保护机制,用以掩盖每个客户端的局部梯度,使恶意敌手和半可信云难以推理数据集原始信息。所提出的隐私保护机制在保持训练模型高预测精度的同时,很好地平衡了安全性和效率。(3)设计了一种数据同态验证机制,以防止联邦学习中的全局参数被恶意敌手/云服务器篡改。该机制允许各分布式客户端验证从云服务器端获取的聚合密文是否为所有联合客户端的局部数据密文的融合。因此设计的同态验证方法需要能对同态计算进行验证。具体地,论文设计基于椭圆曲线的同态hash函数,该函数能将任意长度的输入数据转换为固定长度的输出摘要,且该函数满足同态属性,即对输入数据的计算操作可直接转移到对摘要的计算操作;同时,由于hash函数的抗碰撞性,敌手不能根据摘要猜测出原始函数输入,也不能在无密钥情况下同时篡改输入与摘要。因此,基于设计的椭圆曲线的同态hash函数构建的验证机制可以用来验证来自敌手/云服务器的全局参数(即聚合梯度)是否正确。(4)设计了一种快速同步随机梯度下降(F-SSGD)方法,以保证联邦学习的在多客户端异质情况下,模型的快速训练和训练收敛。该方法可保证当联邦学习中的各客户端算力存在差异或客户端数据分布不一致时,联邦学习模型能快速收敛。具体地,在F-SSGD中,设置了一个时间周期,在此期间,算力较强的客户端可以继续计算多个本地梯度,而无需等待速度较弱的客户端;而算力较弱的客户端加权他们的多个梯度副本,以确保训练收敛,并防止最终模型偏向执行计算最快的客户端。在达到设定的时间周期之后,所有的客户端都将它们的本地聚合梯度提交到云上进行模型更新。实验和理论证明了F-SSGD方法可保证联邦模型的收敛,且收敛速度为O(1/M),其中M为迭代次数。

刘洪伟[6](2020)在《基于数据挖掘技术的装备保障信息系统设计与开发》文中进行了进一步梳理信息化装备保障对信息及数据的安全性要求较高,行业内传统的装备售后维护方式主要以现场保障及电话支持为主,问题的记录、反馈及解答对个人依赖程度较强。而基层保障人员经常面临多个厂商、多型装备、多种参数及数据的编配与加注,保障效率低下。信息化装备因其特殊性,日常操作有着严格的行为审计要求,这些审计信息被用来事后对日常操作进行追溯。充分利用装备保障过程中产生的数据,挖掘隐含在这些数据深层的关系和规则,实现用户高效、便捷的查询、处理问题是本课题要解决的主要问题。本课题的主要工作是通过对现有保障模式的分析及用户的需求,完成装备保障信息化模型的建立及系统实现,具体包括:(1)通过分析装备保障信息化领域的现有模型的优劣,建立具备可行性的装备保障信息化模型。该模型具备保障信息在线提问与解答功能,应用工作流技术,实现基层保障人员、管理人员及装备厂商之间的协同工作。(2)根据装备保障发展趋势,提出了标准用户保障数据审计格式。将用户信息、装备信息及日志信息等多种类型保障数据整合为统一的格式,作为保障信息数据进行管理与数据挖掘,为今后信息化装备提供标准接口。(3)通过分析用户保障数据特点,应用数据挖掘技术实现保障信息的快速推荐。使用用户协同过滤方法获得用户之间的相似性,使用关联规则挖掘获得装备保障区域、装备研制厂商之间的内在关联,为当前在线用户快速推荐保障信息。依托需求分析与模型特点,本课题完成装备保障信息系统设计与开发。针对信息化装备具备数据下载、加注的保障特点,并需要定期进行更换的特点,通过模拟某系统的保障数据,进行了系统功能与性能测试,结果表明本课题模型与系统能够帮助保障人员提升装备保障效率。同时,本系统可以与已有业务系统进行融合,针对不同业务保障数据进行保障信息推荐,对构建我军未来综合的装备信息保障系统和知识库意义重大。

刘亚芬[7](2020)在《基于GA的CART决策树改进算法与应用》文中认为自20世纪中期互联网技术的不断发展,信息技术跟随着迅猛发展,用户随时随地都产生了大量的图像、文本、音频、视频等信息。如何从这些不断增长的数据中得出对人们有利用价值的信息?于是,诞生了数据挖掘技术。数据挖掘就是不断的在数据中寻找有用信息,通过各种不同的分析方式和分析工具建立起各种数学模型与数据之间的联系,然后通过对这些构建好的模型与数据进行分析以及预测。分类预测是数据挖掘中的一项重要领域,在数据挖掘中,分类预测占有重要地位。决策树算法就是分类中一种易于理解并且使用范围较广的算法,决策树相较于其他方法有预测速率快、高精度且生成的分类规则易于解释等好处,因此是分类预测中比较常用的方法。常用的决策树算法有ID3算法、C4.5算法和CART算法,ID3算法适用于处理小规模数据集且无法处理离散属性。C4.5算法改善了ID3算法的缺点,能同时处理连续属性,且在剪枝的时候加入了初步正则化思想,防止过拟合,但C4.5算法只能处理分类问题,无法处理回归问题。CART算法在此问题上进行了改进,既能处理分类问题也能处理回归问题,且用Gini系数代替信息增益率进行分裂,降低了数据的计算量。但CART算法同样有着自身的不足,CART算法是采用二分法进行分割,二分法最大的缺陷是局部最优,本文的切入点就是解决二分法局部最优的问题,创新点就是利用遗传算法全局优化的特性,通过遗传算法找到最优的分裂点,对CART算法进行优化。当数据集的特征个数偏多,训练模型的时间花销就越大,训练得出的模型就会更加复杂,那么模型的推广能力也会有所下降。通过实验证实,使用遗传算法来找到最优的特征建树,能大大的提高分类的精度。本文在构建决策树的过程中,使用的是CART算法,大多数情况下CART构建的决策树模型比其他算法构建的模型准确率更高,且当样本越大,数据量越复杂,变量越多,算法的效果就越显着。但是CART算法也有自身的缺陷,CART算法是通过二分法进行分裂,但是二分法最大的缺陷是局部最优,每一次计算只能找到当前这步的最优值,很容易陷入局部收敛,遗传算法作为全局最优搜索算法之一,其过程是通过不断的选择、交叉和变异操作,寻找到最优个体,文中是利用遗传算法代替二分法找到最优分裂点。遗传算法因具有优秀的性能,在优化问题中应用颇多,遗传算法在寻找最优分类规则中应用得较为成熟,而在决策树算法中,从本质上最终也是得到分类规则,从这方面来看,通过遗传算法对决策树改进也是可行的。虽然遗传算法也不能保证在理论上得到百分之百的最优,但是也提供了寻优的可能,且后续实验中也证明了使用遗传算法代替二分法寻找的最优分裂点能提高分类的精度。

许萌萌[8](2020)在《基于权重的频繁项集和可擦除项集挖掘算法研究》文中指出数据的爆炸式增长促使数据挖掘技术应运而生,作为数据挖掘的一个重要分支,关联规则用于发现庞大数据中隐藏的规则,并可广泛应用于各个领域。关联规则最初是以支持度为度量,挖掘出数据库中频繁出现的项集。考虑到真实数据库中项目的不同重要性,频繁项集被扩展到加权频繁项集,挖掘出用户更感兴趣的频繁项集。同时,由于现实数据库中数据的不断积累、产品利润的不同、以及项目重要性的不同,传统频繁项集挖掘方法已经无法满足现实的需求,因此在增量数据集上挖掘加权可擦除项集的研究受到了学者们的广泛关注。本文主要围绕加权频繁项集挖掘算法和加权可擦除项集挖掘算法进行研究和改进,采用高效的数据结构和修剪方法解决挖掘过程中所遇到的问题,具体内容如下所示:首先,针对当前加权频繁项集挖掘算法建树复杂、挖掘效率较低的问题,提出一种高效的加权频繁项集改进算法。该算法构造了一种高度压缩信息的加权构造树(WB-tree),并将节点信息存储在加权构造链表(WB-list)中。项集的搜索空间以集合枚举树的方式进行遍历,结合包含索引减少项集之间的连接次数并利用超集等价性质来加快加权频繁项集的产生,进而提高了算法的挖掘效率。实验结果表明,在稠密数据集和加权支持度较高的稀疏数据集上,改进算法具有较好的时间和空间效率。其次,针对真实数据不断积累及项目具有不同重要性的特点,提出一种在增量数据集上挖掘加权可擦除项集的改进算法。该算法采用列表结构有效地存储数据库的项集信息,在动态的增量数据中,利用权重条件修剪不满足阈值的项集,以减少项集挖掘过程中的内存消耗。然后结合包含索引和差集思想简化增益的计算过程,以实现高效的增量数据处理。实验结果表明,就运行时间和内存消耗而言,该算法在稠密和稀疏数据集上均表现良好,同时在合成数据集上,该算法具有很好的可伸缩性。最后,本文分别对加权频繁项集和加权可擦除项集挖掘算法所面对的问题进行了积极探索,指出了未来可能的研究方向。

刘奕[9](2020)在《5G网络技术对提升4G网络性能的研究》文中认为随着互联网的快速发展,越来越多的设备接入到移动网络,新的服务与应用层出不穷,对移动网络的容量、传输速率、延时等提出了更高的要求。5G技术的出现,使得满足这些要求成为了可能。而在5G全面实施之前,提高现有网络的性能及用户感知成为亟需解决的问题。本文从5G应用场景及目标入手,介绍了现网改善网络性能的处理办法,并针对当前5G关键技术 Massive MIMO 技术、MEC 技术、超密集组网、极简载波技术等作用开展探讨,为5G技术对4G 网络质量提升给以了有效参考。

孙娇娇[10](2020)在《基于完全模式树的增量频繁模式挖掘及并行化》文中指出在这个数据爆炸的时代,普遍面临着数据类型繁多,数据价值密度相对较低等问题。如何对数据进行有效地分析和利用,已经成为当今社会关注的焦点。数据挖掘技术可以发现一些潜在的、有用的、有价值的信息与知识。关联规则是数据挖掘的一个重要的分支,其目的是发现在交易数据中频繁出现的模式,从而发现有趣和隐含的数据相关性。随着传感器和各种智能设备的广泛应用,数据以不可预测的速度持续更新,这些新数据包含大量新信息,它们将改变原始数据集的数据分布模式。增量挖掘算法的目标是尽量利用原始挖掘的结果,在不断更新的数据中快速、有效、精确的挖掘出有价值的信息。而面对海量数据处理,关联规则的高时空复杂性和I/O代价,使之难以适应大数据分析任务,人们开始借助于并行与分布式计算技术。近年来,基于内存的Spark并行计算框架被广泛应用。Spark实现了高效的DAG执行引擎,将数据集抽象为便于操作的RDD(弹性分布式数据集)对象,通过Lineage来实现系统的容错性。本文通过对增量关联规则算法的研究,提出了全压缩频繁模式树(FCFP-Tree)和称为FCFPIM的算法进行增量频繁项集挖掘。面向大数据的频繁项集挖掘过程中存在着严重的计算性能瓶颈,基于集群计算引擎Spark,提出了FCFPIM算法的并行方案及缓存优化策略。本文的贡献主要有:1.为了避免在增量挖掘期间扫描原始数据集,我们扩展FP-tree结构使其包含不频繁的项目信息,且为了减少树结构的存储空间,对不频繁项的树节点进行了压缩存储。该树结构被称为FCFP-Tree。2.基于FCFP-Tree结构,提出了一种低成本的树结构调整策略--FCFPIM算法,完成树结构的增量更新过程。FCFPIM只需要扫描新增数据集两次,第一次扫描通过排序确定项目调整顺序,第二次扫描对原始树结构进行调整,而不需要重新建树充分利用了第一次挖掘的结果,实验验证了该算法的有效性。3.提出了一种基于Spark的并行增量频繁项集挖掘算法PFCFPIM。该算法充分利用了Spark集群的内存计算优势和对迭代式数据处理的支持,通过关联分组策略实现了集群计算节点间的负载均衡,且减少了数据冗余存储。同时,为了提高缓存的命中率,我们探究了PFCFPIM的RDD转换DAG图。在语义不变的情况下,对PFCFPIM算法的RDD进行了合理的调整与缓存,有效提高了算法的执行效率。在Spark集群平台上,实验验证了该算法及优化策略的有效性。

二、数据挖掘中快速关联规则发现算法研究及应用(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、数据挖掘中快速关联规则发现算法研究及应用(论文提纲范文)

(1)基于效用的负序列规则挖掘关键技术研究(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
    1.3 存在问题及研究内容
    1.4 创新点及组织架构
第2章 相关理论及技术简介
    2.1 数据挖掘技术简介
    2.2 高效用负序列模式挖掘技术简介
    2.3 高效用关联规则挖掘技术简介
    2.4 高效用正序列规则挖掘技术简介
    2.5 可决策规则挖掘技术简介
    2.6 本章小结
第3章 高效用负序列规则挖掘算法研究
    3.1 相关定义
    3.2 e-HUNSR算法
        3.2.1 效用置信度概念
        3.2.2 候选规则生成方法及剪枝策略
        3.2.3 数据结构
        3.2.4 候选规则的效用置信度计算方法
        3.2.5 e-HUNSR算法伪代码
        3.2.6 关于效用置信度框架的理论分析
    3.3 实验分析
        3.3.1 最小效用值对实验的影响
        3.3.2 最小效用置信度对实验的影响
        3.3.3 数据特征对实验的影响
        3.3.4 可扩展性分析
    3.4 案例研究
    3.5 本章小结
第4章 可决策的高效用负序列规则挖掘算法研究
    4.1 概述
    4.2 A-HUNSR算法
        4.2.1 效用环境下支持度的计算方法
        4.2.2 效用环境下相关性的计算方法
        4.2.3 数据结构
        4.2.4 挖掘结果分析
        4.2.5 算法伪代码
    4.3 实验分析
        4.3.1 最小效用值对实验的影响
        4.3.2 最小效用置信度对实验的影响
        4.3.3 最小支持度对实验的影响
        4.3.4 可扩展性分析
    4.4 本章小结
第5章 总结及下一步工作
    5.1 研究总结
    5.2 下一步研究工作
参考文献
致谢
在学期间主要科研成果
    一、发表学术论文
    二、获奖情况
    三、参与科研项目
    四、申请专利

(2)基于关联规则挖掘的课程相关度及其可视化的研究(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 课题研究背景及意义
    1.2 国内外研究现状
        1.2.1 关联规则挖掘的国内外研究现状
        1.2.2 数据可视化的国内外研究现状
    1.3 研究内容
    1.4 论文结构安排
    1.5 本章小结
第二章 数据挖掘与数据可视化相关理论介绍分析
    2.1 数据挖掘理论分析
        2.1.1 数据挖掘概念功能和应用
        2.1.2 数据挖掘算法概述
    2.2 数据可视化
        2.2.1 数据可视化理论及意义
        2.2.2 数据可视化的方法及展现形式
    2.3 本章小结
第三章 基于改进K-Means的Top-K关联规则挖掘的课程相关度集成算法
    3.1 课程数据的特征分析
    3.2 关联规则挖掘算法存在的问题以及改进思路
    3.3 K-Means算法的分析与改进
        3.3.1 K-Means算法的原理及缺点
        3.3.2 K值的确定
        3.3.3 Kd-tree结构和Ball-tree结构
    3.4 Top-K挖掘算法分析与改进
        3.4.1 Top-K关联规则挖掘算法
        3.4.2 规则的生成和剪枝
    3.5 实验结果与效率验证比较
        3.5.1 课程数据预处理与清洗
        3.5.2 基于Ball-Tree结构的K-Means改进算法
        3.5.3 Top-K关联规则挖掘集成算法
        3.5.4 效率验证比较
    3.6 本章小结
第四章 基于BP神经网络的改进K-Means算法预测模型
    4.1 基于BP神经网络的改进K-Means算法预测模型的构建
        4.1.1 BP神经网络理论
        4.1.2 输入和输出
        4.1.3 隐含层节点数选择
        4.1.4 激活函数选择
        4.1.5 训练方法
    4.2 神经网络的实现
    4.3 本章小结
第五章 关联规则挖掘结果可视化展现平台
    5.1 挖掘结果可视化展现
    5.2 可视化平台系统的实现
    5.3 本章小结
第六章 总结与展望
    6.1 研究工作总结
    6.2 后续工作展望
参考文献
在学期间的研究成果
致谢

(3)融合注意力机制的关联规则算法研究及应用(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景与意义
    1.2 研究现状
        1.2.1 关联规则研究现状
        1.2.2 注意力机制研究现状
    1.3 本文工作内容
    1.4 本文组织结构
第二章 相关技术理论介绍
    2.1 神经网络相关技术理论
        2.1.1 循环神经网络
        2.1.2 激活函数
        2.1.3 Dropout技术
    2.2 注意力机制相关技术理论
        2.2.1 注意力机制相关内容
        2.2.2 注意力机制计算过程
    2.3 关联规则相关技术理论
        2.3.1 关联规则相关内容
        2.3.2 Apriori关联规则算法
        2.3.3 Apriori Inverse算法
        2.3.4 FP-Growth算法
        2.3.5 加权关联规则算法
    2.4 本章小结
第三章 融合RNN与注意力机制的关联规则算法
    3.1 算法相关内容
    3.2 算法具体描述
    3.3 算法实例分析
    3.4 本章小结
第四章 实验及其结果分析
    4.1 实验背景分析
    4.2 实验设置
        4.2.1 实验数据预处理
        4.2.2 评价指标
    4.3 实验方案
    4.4 结果分析
    4.5 本章小结
第五章 基于融合RNN与注意力机制的关联规则的推荐系统设计与实现-以图书馆书籍推荐为例
    5.1 系统需求分析
        5.1.1 系统必要性分析
        5.1.2 系统可行性分析
    5.2 系统设计
        5.2.1 系统功能设计
        5.2.2 系统交互页面设计
        5.2.3 系统服务器端设计
    5.3 系统展示
        5.3.1 系统前端展示
        5.3.2 系统后端展示
    5.4 本章小结
第六章 总结与展望
    6.1 总结
    6.2 未来展望
参考文献
致谢
攻读硕士学位期间的研究成果

(4)基于BP神经网络的数据挖掘技术探究及其在煤热转化数据规律分析中的应用(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 常见的煤热转化方式
    1.3 国内、外数据挖掘的研究及应用现状
    1.4 数据挖掘的由来
    1.5 数据挖掘的任务及基本过程
        1.5.1 数据挖掘的任务
        1.5.2 数据挖掘的基本过程
    1.6 常用的数据挖掘的方法
    1.7 人工神经网络
        1.7.1 主要的人工神经网络模型
    1.8 本文的组织框架及研究内容
第二章 BP神经网络的算法理论及其算法优化探究
    2.1 BP神经网络概述
    2.2 BP神经网络的运行机制
        2.2.1 BP神经网络的理论推理过程
    2.3 BP神经网络的优缺点
        2.3.1 BP神经网络的优点
        2.3.2 BP神经网络的缺点
    2.4 BP神经网络算法的优化分析
        2.4.1 自身算法的直接改进
        2.4.2 与其它智能算法的联用
        2.4.3 多算法优势集成的设计与实现(HA-BP)
    2.5 BP神经网络算法优化的检验
        2.5.1 建模与分析
        2.5.2 BP神经网络的计算效果分析
        2.5.3 A-BP神经网络的计算效果分析
        2.5.4 GA-BP神经网络的计算效果分析
        2.5.5 PSO-BP神经网络的计算效果分析
        2.5.6 HA-BP神经网络的计算效果分析
        2.5.7 各模型计算效果对比
    2.6 本章小结
第三章 异常数据检测(剔除)及变量因素分析(选择)
    3.1 异常数据检测(剔除)
        3.1.1 异常数据检测方法
        3.1.2 非线性函数仿真验证
        3.1.3 检测效果分析
    3.2 变量因素的分析与选择
        3.2.1 特征参量的选取方法
        3.2.2 HA-BP-MIV算法的实现过程
        3.2.3 HA-BP-MIV算法的仿真验证
    3.3 本章小结
第四章 煤燃烧发热量的预测探究
    4.1 引言
    4.2 样本情况
    4.3 基于工业分析、元素分析数据预测发热量的建模与探究
        4.3.1 发热量计算的建模与分析
        4.3.2 发热量的预测以及异常数据检测
        4.3.3 影响发热量的变量因素分析
        4.3.4 主要因素提取与计算效果分析
    4.4 基于工业分析数据计算发热量的探究
    4.5 本章小结
第五章 煤(加氢)热解失重特性曲线的预测探究
    5.1 引言
    5.2 煤样情况
    5.3 基于工业分析、元素分析的煤热解失重特性预测模型
        5.3.1 热解失重实验
        5.3.2 特征数据点的选择与模型建立
        5.3.3 变量分析与筛选
        5.3.4 主要因素的计算效果分析
        5.3.5 热解失重曲线的预测
    5.4 基于工业分析、元素分析的煤加氢热解失重特性预测模型
        5.4.1 加氢热解失重实验
        5.4.2 特征数据点的选择与模型建立
        5.4.3 变量分析与筛选
        5.4.4 主要因素的计算效果分析
        5.4.5 加氢热解失重曲线的预测
    5.5 本章小结
第六章 煤灰流动温度(FT)的预测探究
    6.1 引言
    6.2 样本情况
    6.3 基于煤灰组成数据预测FT的建模与探究
        6.3.1 预测FT的建模与分析
        6.3.2 FT的预测以及异常数据检测
        6.3.3 影响FT的变量因素分析
        6.3.4 主要因素提取与计算效果分析
    6.4 典型灰样的结渣机理探究及结渣晶相的特征总结
        6.4.1 典型灰样的基础数据测试
        6.4.2 AFTs的测试与分析
        6.4.3 典型灰样的XRD分析
        6.4.4 混合样的灰渣XRD分析
        6.4.5 反应机理的热力学分析
        6.4.6 灰渣样的SEM-EDS分析
        6.4.7 灰样的相图分析
        6.4.8 新生成的矿物对共混灰FT的影响
    6.5 煤灰的分类预测研究
        6.5.1 结渣晶相的特征总结与煤灰的分类
        6.5.2 影响FT的关键因素探究
        6.5.3 “关键特征参量”对FT的影响与关系式的提出
        6.5.4 关系式的验证
    6.6 本章小结
第七章 结论与展望
    7.1 总结
    7.2 特色与创新
    7.3 展望
参考文献
攻读博士学位期间取得的成果
致谢

(5)机器学习中隐私保护数据计算研究(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 隐私保护数据挖掘研究现状
        1.2.2 隐私保护深度学习研究现状
        1.2.3 分布式优化方法研究现状
    1.3 论文的主要工作及结构
第二章 相关问题与安全计算基本概念介绍
    2.1 简写符号说明
    2.2 相关机器学习方法介绍
        2.2.1 频繁项集挖掘与关联规则挖掘
        2.2.2 神经网络和深度学习
    2.3 数据安全技术介绍
        2.3.1 同态加密
        2.3.2 数据验证
    2.4 本章小结
第三章 云外包环境下的隐私保护关联规则挖掘研究
    3.1 引言
    3.2 问题定义
        3.2.1 系统模型
        3.2.2 威胁模型
        3.2.3 设计目标
    3.3 相关知识介绍
        3.3.1 水平与垂直分区数据库
        3.3.2 虚拟交易
    3.4 子算法设计
        3.4.1 对称同态加密算法
        3.4.2 安全比较算法
        3.4.3 HE参数范围限定
        3.4.4 虚拟交易插入算法
    3.5 SecEDMO方案设计
        3.5.1 SecEDMO方案概览
        3.5.2 隐私保护关联规则挖掘
    3.6 正确性分析
    3.7 安全性分析
        3.7.1 对称HE算法的密钥安全性
        3.7.2 安全抗攻击
    3.8 性能评估
        3.8.1 插入交易的随机性
        3.8.2 SecEDMO的计算复杂度
        3.8.3 SecEDMO的存储容耗
        3.8.4 SecEDMO的通信复杂度
        3.8.5 不同模型的复杂度比较
        3.8.6 端到端时延
    3.9 相关工作
        3.9.1 基于查询限制的隐私保护挖掘
        3.9.2 基于数据干扰的隐私保护挖掘
        3.9.3 基于数据加密的隐私保护挖掘
    3.10 扩展工作——安全数据聚合
    3.11 本章小结
第四章 联邦深度学习中分布式训练方法研究
    4.1 引言
    4.2 问题定义
        4.2.1 联邦学习系统
        4.2.2 设计目标
    4.3 相关知识介绍
        4.3.1 随机梯度下降
        4.3.2 ASGD与 SSGD
    4.4 F-SSGD算法设计
    4.5 收敛性分析
    4.6 实验性能评估
        4.6.1 实验设置
        4.6.2 实验结果
    4.7 本章小结
第五章 快速、安全、可验证的联邦深度学习研究
    5.1 引言
    5.2 问题定义
        5.2.1 系统模型
        5.2.2 攻击模型
        5.2.3 设计目标
    5.3 相关知识介绍
        5.3.1 椭圆曲线密码
        5.3.2 密码学hash函数
    5.4 子算法设计
        5.4.1 密钥生成算法
        5.4.2 隐私保护机制
        5.4.3 验证机制
    5.5 FSV-FDL模型设计
    5.6 安全性分析
        5.6.1 EC-AHE的安全性
        5.6.2 部分数据加密的安全性
        5.6.3 云与客户端合谋攻击
    5.7 验证性分析
        5.7.1 正确性
        5.7.2 可靠性
    5.8 实验性能评估
        5.8.1 模型精度
        5.8.2 客户端运行时
    5.9 本章小结
第六章 总结与展望
    6.1 本论文的主要工作
    6.2 下一步的工作思路
参考文献
致谢
攻读博士期间已发表的论文
攻读博士期间参加的科研项目

(6)基于数据挖掘技术的装备保障信息系统设计与开发(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1外军装备保障信息化研究现状
        1.2.2 我军装备保障信息化研究现状
    1.3 研究内容与技术路线
        1.3.1 研究内容与组织结构
        1.3.2 研究方法与技术路线
第2章 主要相关技术
    2.1 装备保障信息化
    2.2 数据挖掘技术
        2.2.1 数据挖掘的基本概念
        2.2.2 数据挖掘常用算法
        2.2.3 数据挖掘的过程
        2.2.4 数据可视化介绍
    2.3 工作流技术介绍
    2.4 小结
第3章 信息系统需求分析与总体设计
    3.1 信息化装备使用及保障现状
    3.2 系统需求分析与装备保障模型
        3.2.1 干系人需求分析
        3.2.2 系统性能需求分析
        3.2.3 系统功能需求分析
        3.2.4 系统界面需求分析
        3.2.5 装备保障信息化模型
    3.3 系统总体设计
        3.3.1 设计原则
        3.3.2 功能结构
        3.3.3 外部接口关系
        3.3.4 主要业务流程
    3.4 小结
第4章 系统功能设计与实现
    4.1 数据库设计
        4.1.1 数据库设计原则
        4.1.2 数据库表及表关系的设计
    4.2 系统功能模块设计与实现
        4.2.1 角色管理
        4.2.2 用户管理
        4.2.3 装备信息管理
        4.2.4 装备保障信息管理
        4.2.5 业务流程管理
        4.2.6 数据管理
        4.2.7 数据展示
    4.3 用户保障信息推荐设计与实现
        4.3.1 数据提炼
        4.3.2 相似用户挖掘
        4.3.3 区域保障规则挖掘
        4.3.4 装备厂商关联规则挖掘
        4.3.5 参数配置
        4.3.6 推荐引擎
    4.4 小结
第5章 系统测试与数据挖掘结果分析与应用
    5.1 系统功能测试
    5.2 系统性能测试
    5.3 小结
第6章 结论与展望
    6.1 结论
    6.2 展望
参考文献
致谢
作者简历及攻读学位期间发表的学术论文与研究成果

(7)基于GA的CART决策树改进算法与应用(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 课题研究的背景和意义
    1.2 国内外研究现状
    1.3 本论文主要研究内容
    1.4 本章总结
第二章 数据挖掘概述
    2.1 数据挖掘的相关理论
    2.2 数据挖掘常见的分类算法
        2.2.1 神经网络方法
        2.2.2 粗糙集理论方法
        2.2.3 聚类
        2.2.4 关联规则
        2.2.5 统计分析方法
        2.2.6 回归分析
        2.2.7 决策树方法
    2.3 本章总结
第三章 决策树分类技术
    3.1 决策树的定义和结构
    3.2 决策树的构造过程
    3.3 常用的决策树算法简介
        3.3.1 ID3算法简介
        3.3.2 C4.5算法
        3.3.3 CART算法
        3.3.4 决策树的应用
    3.4 本章总结
第四章 基于遗传算法的CART优化的研究
    4.1 引言
    4.2 遗传算法介绍
    4.3 基于遗传算法的CART算法的研究分析
        4.3.1 基于遗传算法的CART算法的基本原理
        4.3.2 基于遗传算法的CART算法的基本步骤
        4.3.3 基于遗传算法的CART算法的实现
    4.4 算法验证
        4.4.1 数据说明
        4.4.2 基于CART算法的决策树分类
        4.4.3 基于上层遗传算法优化分类规则的CART分类
        4.4.4 基于双层遗传算法优化CART算法的过程
    4.5 实验结果
第五章 总结和展望
参考文献
附录:算法用到的相关函数介绍
致谢

(8)基于权重的频繁项集和可擦除项集挖掘算法研究(论文提纲范文)

摘要
abstract
注释表
第1章 绪论
    1.1 研究背景与意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 研究现状
        1.2.1 关联规则研究现状
        1.2.2 加权频繁项集研究现状
        1.2.3 加权可擦除项集研究现状
    1.3 本文主要工作
    1.4 本文组织结构
    1.5 本章小结
第2章 相关理论研究
    2.1 数据挖掘概述
    2.2 关联规则挖掘
    2.3 加权频繁项集挖掘算法简介
        2.3.1 问题陈述与基本概念
        2.3.2 加权频繁项集挖掘算法相关分类
        2.3.3 经典的加权频繁项集算法
    2.4 加权可擦除项集挖掘算法简介
        2.4.1 问题陈述与基本概念
        2.4.2 加权可擦除项集挖掘算法相关分类
        2.4.3 经典的加权可擦除项集挖掘算法
    2.5 本章小结
第3章 基于WB-list的加权频繁项集挖掘算法
    3.1 WIT-FWI-DIFF算法分析
        3.1.1 相关概念与性质
        3.1.2 算法流程
        3.1.3 算法优缺点分析
    3.2 基于WB-list的改进WIT-FWI-DIFF算法
        3.2.1 算法改进思路
        3.2.2 重要数据结构及性质
        3.2.3 改进算法描述
    3.3 实验结果与分析
        3.3.1 实验环境
        3.3.2 运行时间
        3.3.3 内存消耗
        3.3.4 可伸缩性
    3.4 本章小结
第4章 基于列表结构的加权可擦除项集挖掘算法
    4.1 IWEI算法分析
        4.1.1 基础结构与方法
        4.1.2 算法流程
        4.1.3 算法优缺点分析
    4.2 基于列表结构的加权可擦除项集挖掘算法
        4.2.1 算法改进思路
        4.2.2 重要数据结构及性质
        4.2.3 改进算法描述
    4.3 实验结果与分析
        4.3.1 实验环境
        4.3.2 运行时间
        4.3.3 内存消耗
        4.3.4 可伸缩性
    4.4 本章小结
第5章 总结与展望
    5.1 工作总结
    5.2 工作展望
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果

(9)5G网络技术对提升4G网络性能的研究(论文提纲范文)

引言
1 4G网络现处理办法
2 4G网络可应用的5G关键技术
    2.1 Msssive MIMO技术
    2.2 极简载波技术
    2.3 超密集组网
    2.4 MEC技术
3 总结

(10)基于完全模式树的增量频繁模式挖掘及并行化(论文提纲范文)

中文摘要
abstract
第一章 绪论
    1.1 选题的背景与意义
    1.2 关联规则研究现状
        1.2.1 关联规则挖掘
        1.2.2 关联规则增量挖掘
        1.2.3 关联规则并行/分布式挖掘
    1.3 研究目标与研究内容
    1.4 本文结构
第二章 关联规则与并行计算模型
    2.1 数据挖掘与关联规则
        2.1.1 数据挖掘及应用
        2.1.2 关联规则基本概念
    2.2 增量关联规则挖掘
    2.3 并行计算模型
        2.3.1 集群系统
        2.3.2 MapReduce计算框架
        2.3.3 Spark计算框架
    2.4 本章小结
第三章 FCFPIM增量挖掘算法
    3.1 引言
    3.2 全压缩频繁模式树(FCFP-Tree)
    3.3 有效的FCFP-Tree更新策略FCFPIM
    3.4 FCFPIM算法描述
    3.5 FCFPIM算法实验与评价
        3.5.1 实验环境与数据
        3.5.2 实验结果与分析
    3.6 本章小结
第四章 基于Spark的高效增量频繁项集挖掘
    4.1 引言
    4.2 PFCFPIM并行算法概述
    4.3 关联分组
        4.3.1 基础思想
        4.3.2 算法描述
    4.4 PFCFPIM算法RDD转化过程
    4.5 PFCFPIM算法实验与评价
        4.5.1 并行化评价指标
        4.5.2 实验环境与数据
        4.5.3 实验结果与分析
    4.6 本章小结
第五章 总结与展望
    5.1 总结
    5.2 展望
参考文献
致谢
攻读学位期间发表的学术论文目录

四、数据挖掘中快速关联规则发现算法研究及应用(论文参考文献)

  • [1]基于效用的负序列规则挖掘关键技术研究[D]. 张孟姣. 齐鲁工业大学, 2021(09)
  • [2]基于关联规则挖掘的课程相关度及其可视化的研究[D]. 汪哲. 北方工业大学, 2021(01)
  • [3]融合注意力机制的关联规则算法研究及应用[D]. 徐嘉慧. 内蒙古大学, 2021(12)
  • [4]基于BP神经网络的数据挖掘技术探究及其在煤热转化数据规律分析中的应用[D]. 谢良才. 西北大学, 2021(12)
  • [5]机器学习中隐私保护数据计算研究[D]. 吴佳慧. 西南大学, 2021(01)
  • [6]基于数据挖掘技术的装备保障信息系统设计与开发[D]. 刘洪伟. 中国科学院大学(中国科学院大学人工智能学院), 2020(04)
  • [7]基于GA的CART决策树改进算法与应用[D]. 刘亚芬. 广州大学, 2020(02)
  • [8]基于权重的频繁项集和可擦除项集挖掘算法研究[D]. 许萌萌. 重庆邮电大学, 2020(02)
  • [9]5G网络技术对提升4G网络性能的研究[J]. 刘奕. 数码世界, 2020(04)
  • [10]基于完全模式树的增量频繁模式挖掘及并行化[D]. 孙娇娇. 太原科技大学, 2020(05)

标签:;  ;  ;  ;  ;  

快速关联规则发现算法在数据挖掘中的研究与应用
下载Doc文档

猜你喜欢