布隆过滤器的研究与应用

布隆过滤器的研究与应用

一、Bloom filter的研究和应用(论文文献综述)

杨广召[1](2021)在《面向红枣信息资源的爬虫技术研究》文中指出在现代互联网技术迅猛发展的时代,互联网上的各类资源呈现出爆炸式增长,网络上积累了丰富的红枣相关信息。传统主题网络爬虫会爬取与红枣主题相关性高的页面,但不能满足用户想要快速、精准、有效获取所需红枣信息的需求。传统主题网络爬虫在页面检索时能够做到只爬取与主题相关性高的页面,但现有传统主题网络爬虫的算法也存在缺点,如容易产生“主题漂移”、对新页面忽视和红枣链接去重效率低等问题。针对红枣类相关页面,结合不同算法的优点对HITS(Hyperlink-Induced Topic Search)算法和链接去重算法进行改进,以使改进后的算法在爬取页面时展现更好的性能。本文的主要研究内容如下:首先,对通用网络爬虫中相关理论和技术进行研究,主要对主题网络爬虫实现中用到的相关技术进行分析,并对页面处理,主题相关度计算等进行分析。其次,在对传统主题网络爬虫技术的研究中发现存在一些问题:1.HITS算法存在对新页面忽视问题和“主题漂移”现象。2.传统内存去重方法对红枣链接去重效率低。针对以上问题对红枣主题网络爬虫中的算法展开研究,结合不同算法的优点对红枣主题网络爬虫算法进行改进,使改进后的算法在爬取红枣页面时展现出更好的性能。再次,对传统主题网络爬虫算法的深入研究,发现现有主题网络爬虫算法的不足并对其进行改进,提出引入时间因素的HITS算法与Shark-Search算法相结合,使得结合后的算法在页面爬取时与红枣主题密切相关,解决传统算法中对新页面忽视问题和消除“主题漂移”现象,提高红枣主题网络爬虫算法查准率和查全率。针对传统内存去重效率低的问题,提出基于Redis的Bloom Filters去重方法,Bloom Filters将红枣链接表示成二进制向量并存储在内存数据库Redis中,提高了红枣链接的去重效率。最后,实现红枣主题网络爬虫系统整体爬取功能,将改进算法应用于关键功能模块的实现。实验结果表明,改进算法在提高红枣主题相关计算和红枣链接去重效率方面是可行有效的。

刘召曼[2](2021)在《云环境下基于位置服务的范围查询隐私保护机制研究》文中指出无线通信和移动定位技术的发展促进了位置服务(LBS)在移动终端的应用。随着云计算技术的发展成熟,位置服务商也倾向于外包位置服务给云服务器以减少自身的存储开销和管理开销。当前,基于位置服务的应用无处不在,但随着人们隐私保护意识的增强,位置服务的安全也逐渐引起人们的担忧。此外,位置数据作为位置服务商的一种私有商业资源,在外包给云服务器后也存在泄露的风险。云环境下位置服务中用户和位置服务商的隐私问题不容忽视,如何设计云环境下安全高效的查询方案成为亟需解决的问题。范围查询是位置服务中的一种基本查询,通过对位置服务中范围查询的查询形式进行分析,发现用户的查询请求通常包括多样的查询属性和任意的查询范围。基于上述发现,研究了云环境下多关键词范围查询以及几何范围查询的隐私保护,旨在保护用户的查询隐私和位置服务器的数据隐私的同时实现高效的范围查询。主要工作如下:(1)设计了云环境下支持多关键词范围查询的隐私保护方案。首先,方案利用Hilbert曲线划分区域为原子区域并用曲线编码标识,将用户的查询范围转换为原子区域编码集合并加密。其次,方案将用户的查询属性转换为Bloom Filter值,并以原子区域为单位建立位置数据的属性分层索引。借助加密的原子区域编码集合以及Bloom Filter值表示用户的查询范围和查询属性能够隐藏具体的查询信息。最后,方案利用代理重加密技术加密位置数据,既能够保证位置服务器的数据隐私又能实现位置数据在查询用户之间的共享。效率分析表明该方案能以次线性的时间实现对位置数据的批量查询,因此更适用于数据外包场景下对大规模数据集的查询。(2)设计了云环境下支持几何范围查询的隐私保护方案。在利用Hilbert曲线划分区域的基础上,对于不规则的查询范围,方案进一步构造查询范围和位置数据的向量形式并利用SSW谓词加密算法保密计算位置向量和查询向量的内积,以此判断任意形状的几何范围与位置数据的关系。该方案在保证用户和位置服务商的隐私的前提下,能够以次线性的时间实现对任意范围的精确查询。此外,该方案在构造位置向量时充分考虑了位置数据取自有理数域的情况,因此更适用于精准位置服务的应用场景。

田成锦[3](2021)在《高性能可扩展键值存储系统研究》文中进行了进一步梳理随着数据密集型应用的大量出现,键值存储系统逐渐替代传统的关系型数据库,作为一种基础存储设施被广泛部署在许多场景中。键值存储系统采用扁平化的方式组织数据,使其适合非结构化数据的存储并具有优秀的水平扩展性,并且其为用户提供的简化的命令接口也提升了系统易用性。但是随着数据规模不断增长和数据类型趋于复杂化,键值存储系统的元数据规模会不断增加,并且系统资源容易出现不均衡现象,这些使得键值存储系统的扩展能力受到限制。因此,如何优化元数据管理和系统负载均衡机制是构建高性能可扩展的键值存储系统的关键性问题。本文主要研究了在基于LSM-tree设计的键值存储系统中,单节点内的Bloom filter元数据面临的内外存管理问题,以及多节点的多维度资源的负载均衡问题。本文的主要研究内容和贡献如下:(1)面向内存的冷热感知Bloom filter管理策略研究基于LSM-tree设计的键值存储系统采用多层结构组织数据,系统为了查找键值数据需要检查多个SSTable文件从而产生多次I/O访问,因此会导致严重的读放大问题。为了减少读放大,键值存储系统通常采用Bloom filter来减少不必要的I/O。然而由于Bloom filter会发生误报,导致查询过程会产生额外的I/O,简单地扩大Bloom filter虽然能减少误报的发生,但会带来很大的内存开销,当其无法被全部存入内存中时仍然会给系统带来额外的I/O。为了解决这个问题,我们研究并提出了面向内存的冷热感知的Bloom filter管理策略ElasticBF,该策略通过为每个数据区域事先生成多个小的Bloom filter存放在外存中,然后在运行过程中根据数据区域的冷热程度动态地为其调整缓存在内存中的Bloom filter个数,从而达到根据数据冷热动态调整误报率的目的,使得系统能够在相同内存开销下降低总体误报率以减少读过程中的额外1/O,达到提升读性能的目的。为了验证其有效性,我们在LevelDB、RocksDB和PebblesDB上构建了 ElasticBF,实验结果表明,ElasticBF能分别将这些键值存储系统的读吞吐性能提高到2.34×、2.35×和2.58×,并且保持几乎相同的写和范围查询性能。(2)面向磁盘的Bloom filter分组布局研究存储海量小尺寸数据会导致键值存储系统的Bloom filter大小迅速增加,导致Bloom filter无法全部被缓存在内存中,使得每次查询需要多次访问磁盘中的Bloom filter,影响系统读性能。已有的方案会通过将磁盘上分散的Bloom filter聚集存放在磁盘上连续区域,从而只需要1次I/O就能读取Bloom filter,但这种方案需要频繁重新组织Bloom filter布局,并且不能减少每次读取的Bloom filter总大小,因此随着数据规模增大也会带来新的读写放大问题。针对这些问题,我们研究并提出了一种基于分组布局的Bloom filter管理策略SegmentBF,用于高效管理磁盘中的Bloom filter。SegmentBF基于分块分组的思想重新设计了磁盘中的Bloom filter布局:首先基于哈希的方式将Bloom filter分块,减少每次查询需要读取的Bloom filter大小;然后通过将不同文件的Bloom filter进行分组,使得每次只需要对一个分组的Bloom filter进行重新组织,减少了重组过程的开销;最后通过定期合并磁盘上的不同分组,减少分组个数从而减少访问磁盘的I/O个数。实验结果表明,相比于传统的Bloom filter磁盘管理策略,SegmentBF能够减少由于重组Bloom filter布局带来的写放大,同时能够减少查询过程中的I/O数量,并且能够提升36.4%的写吞吐性能和36.2%的读吞吐性能。(3)面向分布式键值系统的负载均衡策略研究已有的工作表明实际工作负载的访问具有很强的空间局部性,并且我们观察到键值数据的大小分布也会呈现空间局部性,即同一 Region内会聚集大小相似的键值数据。这些特征会导致Region上的请求数量和访问的数据量出现不对称的现象,即一些Region上的请求数过多但总访问数据量少,而另一些Region的访问特征与之相对,这导致系统中不同节点的CPU和磁盘带宽的资源使用出现不均衡的问题,从而使系统中某些节点出现瓶颈而使系统的整体资源不能被充分利用,影响系统扩展性。为了解决这些问题,我们研究并设计了一种轻量级的多维度负载均衡策略MultiSched。具体来说,我们通过理论证明了当系统中每个Region的负载都小于一定阈值时,存在能够使多维度负载达到均衡的数据放置方式,据此我们设计了一种轻量级的多维度负载均衡算法,采用局部最优的数据迁移方案让系统逐步达到均衡状态。为了能够在实际系统中部署该算法,我们设计了基于时间片的调度策略避免由于负载波动而影响系统调度决策,并且通过选择性的Region分裂机制减少了 Region的分裂开销,最后我们基于采样的方法设计了基于负载的Region分裂机制,使得能够以低开销的方式将高负载的Region分裂为若干个负载更小的Region。实验结果表明,MultiSched可以有效解决系统的多维度资源不均衡的问题,并且能大幅降低系统的尾延迟。

张媛[4](2020)在《高速网络流量测量与分析研究及其应用》文中提出网络流量测量是网络管理中一项重要任务。然而随着互联网的飞速发展,网络流量呈现爆炸式的增长,使得对高速网络流量的测量面临着很大的挑战。Sketch是一种可以对数据流进行存储和汇总的方法,可以对数据流进行测量和查询,它有几种典型的Sketch算法:Count-Min Sketch、CU Sketch和Count Sketch,可以将它应用到网络测量中来。但是由于网络流量自身的特点,在使用Sketch进行测量时可能会产生大量的空间浪费,造成空间利用率低等问题。此外,由于Sketch是使用散列函数对数据流进行汇总,散列冲突会造成估计值的误差,尤其是对于小流量。因此,本文的工作主要针对于空间利用率低和对小流量的过高估计这两个问题对网络流量测量的算法进行改进。本研究首先引入进位的思想,提出了将多个Sketch与Counting Bloom Filter(CBF)相结合的结构——Self-Adaption Sketch(SA Sketch)。该结构可以根据所需测量的网络流量的大小动态地申请空间、创建Sketch,并使用CBF来存储当前流量使用的Sketch的数量,从而提高空间的利用率。实验结果表明,SA Sketch在进行点查询时的误差相比于Count-Min Sketch、CU Sketch和Count Sketch有了一定的降低。在进行heavy hitter检测时,准确性也有了极大的提升。在SA Sketch与其他Sketch达到相同测量精度时,SA Sketch使用的空间更小,并且与其他Sketch算法保持了相同水平的吞吐量。负载因子越大,SA Sketch在准确性上的提升越明显。后续研究发现,由于Counting Bloom Filter使用散列函数对元素进行存储和查询,从而导致在查询时存在一定的误差。因此,在SA Sketch中对流量进行点查询时,查询的Sketch的数量可能会发生错误,导致最终的查询值存在较大误差。为了解决这一问题,本研究采用布谷鸟哈希的思想,将改进后的布谷鸟哈希表与Sketch相结合,提出Cuckoo-Based Self-Adaption Sketch(CBSA Sketch)。该结构采用布谷鸟哈希表对Sketch的数量进行存储,从而实现对Sketch数量的准确查询,进一步提高点查询的准确性。实验结果显示,在进行点查询时和heavy hitter检测时,CBSA Sketch的准确性相比于Count-Min Sketch、CU Sketch和Count Sketch有了显着的提高。在达到相同准确性的情况下,CBSA Sketch提高了平均吞吐量并且有效地节省了内存开销。综上所述,本研究提出的基于布谷鸟哈希的自适应概要数据结构(CBSA Sketch)有效地提高了空间利用率和测量的准确性,并且在一定程度上提高了吞吐量。由于它在网络负载因子越大时,相比于其他算法的提升更加明显,因此,它更适用于高速网络流量的测量,并且可以根据所需测量的网络流量大小和测量的目的,选择最优的参数来对数据流进行处理。

俞快[5](2020)在《基于数据分块的文件增量同步技术研究与实现》文中研究指明随着大数据时代的到来,互联网迎来新的发展,无论对于企业还是个人,数据信息都越来越重要,保护数据信息的安全,在发生意外的时候保证充足的容灾备份成为当下越来越重要的研究方向。由于数据量的飞速增长,需要通过迅速、高效的方法把源数据同步到备份服务器中。采用常规同步的方法在面对数据量较大的时候,有占用存储空间多,占用网络带宽高,同步效率低下等问题,所以本文从现实考虑出发,提出以数据分块算法和布隆过滤器为基础来完成增量识别,进一步设计并实现了一个增量同步备份工具。本文首先介绍了国内外的数据同步备份研究现状以明确需求目标,分析了相关技术包括数据分块算法、布隆过滤器、Inotify机制等,分块算法部分对比介绍了固定长度分块和不定长分块,重点介绍了Rsync算法和RAM算法,并分析了各自的特点和缺点,同时介绍了标准布隆过滤器和一些基于它改进的布隆过滤器。其次,针对RAM算法出现长分块的情况和标准布隆过滤器需要多个高要求哈希函数的缺点,本文提出了改进后的RAMM算法和无分区单哈希布隆过滤器,从理论和实验分析验证了改进算法的合理性和有效性。再其次,接按层级和模块化的方式设计并实现了一个增量同步备份工具,主要包含四个模块,网络传输模块、数据监控模块、数据同步模块和控制模块,其中监控模块主要利用Inotify机制实现对文件的监控以达到实时同步的目的,同步模块主要通过的RAMM分块算法和无分区单哈希布隆过滤器来实现增量识别和同步。最后我们对增量同步备份工具进行了一系列的测试,测试结果表明与全量同步相比采用改进后的RAMM分块算法和无分区单哈希布隆过滤器可以高效地完成同步备份,降低网络带宽和内存的消耗,同时将该工具应用在Open Stack云计算平台上搭建的Ceph分布式文件存储系统中也有良好的表现。

石兴华[6](2020)在《面向Android的恶意软件检测及行为分析》文中研究说明由于Android系统独有的开放性,使得自身易被人们改造利用的同时,也极易受到恶意软件的侵蚀。开发者利用恶意软件可以直接窃取到用户个人隐私、更改系统关键设置,或以恶意软件为媒介间接传播非法敏感信息,这些恶意行为不仅给用户的使用带来不便,更对Android生态安全造成了极大的威胁。基于行为的恶意软件识别方法通过拟合恶意行为的具体特征,并结合现在最为流行的动静态方法进行检测,具有较好的检测效果,也逐渐受到了国内外研究人员的关注。但也存在不足:目前的研究并未根据具体行为来对Android软件进行系统性的划分,对不同恶意行为也缺乏具有针对性的检测方法,导致难以应对日新月异的恶意软件变种。基于此,本文从行为的角度对恶意软件进行了类别的重新划分,并针对不同行为特征设计了对症的恶意软件检测方法,从而能够提高对恶意软件检测的准确率。论文主要工作如下:(1)针对信息窃取、恶意扣费、系统破坏三种一般恶意行为,本文提出了基于深度森林的恶意软件检测模型。模型通过对良性及恶意软件的三种静态特征进行多分类学习,能够对该分类下细化后的三种恶意行为实现较准确的识别及分类。通过实验验证了本文所提模型比随机森林、深度学习两种分类算法更符合对一般恶意行为的检测要求,除对该行为检测的F值达到了更高的0.859外,还降低了参数调节复杂度及大训练样本所造成的算法冗余度。(2)针对有害内容推送行为具有的隐蔽性,本文提出了TF-Bloom检测模型来对软件运行时产生的界面文本进行识别过滤。首先使用Appium软件及内部监听方法对软件运行期间的界面、推送内容进行动态提取,然后通过TF-Bloom模型对文本进行分类。经实验验证TF-Bloom模型在检测效果及时间复杂性上都优于AC自动机及Logistic回归两种常用文本分类方法。(3)针对资源过度消耗行为的持续多变性,本文提出了C-ADB(Confidence-AndroidDebugBridge)检测机制。机制根据用户输入参数调用adb shell来对一段时间内软件运行所产生的资源消耗数据进行实时监控;为了增加检测结果的可靠性,机制还引入了信任度评价指标来对多个时段内软件的信任度迭代计算,进而判断软件是否具有该恶意行为。经测试,C-ADB机制能够实现对软件资源消耗情况的有效监控,并根据信任度的不同来对软件的评价进行动态调整。

马露露[7](2020)在《基于机器学习的数据索引技术研究》文中认为索引结构是用来提高数据访问性能的重要工具,但其采用的数据结构没有考虑真实数据的分布特征。而机器学习的本质是从数据中发掘隐藏的模式,这些从数据中发掘的模式反映了数据的内在联系和分布规律。因此机器学习为建立数据索引提供全新的解决思路。此外,机器学习模型存储空间小、并行度高、查询速度快的特点可以有效地提高索引的查询性能,降低索引带来的空间开销。然而目前基于机器学习的索引结构(简称学习索引)存在着以下不足:1)从多个维度构建主键索引时,学习索引带来的误差范围很高,查询开销急剧增长;2)只适用于聚簇索引,不能应用于二级索引的场景。本文针对学习索引存在的不足,对基于机器学习的数据索引技术进行深入研究。首先,针对学习索引在多维数据上误差范围过大的问题,通过深入分析索引问题的特点和需求,本文提出了一种递归提升模型索引结构Recursive Boosting Model Index(简称B-RMI)。在模型分层结构的设计下,本文通过三个方面进行结构的优化:自顶向下拟合预测残差来充分利用非叶子模型的拟合效果、权重更新来提高对离群数据的关注度和预设阈值进行数据剪枝,从而提高整体索引结构的预测准确度。其次,针对学习索引不适用于二级索引的局限性问题,本文提出了一种两阶段二级索引模型结构。其中第一阶段通过二分类模型和Bloom Filter进行两步筛选,将数据划分成唯一键值和非唯一键值,并保有一定的误判率。然后在第二阶段根据两类数据的特点,分别构建索引模型进行处理,从而满足二级索引的查询要求。最后,基于上述两个理论成果,本文先通过合成数据和Open Street Map真实地点数据对B-RMI、RMI和B-Tree结构性能进行比较分析,表明B-RMI结构在多维数据上的预测准确度有显着提升。然后通过开源NYC出租车数据、基准测试工具TPC-D生成的不同倾斜度订单数据和Instacart商店数据,对两阶段二级索引结构和B-Tree二级索引性能进行比较分析,表明该结构在提高查询效率和降低内存开销上的优势。最终验证了本文研究工作的可行性和有效性。

梁小燕[8](2020)在《区块链环境下基于信息熵的医疗数据共享激励机制》文中进行了进一步梳理医疗数据的有效共享可以节约医疗费用,降低医疗风险,具有重要的社会意义。然而,在提高医疗机构共享数据的积极性,保障数据安全和患者的隐私,提高数据共享效率等方面,仍存在很大的挑战。由于区块链具有去中心化、安全、可信等特点,本文探讨基于区块链技术医疗数据的共享方法,并重点研究医疗数据共享中的激励机制及其如何提高区块链环境下医疗数据共享交易记录的检索效率。(1)提出了一种基于区块链的医疗数据共享方案。针对因数据共享交易的不断增加和区块个数的不断增长,导致链上交易信息检索效率低下的问题,提出了一种改进的区块结构,该结构在区块头扩展区域中引入Bloom Filter,可高效定位医疗数据共享记录,避免了无效的查询,从而提升了区块链中数据的检索效率。(2)提出了一种基于信息熵的医疗数据共享激励机制。以提高医疗机构数据共享的积极性,促进临床数据的共享为目标,提出了一种基于信息熵的医疗数据共享激励机制,通过信息熵度量医疗数据价值,为医疗机构的数据交易提供基础,并通过Shapley值均衡医疗机构之间的利益分配。实验表明,基于区块链技术实现医疗数据的共享和交易是一种理想的选择,文中提出的基于Bloom Filter的改进区块结构提升了区块链中数据的检索效率。同时,共享数据的价值度量对于激励医疗机构的数据共享积极性具有重要的作用,在基于信息熵的激励机制作用下,共享数据量的增长速率高于传统固定价值的激励机制。综上所述,本文所探讨的医疗数据共享方法,能够促进更多医疗机构参与到数据共享中,有助于打破医疗“信息孤岛”,充分发挥医疗数据的价值。

李东林[9](2020)在《RFID系统中的一种高效持续扫描协议》文中研究说明射频模式识别(RFID)技术广泛应用于仓储管理、物流管理等很多领域。持续扫描是RFID技术的一个重要应用。当RFID标签的分布范围较大时,阅读器不能在一个位置收集所有标签ID。持续扫描协议使阅读器能够高效快速的在不同位置收集所有标签的ID。当前已有的持续扫描协议存在误判率较高的问题。为了降低误判率,本文设计了一种数据结构ONV,ONV由多个Bloom Filter数组复合得到。将多个Bloom Filter数组压缩为一个序号向量ONV,可以显着降低需要传输的数据量。本文提出了一种利用ONV向量灭活已知标签的算法,并将这种算法称为ONV算法。后台服务器首先生成一个ONV向量,然后通过阅读器将ONV向量发送给标签。标签使用ONV向量判断自己是否为已知标签,如果标签判断自己是已知标签,则会被灭活。ONV算法能够高效地灭活已知标签,且该算法的通信开销和误判率都比较小。基于ONV算法,本文提出了一种基于序号向量的持续扫描协议OCS(ONV-based Continuous Scanning protocol)。OCS首先计算出一个比值,然后根据比值的大小,从两种ID收集算法中选择时间开销小的算法。如果比值小于等于1,则OCS使用现有的CA算法直接收集所有活跃标签的ID。如果比值大于1,则OCS先用ONV算法灭活已知标签,然后用现有的CA算法收集未知标签的ID。为了评价OCS的性能,本文将时间开销和误判率作为评价指标进行实验,并与现有的持续扫描协议进行对比。实验结果表明,OCS的时间开销和误判率较小,有良好的性能表现。

王倩玉[10](2020)在《面向信息中心网络的内容名字查找方法研究》文中研究表明信息中心网络是为了满足用户日益增长的信息需求,应对当前互联网面对的诸多挑战所提出的未来互联网结构。它摒弃了传统的以IP为核心的网络架构,采取以内容作为网络结构和服务的核心,将内容名字作为网络传输的标识。但由于内容名字的命名方式多样化,名字的结构复杂,且名字长度没有限制,因此,在大规模的路由表中实现内容名字的准确高效查找成为一项极具挑战的工作。在名字查找过程中需要在路由节点上的三个表中进行查找:内容存储器、待定请求表和前向转发表。本文主要研究信息中心网络的内容名字在这三个表上进行查找的优化问题,具体内容如下:1.提出了一种基于学习布隆过滤器的名字查找结构。此方法针对名字在前向转发表上基于最长前缀匹配算法进行查找的优化问题进行设计,利用递归神经网络(RNN)构建学习模型对名字进行预查找,然后通过一个备份布隆过滤器消除学习模型查找产生的假阴性,提高查找的准确性。与传统布隆过滤器相比,本文提出的结构有较低的假阳性率和较高的查找速度。2.提出了基于深度布隆过滤器的三级名字查找结构。对内容名字在内容存储器和待定请求表上的精确查找方法进行优化。第一级面向名字设置初始过滤器对名字进行预过滤,第二级引入带有门循环单元(GRU)的长短记忆神经网络(LSTM)构建深度学习模型,将第一级筛选出的名字发送到学习模型中进行精确查找确定名字并找出名字所对应的端口,第三级备份过滤器用来消除漏报。优化后的查找方法不仅提高了查找的准确性还降低了内存消耗。本文围绕信息中心网络中内容名字的查找问题展开深入研究,分别针对最长前缀匹配和精确查找两种查找方式中存在的问题进行优化,提出了基于学习布隆过滤器查找结构和基于深度布隆过滤器的三级查找结构。实验结果表明,本文所提出的两个名字查找方法在查找速度、查找精确和内存消耗方面有优越性。

二、Bloom filter的研究和应用(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、Bloom filter的研究和应用(论文提纲范文)

(1)面向红枣信息资源的爬虫技术研究(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 研究背景
    1.2 研究意义
    1.3 爬虫的研究现状
        1.3.1 国外研究现状
        1.3.2 国内研究现状
    1.4 网络爬虫研究概述
        1.4.1 网络爬虫体系结构
        1.4.2 主题网络爬虫与通用网络爬虫的区别
    1.5 研究内容
第2章 网络爬虫相关技术研究
    2.1 网页处理
        2.1.1 HTML网页结构
        2.1.2 内容提取
        2.1.3 中文分词
        2.1.4 去停用词
    2.2 主题相关度计算
        2.2.1 信息检索模型
        2.2.2 主题相关度计算
    2.3 本章小结
第3章 HITS网页排序算法改进策略
    3.1 网页排序算法研究
        3.1.1 网页排序算法对比分析
        3.1.2 HITS算法分析
    3.2 引入时间因素的HITS算法改进策略
        3.2.1 HITS算法优缺点分析
        3.2.2 针对红枣类主题网页的HITS算法改进策略
    3.3 针对红枣“主题漂移”现象的HITS算法的改进策略
        3.3.1 Shark-Search算法研究
        3.3.2 Shark-Search算法优缺点分析
        3.3.3 Shark-Search算法和HITS算法的融合改进策略
        3.3.4 融合算法在系统的具体应用流程
    3.4 算法性能评判标准
    3.5 融合算法性能对比实验与结果分析
    3.6 本章小结
第4章 基于Redis的 Bloom Filters去重算法
    4.1 红枣链接去重研究
        4.1.1 链接重复的影响
        4.1.2 链接去重算法对比分析
        4.1.3 链接提取过程
    4.2 基于Redis的 Bloom Filters去重技术研究
        4.2.1 Redis数据库研究
        4.2.2 Bloom Filters算法研究
        4.2.3 Bloom Filters的实现
    4.3 基于Redis的 Bloom Filters红枣URL去重实验设计
    4.4 基于Redis的 Bloom Filters红枣URL去重实验
        4.4.1 红枣URL去重流程设计
        4.4.2 红枣URL去重实验数据获取
        4.4.3 红枣URL去重实验对比与结果分析
    4.5 本章小结
第5章 红枣主题网络爬虫系统设计与分析
    5.1 红枣主题网络爬虫系统设计
        5.1.1 红枣主题网络爬虫系统架构设计
        5.1.2 系统技术路线
        5.1.3 实验的软硬件环境
        5.1.4 种子链接的选取
    5.2 实验常用函数
    5.3 红枣网页爬取过程
    5.4 爬取实验结果展示
    5.5 应用新算法系统与传统索引效果对比
    5.6 本章小结
第6章 总结与展望
    6.1 工作总结
    6.2 未来展望
参考文献
致谢
作者简介

(2)云环境下基于位置服务的范围查询隐私保护机制研究(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
        1.2.1 位置服务隐私保护研究
        1.2.2 范围查询隐私保护研究
        1.2.3 近邻查询隐私保护研究
    1.3 本文研究内容
    1.4 本文章节安排
第二章 预备知识
    2.1 Hilbert曲线
    2.2 Bloom Filter
    2.3 代理重加密
    2.4 支持内积查询的对称密钥谓词加密
第三章 云环境下支持多关键词范围查询的隐私保护方案
    3.1 设计目标
    3.2 系统模型
    3.3 安全需求
    3.4 方案设计
        3.4.1 初始化阶段
        3.4.2 区域划分阶段
        3.4.3 数据加密阶段
        3.4.4 查询生成阶段
        3.4.5 令牌生成阶段
        3.4.6 匹配和重加密阶段
        3.4.7 解密阶段
    3.5 安全性分析
        3.5.1 泄露函数
        3.5.2 安全定义
        3.5.3 安全证明
    3.6 效率分析
        3.6.1 计算开销分析
        3.6.2 通信开销分析
    3.7 性能评估
    3.8 本章小结
第四章 云环境下支持几何范围查询的隐私保护方案
    4.1 设计目标
    4.2 系统模型
    4.3 安全需求
    4.4 方案设计
        4.4.1 初始化阶段
        4.4.2 索引生成阶段
        4.4.3 加密阶段
        4.4.4 查询生成阶段
        4.4.5 令牌生成阶段
        4.4.6 匹配和重加密阶段
        4.4.7 解密阶段
    4.5 安全性分析
        4.5.1 泄露函数
        4.5.2 安全定义
        4.5.3 安全证明
    4.6 计算复杂度
        4.6.1 计算开销分析
        4.6.2 通信开销分析
    4.7 性能评估
    4.8 本章小结
第五章 总结与展望
参考文献
攻读硕士学位期间的主要成果
致谢

(3)高性能可扩展键值存储系统研究(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 海量数据存储
        1.1.1 数据存储发展趋势
        1.1.2 数据存储特征
        1.1.3 数据存储方式
    1.2 键值存储系统面临的新挑战
    1.3 本文的主要研究内容
    1.4 本文的组织结构
第2章 相关背景介绍
    2.1 键值存储系统的相关介绍
        2.1.1 LSM-tree结构简介
        2.1.2 LSM-tree的元数据管理
        2.1.3 分布式键值存储系统简介
    2.2 键值存储系统的相关研究工作
        2.2.1 优化LSM-tree结构
        2.2.2 基于介质特性的优化方案
        2.2.3 优化分布式键值存储系统
第3章 面向内存的冷热感知Bloom filter管理策略
    3.1 前言
    3.2 问题描述
        3.2.1 键值存储系统访问特征
        3.2.2 Bloom filter的动态和静态分配策略对比
        3.2.3 相关研究工作
    3.3 ElasticBF的设计与实现
        3.3.1 细粒度Bloom Filter分配模块
        3.3.2 热度管理模块
        3.3.3 Bloom Filter内存管理模块
        3.3.4 热度持久化机制
        3.3.5 系统实现
    3.4 实验评估
        3.4.1 实验设置
        3.4.2 整体性能
        3.4.3 ElasticBF特性
        3.4.4 不同参数配置下的性能影响
        3.4.5 实验小结
    3.5 本章小结
第4章 面向磁盘的Bloom filter分组布局
    4.1 前言
    4.2 问题描述
        4.2.1 LSM-trie介绍
        4.2.2 磁盘上的Bloom Filter管理方案的不足
    4.3 SegmentBF的设计与实现
        4.3.1 Bloom Filter构建模块
        4.3.2 Bloom Filter磁盘管理模块
        4.3.3 SegmentBF的实现优化
    4.4 实验评估
        4.4.1 实验设置
        4.4.2 SegmentBF的分块分组设计的性能测试
        4.4.3 SegmentBF对写性能的改进
        4.4.4 SegmentBF对读性能的改进
    4.5 本章小结
第5章 面向分布式键值系统的负载均衡策略
    5.1 前言
    5.2 问题描述
        5.2.1 工作负载访问特征
        5.2.2 多维度负载均衡问题描述
    5.3 MultiSched的设计与实现
        5.3.1 多维度调度算法模块
        5.3.2 调度管理模块
        5.3.3 Region分裂模块
    5.4 实验评估
        5.4.1 实验设置
        5.4.2 不同调度算法的模拟对比实验
        5.4.3 MultiSched的性能提升
        5.4.4 MultiSched与不同调度策略的对比
    5.5 本章小结
第6章 总结与展望
    6.1 本文的主要工作与成果
    6.2 未来研究计划
参考文献
致谢
在读期间发表的学术论文与取得的研究成果

(4)高速网络流量测量与分析研究及其应用(论文提纲范文)

摘要
Abstract
专用术语注释表
第一章 绪论
    1.1 研究背景
    1.2 研究现状
        1.2.1 抽样技术
        1.2.2 数据流技术
    1.3 本文的主要工作和组织结构
        1.3.1 主要工作和研究目标
        1.3.2 论文的组织结构
第二章 相关研究分析
    2.1 网络流量测量中频繁项检测的策略
        2.1.1 admit-all-count-some策略
        2.1.2 count-all策略
    2.2 基于Sketch的算法研究
        2.2.1 Sketch概述
        2.2.2 典型的Sketch方法
    2.3 基于Sketch的算法中存在的问题
    2.4 本章小结
第三章 基于Bloom Filter的多层Sketch数据结构
    3.1 SA Sketch的数据结构
    3.2 SA Sketch的更新与查询操作
        3.2.1 更新操作
        3.2.2 查询操作
    3.3 实验设置与性能分析
        3.3.1 实验平台与衡量指标
        3.3.2 实验参数设置
        3.3.3 准确性
        3.3.4 吞吐量
        3.3.5 使用空间
        3.3.6 参数选择
    3.4 本章小结
第四章 基于布谷鸟哈希的SA Sketch优化方法
    4.1 散列表
        4.1.1 散列表概述
        4.1.2 布谷鸟哈希
    4.2 SA Sketch的优化方法
        4.2.1 SA Sketch存在的问题
        4.2.2 优化的数据结构
        4.2.3 更新操作
        4.2.4 查询操作
    4.3 实验设置与性能分析
        4.3.1 参数设置
        4.3.2 准确性
        4.3.3 吞吐量
        4.3.4 空间使用
    4.4 本章小结
第五章 总结与展望
    5.1 总结
    5.2 展望
参考文献
附录1 程序清单
附录2 攻读硕士学位期间撰写的论文
附录3 攻读硕士学位期间申请的专利
附录4 攻读硕士学位期间参加的科研项目
致谢

(5)基于数据分块的文件增量同步技术研究与实现(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 研究内容和主要工作
    1.4 论文组织结构
第二章 相关技术研究与分析
    2.1 引言
    2.2 固定长度分块算法
        2.2.1 Rsync算法
        2.2.2 强弱校验和介绍
    2.3 不定长数据分块算法
        2.3.1 Rabin指纹分块算法
        2.3.2 RAM分块算法
    2.4 布隆过滤器
        2.4.1 标准布隆过滤器
        2.4.2 各类改进布隆过滤器
    2.5 Inotify监控机制
    2.6 数据备份技术研究
        2.6.1 数据备份和恢复方式
        2.6.2 数据备份策略分类
    2.7 Ceph分布式存储系统和Open Stack云计算平台
    2.8 本章小节
第三章 RAM分块算法与标准布隆过滤器的优化
    3.1 引言
    3.2 RAM分块算法分析优化
        3.2.1 RAM算法详细分析与实现
        3.2.2 RAMM优化算法分析与实现
    3.3 增量同步中布隆过滤器的优化
        3.3.1 标准布隆过滤器详细分析
        3.3.2 无分区单哈希布隆过滤器结构分析
        3.3.3 无分区单哈希布隆过滤器理论分析
        3.3.4 无分区单哈希布隆过滤器实现过程
    3.4 实验分析
        3.4.1 假阳性概率
        3.4.2 查询时间
        3.4.3 生成时间
    3.5 本章小节
第四章 增量同步备份工具的设计与实现
    4.1 引言
    4.2 功能需求分析
    4.3 整体架构设计
        4.3.1 设计原则
        4.3.2 架构和功能设计
    4.4 主要模块的设计与实现
        4.4.1 网络传输模块的设计与实现
        4.4.2 数据监控模块的设计与实现
        4.4.3 数据同步模块的设计与实现
        4.4.4 控制模块的设计与实现
    4.5 本章小节
第五章 性能测试与结果分析
    5.1 引言
    5.2 增量同步备份工具性能测试与分析
        5.2.1 实验环境介绍
        5.2.2 实验设计方案
        5.2.3 实验结果与实验分析
    5.3 ceph分布式存储系统实验
        5.3.1 实验环境介绍
        5.3.2 实验设计方案
        5.3.3 实验结果与实验分析
    5.4 本章小节
第六章 总结与展望
参考文献
攻读硕士学位期间取得的研究成果
致谢
附件

(6)面向Android的恶意软件检测及行为分析(论文提纲范文)

摘要
abstract
引言
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 主要研究内容
    1.4 论文组织结构
2 相关技术
    2.1 Android系统架构特性
        2.1.1 Android系统架构
        2.1.2 Android安全机制
        2.1.3 Android逆向工程
        2.1.4 Android动态调试
    2.2 机器学习分类算法
        2.2.1 随机森林
        2.2.2 深度学习
        2.2.3 深度森林
    2.3 自然语言处理技术
        2.3.1 文本分类
        2.3.2 TF-IDF
        2.3.3 Bloom Filter
    2.4 本章小结
3 基于深度森林的一般恶意行为检测
    3.1 检测框架设计
    3.2 数据收集与处理
        3.2.1 样本收集
        3.2.2 特征提取
        3.2.3 恶意软件行为分类
        3.2.4 特征向量化及筛选
    3.3 gcForest模型训练
        3.3.1 多粒度扫描
        3.3.2 级联森林
    3.4 检测实验
        3.4.1 实验准备
        3.4.2 参数设置
        3.4.3 评价指标
        3.4.4 结果对比与分析
    3.5 本章小结
4 基于TF-Bloom的敏感内容推送检测
    4.1 检测框架设计
    4.2 数据收集与处理
        4.2.1 界面控件内容获取
        4.2.2 通知栏推送内容提取
    4.3 TF-Bloom检测模型
        4.3.1 主题词抽取
        4.3.2 敏感词库构建
        4.3.3 基于词袋的文本分类
    4.4 检测实验
        4.4.1 实验数据
        4.4.2 参数设置
        4.4.3 对照实验
        4.4.4 结果对比与分析
    4.5 本章小结
5 基于C-ADB的资源过度消耗检测
    5.1 检测框架设计
    5.2 MTV模式
    5.3 Android调试桥
    5.4 C-ADB检测机制
        5.4.1 流量实时监控
        5.4.2 信任度评价指标
    5.5 检测实验
        5.5.1 实验数据
        5.5.2 参数设置
        5.5.3 结果对比与分析
    5.6 本章小结
结论
参考文献
在学研究成果
致谢

(7)基于机器学习的数据索引技术研究(论文提纲范文)

摘要
Abstract
第1章 引言
    1.1 研究背景与意义
    1.2 研究问题与思路
    1.3 研究目标与内容
    1.4 论文组织结构
第2章 研究现状
    2.1 传统数据库索引优化研究
    2.2 二级索引优化研究
    2.3 机器学习在数据库系统上的应用研究
    2.4 研究现状总结
第3章 递归提升模型索引结构
    3.1 复合主键索引模型
    3.2 递归提升模型索引结构设计方案
        3.2.1 整体结构设计
        3.2.2 模型结构划分和权重更新策略
    3.3 本章小结
第4章 两阶段二级索引模型结构
    4.1 两阶段二级索引模型结构整体设计
    4.2 第一阶段:分类过滤阶段
        4.2.1 二分类模型的设计
        4.2.2 Bloom Filter过滤器的设计
        4.2.3 分类器总结
    4.3 第二阶段:分类模型构建
        4.3.1 阈值设置
        4.3.2 唯一键值模型的构建
        4.3.3 非唯一键值模型的构建
    4.4 本章小结
第5章 模型测试与评估
    5.1 模型架构
    5.2 实验设置
        5.2.1 实验环境
        5.2.2 实验数据
        5.2.3 对比算法
        5.2.4 评价指标
    5.3 主键索引模型结构性能实验
        5.3.1 合成数据性能分析
        5.3.2 OSM地点数据性能分析
        5.3.3 综合分析
    5.4 二级索引模型结构性能实验
        5.4.1 NYC出租车数据性能分析
        5.4.2 TPC-D不同倾斜度数据性能分析
        5.4.3 高维数据性能分析
    5.5 本章小结
第6章 结束语
    6.1 论文总结
    6.2 论文展望
致谢
参考文献
作者简介

(8)区块链环境下基于信息熵的医疗数据共享激励机制(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 研究背景与意义
    1.2 研究现状
    1.3 主要研究内容
    1.4 论文组织结构
第2章 相关理论
    2.1 区块链技术
        2.1.1 基本概念
        2.1.2 区块链的发展
        2.1.3 区块链应用
        2.1.4 区块链分类
    2.2 智能合约
    2.3 Hyperledger Fabric
    2.4 本章小结
第3章 基于区块链的医疗数据共享方案
    3.1 传统医疗数据共享模式及其存在的问题
    3.2 基于区块链的数据共享方案
    3.3 面向医疗数据共享的区块结构改进
        3.3.1 Bloom Filter
        3.3.2 基于Bloom Filter的改进区块结构
    3.4 链上医疗数据交易记录的快速检索
    3.5 本章小结
第4章 区块链环境下医疗数据共享激励机制
    4.1 基于信息熵的医疗数据价值度量
        4.1.1 信息熵
        4.1.2 医疗数据价值度量
    4.2 基于Shapley值的利益分配策略
    4.3 医疗数据共享激励机制
    4.4 本章小结
第5章 实验及分析
    5.1 HyperLedger Fabric环境部署
        5.1.1 单机多节点网络部署
        5.1.2 智能合约设计
    5.2 基于区块链的医疗数据共享方案评估
    5.3 医疗数据共享激励机制实验分析
    5.4 性能测试
    5.5 安全性分析
    5.6 本章小结
结论
参考文献
致谢
个人简历、在学期间发表的学术论文及科研成果

(9)RFID系统中的一种高效持续扫描协议(论文提纲范文)

摘要
Abstract
符号说明表
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 研究内容与论文结构
        1.3.1 研究内容
        1.3.2 论文结构
    1.4 本章小结
2 相关技术和相关协议
    2.1 相关技术
        2.1.1 哈希函数
        2.1.2 时隙ALOHA协议
        2.1.3 Bloom Filter
    2.2 相关协议
        2.2.1 CU协议
        2.2.2 ACOS协议
        2.2.3 ZOE协议
    2.3 本章小结
3 OCS协议
    3.1 系统模型与问题定义
        3.1.1 系统模型
        3.1.2 问题定义
    3.2 协议设计
        3.2.1 整体流程
        3.2.2 ONV算法具体执行过程
        3.2.3 ONV算法的参数和时间开销
        3.2.4 ID收集算法的选择
    3.3 协议分析
        3.3.1 时间复杂度分析
        3.3.2 空间复杂度分析
    3.4 本章小结
4 实验与分析
    4.1 系统参数设置
    4.2 评估指标
    4.3 实验结果
    4.4 对比实验
    4.5 本章小结
结论
参考文献
致谢
作者简历及攻读硕士学位期间的科研成果

(10)面向信息中心网络的内容名字查找方法研究(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 研究背景及意义
        1.1.1 信息中心网络简介
        1.1.2 基于内容名字的路由查找
        1.1.3 国内外研究现状
    1.2 主要研究内容和难点
        1.2.1 主要研究内容
        1.2.2 研究难点
    1.3 主要研究成果和创新点
    1.4 论文组织安排
第2章 相关工作综述
    2.1 信息中心网络体系结构
        2.1.1 数据包类型
        2.1.2 数据命名规则
        2.1.3 路由查找过程
    2.2 名字查找算法
        2.2.1 布隆过滤器
        2.2.2 字符树
        2.2.3 哈希表
    2.3 学习模型介绍
        2.3.1 递归神经网络
        2.3.2 长短记忆神经网络
    2.4 本章小结
第3章 基于学习布隆过滤器的高效名字查找方法
    3.1 研究意义与挑战
    3.2 相关工作
        3.2.1 布隆过滤器和其它变型
        3.2.2 神经网络
    3.3 学习布隆过滤器查找结构概述
    3.4 学习布隆过滤器数据结构
        3.4.1 基于布隆过滤器名字查找
        3.4.2 研究问题描述
        3.4.3 查找结构分析
    3.5 误转发概率分析
    3.6 名字查找过程的算法设计
        3.6.1 名字插入算法
        3.6.2 名字查找算法
    3.7 性能评价
        3.7.1 硬件配置
        3.7.2 数据分布
        3.7.3 实验结果
    3.8 本章小结
第4章 基于深度布隆过滤器的名字查找方法
    4.1 精确名字查找的研究意义
    4.2 相关技术
        4.2.1 近似集合成员查找
        4.2.2 长短记忆神经网络
    4.3 三级名字查找结构与算法
        4.3.1 名字查找结构
        4.3.2 名字查找算法
    4.4 假阳性率分析
    4.5 性能评价
        4.5.1 实验设置
        4.5.2 实验结果
    4.6 本章小节
第5章 结论
    5.1 研究工作总结
    5.2 未来研究计划
参考文献
致谢
攻读学位期间的研究成果

四、Bloom filter的研究和应用(论文参考文献)

  • [1]面向红枣信息资源的爬虫技术研究[D]. 杨广召. 塔里木大学, 2021(08)
  • [2]云环境下基于位置服务的范围查询隐私保护机制研究[D]. 刘召曼. 山东师范大学, 2021(12)
  • [3]高性能可扩展键值存储系统研究[D]. 田成锦. 中国科学技术大学, 2021(09)
  • [4]高速网络流量测量与分析研究及其应用[D]. 张媛. 南京邮电大学, 2020(02)
  • [5]基于数据分块的文件增量同步技术研究与实现[D]. 俞快. 华南理工大学, 2020(05)
  • [6]面向Android的恶意软件检测及行为分析[D]. 石兴华. 中国人民公安大学, 2020(12)
  • [7]基于机器学习的数据索引技术研究[D]. 马露露. 东南大学, 2020(01)
  • [8]区块链环境下基于信息熵的医疗数据共享激励机制[D]. 梁小燕. 西北师范大学, 2020(01)
  • [9]RFID系统中的一种高效持续扫描协议[D]. 李东林. 大连海事大学, 2020(01)
  • [10]面向信息中心网络的内容名字查找方法研究[D]. 王倩玉. 河南科技大学, 2020(06)

标签:;  ;  ;  ;  ;  

布隆过滤器的研究与应用
下载Doc文档

猜你喜欢