一、基于压缩的全文本数据库信息检索技术的研究(论文文献综述)
石林[1](2020)在《网络Flash动画学习资源的内容结构特征与检索研究》文中指出教育信息化是提升教育教学质量的重要手段,是进行教育教学创新应用的基础条件。教育信息化离不开数字化学习资源建设。作为数字化学习资源类型之一的Flash动画是传递信息内容的重要媒体,更是一种重要的网络学习资源,其内容由文本、图形、图像、音频、视频、交互、动态效果等组成。因其强大的多媒体交互及表现能力,Flash动画被广泛应用于远程教学、精品课程网站、慕课平台等领域。网络上积累了海量的Flash动画资源,给动画需求者的检索带来了很多的干扰。学习者如何迅速精准地获取自己需要的Flash动画,是Flash动画搜索引擎需要解决的难题。目前的网络Flash动画检索一般是基于关键词、元数据特征或者网页上下文,检索准确率不理想。于是人们展开了对Flash动画内容特征的深入分析与研究。本研究的选题正是基于SWF格式的文件组织结构,对Flash动画的内容结构特征如场景结构特征、组成元素特征和画面情感特征等进行分析。论文依据Flash动画语义提取的四层框架(即元数据、组成元素、场景、语义层)分别研究了场景特征提取、组成元素特征提取、画面情感特征提取等多项关键技术。该研究的意义主要是为教育教学工作者和网络自学习者以及Flash动画爱好者提供快速、精准的Flash动画搜索服务,从而提高网络Flash动画学习资源的教育应用效率,充分发挥其教育特性。论文首先给出了网络Flash动画学习资源的定义,分析并建立了Flash动画的内容结构特征描述模型;然后构建出场景结构模型,提出场景的分割算法以及场景特征的提取过程;再后,分析并完成了组成元素特征的提取;最后建立了Flash动画的情感分类模型,利用机器学习获得低层视觉特征(主要为颜色和纹理)到高层情感语义的映射关系,从而完成Flash动画的情感分类,并分别用BP神经网络、支持向量机和卷积神经网络进行情感识别,分析不同学科、学段和教学类型的Flash动画画面情感特征的区别。论文的研究结果为最终将前期提取的场景特征、组成元素特征、情感特征存入索引数据库,建立基于内容的Flash动画检索系统,用于网络用户的Flash动画检索。基于此数据库,论文最后还通过实验,利用灰色关联法验证了Flash动画包含的各内容结构特征与学习者的学习兴趣的关联度。结果表明Flash动画中的动态效果特征与学习兴趣的关联度最高,在激发学习者兴趣、集中学习者注意力方面起着重要的作用;不同学段、不同学科的Flash动画中,对学习者学习兴趣唤起起关键作用的内容结构特征是不一样的。实验结果能够为Flash动画课件创作者在开发Flash动画课件时按照不同学段和学科进行视觉特征选择提供理论指导。基于前期研究者开发的网络动画爬取程序,本研究从网络上下载了大量Flash动画,从中筛选出教育特征明显、能辅助进行知识学习的4808个Flash动画学习资源作为本研究的样本库。参考教育理论和查阅文献,本文将这4808个样本按学科、学段来划分,并且提取的视觉场景、组成元素特征、情感特征都按照不同学段、不同学科进行分析,获得不同学段和学科的Flash动画的特征,为后期的Flash动画自动分类工作提供指导。本文的创新之处在于建立了Flash动画的内容结构特征描述模型,并从学段、学科、教学类型三个维度分析了网络Flash动画学习资源的内容结构特征;建立了场景结构模型,并提出了基于颜色直方图和边缘密度相结合的视觉场景分割算法;建立了情感分类模型,分别基于神经网络、支持向量机、卷积神经网络完成Flash动画的情感语义识别;分析了网络Flash动画学习资源的内容结构特征与学生学习兴趣的关联度。
王锐杰[2](2020)在《基于多源信息融合的科研学者画像及应用研究》文中提出本世纪以来,科技水平的进步使人类生活得到了极大改善。科技领域的创新成果层出不穷,其中形成了信息技术、智能制造、生物科学等一批高新科技产业,推动着生产力的发展和社会的变革。这高速发展的科技浪潮背后,离不开成千上万科研学者的坚守和耕耘。因此,对科研学者这一关键群体的研究,对解释科学发展水平、推动科技革新有着重要意义。随着互联网技术的不断迭代,基于个人数据模型的用户画像技术得到了快速推广,利用多维度标签化的形式,可以更加直观方便的进行用户研究和应用支持。因此,本文将结合用户画像技术,对科研学者进行画像构建和应用研究,具体研究内容包含三个方面。首先,利用互联网上采集的学术数据资源构建基础数据库,作为画像构建和应用的信息基础。而在传统针对科研学者的学术研究中,数据的来源不一、结构各异对结果有着直接的影响。因此,还需要对多源数据集进行充分地信息融合,以保证数据的数量和质量。其次,在深入了解用户画像原理后,利用统计分析和数据挖掘方法合理地设计画像模型。将画像主要内容划分为基础维度和进阶维度:基础维度中包含人口统计学维度和专业学术维度,涵盖个人属性信息和学者学术信息,并利用信息检索算法进行数据扩充;进阶维度主要表示学者的个性化特征,包含其研究兴趣和兴趣演化等。最后,从多个方面进行了画像应用研究。在基于内容和影响力的论文推荐方法中,通过考虑论文重要性和学者研究兴趣,为学者进行优质论文推荐。在学者潜在合作关系挖掘中,利用复杂网络中的链路预测方法,对网络特征和兴趣特征权重进行控制,从而选择出一种准确度较高的方案,挖掘出学者潜在合作关系。此外,还利用画像标签展示了部分学术指标的地理分布特征,并对学术合作情况进行分析,具体包含同一领域内合作、院校合作和全球化合作情况。通过数据化分析的方式,对科学研究水平的差异和科技发展的趋势进行了客观、合理的解释。
卢超[3](2020)在《学科领域中新兴研究话题的内容特征识别及其实证研究》文中进行了进一步梳理创新是国家强盛之基,是民族进步之魂。科研创新作为创新中的重要组成部分,对创新型国家的整体建设、科研成果的经济转化具有重要意义。因此,如何识别科研创新活动显得尤为重要。科研创新不是凭空产生,而有其足迹可寻。浩如烟海的学术研究里蕴藏着科研的创新,可通过追踪学术文献中的新兴话题来实现科研创新的追寻;这是管理科学与工程中知识管理领域一直关注的重点和难点问题,新兴研究话题发现研究对知识管理研究的深入具有重要的理论和现实意义。本文即围绕新兴研究话题的发现展开。在知识管理领域,传统的新兴研究话题发现的本质是利用引文网络识别研究话题,并在研究话题中筛选出处于新兴阶段的研究话题。这种研究思路具有一定合理性和优越性,但也使得学术文献的主题表达(全文本内容)和文献之间引用关系的表达(引文内容)被完全抽象,无法发挥应有的价值。随着学术文献全文数据日益丰富与自然语言处理技术的日益成熟,还原被抽象内容特征、构建内容加权的引文网络并发现新兴研究话题有了一定的研究基础。为更好地开展研究,本文首先探索哪些内容特征可用于发现研究话题,并应用这些特征发现并验证新兴研究话题。沿着识别内容特征、构建引文网络、识别研究话题、筛选新兴研究话题和验证研究结果的基本路径,本文主要工作包括以下四个方面:(1)探究学术文献的引文内容特征与引用之间的表里关系,识别可用于新兴研究话题发现的引文内容特征。为了更好地展示引文内容和引用之间的关系,本部分研究选择以H指数发表论文的施引文献及其文内的引文内容。通过对引文内容特征与被引文献学术影响力的时间变化关系的考察,研究发现,学术文献的引文内容确实对其学术影响力有很好的刻画作用,特别是在引文被提及次数、共被提及次数以及引用位置分布这三个特征上显示出极佳的效果。因此,该部分选取的相关引文内容特征可用作新兴研究话题的发现研究。(2)探究学术影响力视角下全文本内容特征与学术文献之间区分性的关系,识别可用于新兴研究话题发现的全文本内容特征。本文选取PLo S上生物科学和心理学两个学科的学术论文,分析其全文本内容特征与其学术影响力的关系。研究通过CFA框架提取了12个描述学术论文全文本的特征;通过设计零模型,将它们与标准化被引频次进行比较分析。本文研究发现,在现有的全文本内容特征描述框架下利用全文本内容特征进行新兴研究话题的发现会存在较大的干扰,无法使用这一类的内容特征进行新兴研究话题的发现。本部分的研究结果初步表明两种内容特征中,引文内容特征更适用于新兴研究话题的发现。(3)探索不同内容权重策略构建的文献耦合网络的结构形态差异。本文比较了多个全文数据提供者的全文数据的优劣势,选取PLo S中生物医学领域作为数据对象进行分析;通过联合PLo S全文数据和Wo S数据,构建了生物医学领域的文献耦合网络,并制定了11种策略(包括不加权)对网络的边进行加权。通过比对这11个耦合网络,研究发现使用引文内容等相关特征时,构建的文献耦合网络的结构形态发生了一定的改变,节点的权重分布、度分布以及节点中心度等指标均有显着的变化。(4)结合内容特征的新兴研究话题发现的实证研究。本文根据已构建的11个耦合网络,进行研究话题划分,构建新兴研究话题发现指标,发现新兴研究话题,并对研究结果进行分析和验证。研究结果显示,本文所构建的指标有利于新兴研究话题的发现;引用位置特征对发现新兴研究话题效果有明显提升;被提及次数特征在研究话题的解释中有重要价值;在本文数据集中,新兴研究话题的未来学术影响力较非新兴研究话题有一定的优势。总体而言,本文通过对新兴研究话题相关研究和理论的梳理,分析了新兴研究话题发现研究中的若干问题,并提出了利用文献内容特征帮助引文网络构建新兴研究话题的研究设想。本文通过两个方面、四个子研究实现了新兴研究话题内容特征的识别,运用内容特征构建文献耦合网络并发现新兴研究话题,对传统方法和本文所提方法的结果进行比较分析,并验证二者的差异性。本文从四个方面阐明了研究的启示:(1)内容特征用于新兴研究话题发现可提高发现的效果;(2)结合内容特征发现新兴研究话题具有一定的应用价值;(3)内容特征应用思想可运用于其他计量学研究问题;(4)运用内容特征时需要注意其有效性的问题,引入不合适的内容特征也有可能会干扰实验结果。
黄正[4](2016)在《基于Lucene的站内全文搜索引擎的设计与实现》文中认为随着因特网网络信息的极速发展,因特网为广大网络用户提供极大的言论自由,信息的随处可得给人们带来很大的便利,人们可以通过网络获得世界各地各式各样的信息。然而因特网网站上的信息是一个开放的、分布式的信息流,快速无序增长的信息对于因特网用户来说意味着信息流缺乏统一有效的管理。为了找到需要的信息,用户在因特网上花费大量的时间和精力却不得其所,信息的有效性整体随着信息量的爆增而大打折扣。因此,为了让每个用户在广阔的因特网上找寻到自己需要的信息,利用传统的全文检索原理实现了搜索引擎系统。搜索引擎能够让用户增加收集和定位信息的能力。通过发现尽可能多的网络信息,再以一定的策略收集并加以处理和管理,最终提供高效、快捷的全文搜索服务。随着因特网技术越来越成熟,开源技术的不断发展,网站建站成本也日益降低,又因其能够很好的展示各种的信息,几乎每个国家政府机构、事业、企业单位都建立了自己的门户网站。随着时间的推移,网站积累的信息越来越多,用户不能忍受花大量的时间和精力通过导航栏找寻网页信息,通用搜索引擎,比如google、百度等搜索引擎也不能满足用户搜索精准定位的需求,为了解决这个问题,这就需要在网站中建立自己的全文搜索引擎。本文首先论述论文研究背景和意义;接着简单介绍搜索引擎产生背景、发展历史、信息检索和未来的发展方向,重点详细研究决定搜索引擎性能的三个关键技术:中文分词、索引技术和检索技术;接着详细介绍全文搜索引擎需求分析、系统总体概要设计和主要模块概要设计;然后结合Lucene开发框架实现一个全文搜索引擎,实现了网络爬虫、数据解析、索引器、检索器和用户界面五个模块;最后对设计的全文搜索引擎系统部署到服务器上,然后进行功能和性能测试,并对测试结果进行总结和改进,提出了对于相关性算法的改进,显着的提高了搜索引擎的准确率,最终能够让用户通过站内全文搜索引擎立即精准找到需要的网页信息。论文最后对基于Lucene的全文搜索引擎系统的实现方法进行了总结,并对未来研究工作展望。
黄世铅[5](2015)在《浅谈桔柚产业信息检索与应用》文中进行了进一步梳理福建省南平市建阳区是我国桔柚主要种植地区,其自主选育的桔柚新品种--建阳桔柚具有产量高、品质优等特点。随着建阳区桔柚产业的不断壮大和发展,检索、应用和推广信息技术对促进桔柚产业发展,挖掘桔柚市场潜力有着十分重要的作用和意义。文章通过研究南平市建阳区桔柚产业发展现状,分析信息技术植入桔柚产业后对提升桔柚产业的影响,探索建阳桔柚产业的未来发展趋势,希望通过本次研究能够促进桔柚产业又快又好的发展。
董克[6](2014)在《数字文献资源多元深度聚合研究》文中认为图书馆是社会文化公共基础设施的重要组成部分之一,在社会文化事业发展中将起到十分重要的积极作用。无论是图书情报学的理论研究还是现实的图书馆事业,均越来越强调实现知识服务的重要性。深化图书馆知识服务能力,提升图书馆知识服务水平已经成为当前亟需解决的问题;此外,随着科学发展所累积的数字文献资源规模越来越庞大,如何高效利用这些数字文献资源也逐渐成为提升知识服务能力的重要研究命题。本文的选题“数字文献资源多元深度聚合研究”正是在这样的大背景下提出来的。本研究综合运用语义挖掘、自然语言处理、信息计量、网络结构分析等多学科交叉的方法,创新地提出数字文献资源多元深度聚合理论是衔接信息计量与信息检索的重要桥梁,并在此基础上构建了数字文献资源多元深度聚合理论体系,从多个方面论述了其多元性特征和深度特性;进一步明确了多元深度聚合的技术流程和方法,通过两类典型的数字文献资源特征项关联网络论证了该方法体系的实用性和可操作性。本研究力求从新的途径来实现数字文献资源语义揭示与深度聚合,改进图书馆服务方式,提升服务效率和水平,为数字图书馆的建设和多学科交叉的方法体系提供有益的探索成果。本文坚持“理论结合实践,用实践验证理论”的思想,从理论基础研究,理论体系研究,核心技术流程,典型聚合方式实证等多角度系统化进行数字文献资源多元深度聚合研究。论文第0章引言论述了选题背景、研究意义、国内外研究现状、技术路线与目标,第六章为研究总结和展望;其余核心部分包括如下五章:第一章是数字文献资源多元深度聚合的理论基础研究,目的在于明确问题来源和理论定位。首先对数字文献资源的概念和构成要素进行分析;进一步阐述了作为聚合前阶段的数字资源整合的主要内容以及与聚合的关联;论述了当前研究中与数字资源聚合最相关的领域-信息检索的基本思想及其与聚合的关联;分析了信息计量学中的集中与离散分布现象,说明这是能够实施聚合的基础,在此基础上将数字文献资源多元深度聚合定位为衔接信息计量学和信息检索的纽带。第二章是数字文献资源多元深度聚合的内涵和理论框架研究。多元深度聚合是用户和以资源集合为表现形式的知识世界的交互过程;数字文献多元深度聚合的理论模型包括聚合的对象类型、关联网络、测度方法和聚合目的等四个要素,这些要素所具有的多元性特征反映了数字文献资源聚合的多元性。从基于元数据的聚合、基于计量的聚合到基于语义的聚合是一个不断深化的过程,其中包含了多粒度的层次,不同对象的聚合重点也是体现聚合深度特性的一个重要内容。理论框架的建立为进一步明确技术流程提供了基础。第三章是数字文献资源多元深度聚合的技术体系研究。首先构建了多元深度聚合的通用流程框架,进一步将之归纳为三个核心技术问题,即聚合对象的重要性评价、资源聚合的获取、资源聚合的语义揭示。对比了局部重要性和全局重要性指标,分析了全局重要性评价的优点。针对基于节点和基于聚类的两类现有方法,创新地提出了相对重要性聚合方法。归纳了从词频,共现再到主题模型的语义发现路径,总结了主题语义挖掘的灵活性和可操作性。第四章是引文网络中核心资源多元深度聚合的实现。引文网络是特征项关联网络中有向-二值网络最典型的代表。本章系统分析了传统引文网络中的重要性评价单一、结构分析粒度过大的问题,并提出改进指标和方法,将多元深度聚合技术流程应用于XML研究论文的引文网络中,发现相对值聚合方法能够揭示网络中最具层次丰富性的核心资源聚合。结合主题语义分析,能够实现聚合中所包含语义内容的深度揭示。基于引文网络的资源深度聚合结果是本文所构建的理论和方法体系有效性的重要体现。第五章是作者知识关联网络多元深度聚合实现。作者关联网络的类型最丰富,明确作者复合关联网络的聚合流程也就解决了其他多种特征项的聚合问题。本章详细描述了作者数据的着录问题和清洗策略,构建了作者合作、互引、共被引、基于文献的耦合、基于关键词的耦合和基于出版物的耦合等六种关联网络,对网络间的关联性进行分析,为各种共现网络分析方法的结合使用提供更多的支持。利用加入作者的语义主题模型挖掘出作者的主题语义分布,发现作者合作网络、共被引网络、基于文献的耦合网络的聚合均有其独特之处,而互引、基于关键词的耦合、基于出版物的耦合则有许多使用上的限制条件。基于作者关联网络的资源深度聚合能够为满足用户知识需求提供更多角度的支持。
向波[7](2012)在《基于数据压缩的信息检索技术的研究》文中认为概述了数据压缩技术的概念、分类及特点,介绍了数据压缩在信息检索中的优点,从多媒体检索、全文检索、图像检索、电子出版检索等角度探讨了数据压缩在当今信息检索技术的应用现状,并展望了其未来发展趋势。
郭永明[8](2010)在《XML文档交互式信息检索技术研究》文中研究指明XML作为互联网上信息描述和数据交换事实上的标准,已经被业界广泛采用。随着Web上大量XML文档的涌现,如何对XML文档进行有效的检索成为了一个具有实际应用价值的重要研究课题。由于XML文档是一种半结构化的数据,具有明显的结构标记,可表达一定的语义信息。因此,可以利用XML文档所含有的结构信息,改进传统的基于关键词的信息检索,从而提供更加全面准确的检索结果。但是,由于XML文档结构的复杂性、异构性以及可扩展性,使得如何在信息检索的过程中有效利用XML文档的结构信息成为了XML信息检索所面临的首个挑战。源于数据库的XML查询语言可以表达复杂的信息需求,但是要形成有效的结构化查询对于最终用户来说是非常困难的事情。因为用户可能并不熟悉文档结构,所以很难提出准确的“内容+结构”的结构化查询。基于关键词的XML信息检索依然面临着用户需求表达模糊的问题。XML信息检索实际上也是一个交互式的检索过程,相关反馈、检索结果聚类等交互式信息检索技术在XML信息检索中依然存在,而且有其独特的特点。例如,如何利用关键词检索的简单性迅速返回查询结果,然后根据用户的相关反馈等信息,系统自动形成或帮助用户形成内容+结构查询,以清晰地表达用户信息需求;如何根据XML文档的内容和结构特征聚类XML信息检索结果,以帮助用户迅速找到满足其需求的信息。因此,如何利用交互式信息检索技术改进XML信息检索的准确性是XML信息检索所面临的又一个挑战。本文从XML信息检索所面临的这两个挑战入手展开研究,以XML文档交互式信息检索技术作为研究课题,主要研究两个问题:第一个问题是如何有效地结合结构信息和内容信息实现XML信息检索,主要包括XML节点编码、索引、检索模型和查询处理算法;第二个问题是如何进一步解决XML信息检索中同样存在着的用户信息需求表达模糊的问题,即研究相关反馈、检索结果聚类等交互式XML信息检索的一些关键技术。本文所做的主要工作和贡献包括以下几个部分:1) XML节点编码模式及索引结构的研究。提出了一种新颖有效的节点编码模式,详细论述了该节点编码模式的定义和性质。在这个新的节点编码模式的基础上,构建了一种有效地集成结构索引和文本内容索引的混合索引结构HID。该混合索引结构HID能够有效地支持XML信息检索,包括关键词检索和结构化查询。对比实验结果表明本文所提出的新的混合索引结构HID在索引构建时间和空间消耗上具有较佳的性能。2)XML信息检索模型及查询处理算法的研究。提出了一种用于XML信息检索的模糊结构向量空间模型。通过将文本内容特征词的概念扩展为结构化特征词,对向量空间模型进行扩展,使其能够包含结构信息的匹配和度量;同时将特征词在文档中出现的概念由一个精确的集合隶属关系,扩展为一个模糊集合隶属度的概念,以实现内容和结构信息的整体匹配,而且能够区别结构的匹配程度,建模不同程度的匹配为不同程度的重要性。该检索模型可统一建模关键词查询、标记关键词查询和路径关键词查询。最后给出了有效实现检索模型相应的查询处理算法,并实现了一个XML信息检索原型系统。对比实验结果表明本文所构建的XML信息检索原型系统具有较高的检索准确率和较快的查询响应时间。3)XML信息检索相关反馈技术研究。提出了一种新的结合内容和结构的XML信息检索结构化相关反馈方法,能够有效地结合内容和结构特征等多种证据源,实现将初始的关键词查询扩展为内容+结构的结构化查询。该结构化相关反馈方法通过内容查询词扩展、查询词路径扩展和检索元素粒度相关反馈三种算法扩展初始的关键词查询。内容查询词的扩展和重新权重综合考虑了出现特征词的相关公共元素的数目、特征词在相关元素中的重要性、特征词邻接距离和结构语义等多种证据。实验结果表明本文所提出的结构化查询相关反馈方法可以有效地改进XML信息检索的准确率。4) XML信息:检索结果聚类技术研究。针对XML文档的特点,提出了一种新的结合内容和结构特征的XML文档特征建模方法,能够有效地度量XML信息检索结果文档片断间的相似性。将XML信息检索结果聚类问题建模为k-中心聚类问题,通过改进解决k-中心聚类问题的贪心算法,提出了一种新的XML信息检索结果快速聚类算法。实验结果表明基于本文所提出的XML文档特征建模方法和新的XML信息检索结果快速聚类算法实现了较好的聚类质量和较快的聚类速度。
刘佳[9](2008)在《中文搜索引擎的设计与实现》文中提出近年来随着互联网的发展以及现代的、廉价的图形用户界面和大容量存储设备的出现,信息检索领域已经发生了巨大的变化。没有人能够准确地知道在网络上到底有多少网页,大多数的估算都认为这个数字超出了100亿。要利用偌大数量的数据,目前唯一的方式,就是利用搜索引擎自动地组织这些数据。搜索引擎是对网络上的信息项进行表示、存储、组织和存取。利用搜索引擎能够查找数量庞大的网络信息,并可以迅速查到未知信息。搜索引擎是互联网信息检索技术的核心。目前,Internet上广泛使用的包括中文在内的搜索引擎已不下十几种,比如以Google为首的通用搜索引擎,和各类以行业来划分的垂直式的网络搜索工具。然而,中文搜索引擎与国外的同类产品相比却还存在着很多问题,如覆盖率低、查准率不高、检索精度差、更新速度慢、无法控制网络信息的动态变化、对信息内容难于控制和管理等。针对中文搜索引擎存在的问题,本文提出了对中文搜索引擎从系统检索对象和自身系统的设计结构进行优化等对策,尝试解决其中的查准率和检索精度的问题。文中详细地研究了通用型搜索引擎的基本结构和基本技术,并且以自行设计的Sirgin搜索引擎为基础,描述了中文搜索引擎的设计方法,其中重点阐述了搜索引擎内部数据结构的实现方式。在此基础上文章还给出了Sirgin搜索引擎所特有的CastClosed网页结构分析技术,和SpRank排序技术的实现方案和算法。
韩忠明[10](2006)在《基于XML的数据查询和信息检索集成化系统研究》文中进行了进一步梳理XML已经成为互联网上数据表示和数据交换的标准。随着XML文档数据量和文档数量的快速增长,随之而来也产生了很多问题,其中很重要的一个问题就是如何有效的查询这些文档,也就是结构查询,亦称为数据查询。而有效的数据查询又涉及到文档的存储机制和索引结构等问题,这些问题已经引起了学术界和工业界的广泛研究热情,学者们在这些问题上作了大量的研究工作。另外一个问题是基于XML文档的信息检索,这也是一个新产生的研究问题。面对巨大的网络信息,如何才能为用户检索出真正有效的信息是一个非常具有挑战性的研究问题。现存的大部分搜索引擎是基于关键字搜索的,页面排序算法采用页面的超链接或页面内容的文本特性。如果页面采用XML来编写,那么就需要合理的利用XML的结构特性、语义特性以及其它的相关性质,来提高检索的效果和效率。这就促使对XML文档进行信息检索变成了一个非常有意义的问题。XML上的信息检索正在开始受到学术界的高度注意。对XML进行结构查询和信息检索是两个既具有相关性又具有不同特性的研究问题,如何集成这两个研究问题就更加具有研究的意义。本文的主要研究对象就是如何改进XML的结构查询以及信息检索的相关理论与技术,以便于它们更好地集成在一起,从而可以更加优化地执行用户的查询需求。针对这个研究目标,本文做了大量的研究工作。首先,本文在XQuery语言的基础上扩充了全文本检索功能,为了与原来的XQuery区分,扩充后的语言称为XQuery+(XQuery Plus)。XQuery+语言有如下特点:在XQuery+语言里,扩充了XQuery的检索功能,增加了一个为检索服务的谓词;在XQuery+中还支持检索词的布尔操作。本文的主要研究任务之一是如何有效地处理XML的结构查询。作为处理XML结构查询的基础,XML文档的节点编码模式和索引结构是研究的核心问题。本文提出了一个新颖有效的节点编号模式,详细地讨论了节点编号模式的定义和性质。节点编号模式对XML文档索引和查询提供了基础,一个有效的节点编号模式应该可以包含结构信息,易于支持索引和查询。从本文给出的节点编号定义和性质分析,我们知道编号模式可以满足这些基本的要求。本文在这个节点编号模式的基础上建立了一个HiD索引结构,HiD索引结构有效地集成了结构索引和值索引两个部分。通过大量有竞争性的实验分析表明,采用HiD索引机制方法可以在索引的构建时间和空间消耗上得到很好的平衡和性能表现。本文研究的第三个主要任务是基于XML的信息检索。XML信息检索的核心问题是如何进行相关度打分。本文提出了一种新颖的、有效的对基于XML信息检索查询进行相关度打分的算法,该算法同时考虑了结构相关度和语义相关度。结构相关度主要利用了检索词的距离概念;语义相关度的计算则采用了节点相关度语义权重系数的方法。为了合理地评价和比较本文提出的方法以及其他研究者的方法之间的效果差异,本文还做了大量的实验。从所作的试验结果中可以看出,在合理应用本文的方法下,检索的查全率和查准率都可以得到显着的提高,检索结果非常合乎用户的需求。基于对结构化查询和信息检索的相关研究成果,本文提出了处理XML结构化查询和信息检索的有效算法与机制。这些算法分别处理了XQuery和XQuery+查询。虽然这些算法都基于HiD索引结构之上,但是这些算法的特点不同,处理对象不同。对于XQuery查询来说,本文给出的两个算法分别处理单路径查询和具有两个分支的树模式查询。基于这两个算法,可以方便地构造出处理复杂查询的算法。而对于XQuery+查询的处理,本文也给出两个不同处理算法。算法XQuery+G-1采用了on-the-fly的查询和打分机制,而算法XQuery+G-2则简单地采用了查询后计算相关度的技术。通过实验,本文还详细地分析了各个算法的性能和效果,为了合理的评估相关算法的性能,试验中对不同的算法还选用了不同的、可比较的、合理的比较算法。实验结果表明无论是处理结构化查询还是检索查询,本文提出的对应算法都表现出较高的执行效率,可以有效地提高查询与检索速度和效果。课题的最后一个研究任务是在相关研究成果的基础上设计开发一个原型系统。本文详细地讨论了原型系统的设计目标、分析与设计过程,确定了原型系统的架构。经过分析原型系统的系统流程,得出各个模块的功能与实现过程。最后,我们采用java语言在Qizx/open的基础上实现了原型系统。从原型系统的体系架构和模块功能可以看出,原型系统基本可以满足XML文档查询和检索的需求。原型系统的特色在于:(1)开放和层次化的结构,这样可以方便地支持和扩充新的功能和算法;(2)原型系统还实现了两种过滤机制和两种结果表示方法,这些都扩展了原型系统的性能和表现力,为将来做成熟的系统打下很好的基础。
二、基于压缩的全文本数据库信息检索技术的研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于压缩的全文本数据库信息检索技术的研究(论文提纲范文)
(1)网络Flash动画学习资源的内容结构特征与检索研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 研究现状 |
1.3 研究目的、内容、方法和创新点 |
1.3.1 研究目的 |
1.3.2 研究内容 |
1.3.3 研究方法 |
1.3.4 创新点 |
1.4 论文内容安排 |
第二章 理论基础 |
2.1 教育信息化与数字化学习资源建设 |
2.2 多媒体信息内容管理理论 |
2.3 学习资源的语义分析 |
2.4 元数据描述 |
2.5 基于内容的信息检索技术 |
第三章 网络Flash动画学习资源概述与内容结构特征描述模型 |
3.1 网络Flash动画学习资源分析 |
3.1.1 网络Flash动画学习资源的特点 |
3.1.2 网络Flash动画学习资源的分类 |
3.1.3 网络Flash动画在互联网中的存在形式 |
3.1.4 网络Flash动画学习资源搜索 |
3.2 网络Flash动画在教育教学中的应用分析 |
3.2.1 网络Flash动画在教育教学应用中的优势 |
3.2.2 网络Flash动画在教育教学应用中的属性分析 |
3.3 网络Flash动画学习资源样本集分析 |
3.4 网络Flash动画的内容结构特征描述模型 |
第四章 网络Flash动画学习资源的场景特征分析 |
4.1 网络Flash动画的文件结构 |
4.2 网络Flash动画的场景结构模型 |
4.3 逻辑场景分割 |
4.3.1 逻辑场景 |
4.3.2 逻辑场景分割 |
4.4 视觉场景分割 |
4.4.1 视觉场景 |
4.4.2 视觉场景分割 |
4.5 场景分割实验与场景特征分析 |
第五章 网络Flash动画学习资源的组成元素特征分析 |
5.1 组成元素特征概述 |
5.2 静态视觉特征提取 |
5.2.1 静态视觉特征定义方式 |
5.2.2 静态视觉特征提取方法 |
5.2.3 静态视觉特征分析 |
5.3 动态效果提取 |
5.3.1 动态效果定义方式 |
5.3.2 动态效果提取方法 |
5.3.3 动态效果分析 |
5.4 交互特征提取 |
5.4.1 交互方式与交互特征 |
5.4.2 交互定义方式 |
5.4.3 交互特征提取 |
5.4.4 交互特征分析 |
第六章 网络Flash动画学习资源的画面情感特征分析 |
6.1 多媒体画面情感研究现状 |
6.2 多媒体画面情感描述模型 |
6.2.1 情感分类模型 |
6.2.2 画面特征提取 |
6.3 网络Flash动画学习资源的画面情感识别 |
6.3.1 视觉特征数据预处理 |
6.3.2 情感特征数据获取 |
6.3.3 基于BP神经网络的情感识别 |
6.3.4 基于SVM的学习过程情感识别 |
6.3.5 基于CNN的情感识别 |
6.4 实验结果综合分析 |
6.5 小结 |
第七章 基于内容结构的网络Flash动画学习资源检索系统 |
7.1 检索系统研究现状 |
7.2 检索系统设计 |
7.2.1 系统需求分析 |
7.2.2 功能模块设计 |
7.2.3 数据库设计 |
7.3 检索系统实现 |
7.3.1 环境要求 |
7.3.2 模块实现 |
7.3.3 检索界面 |
7.3.4 系统测试 |
7.4 检索系统的应用 |
7.4.1 系统面向对象 |
7.4.2 系统应用案例 |
7.4.3 案例分析 |
第八章 Flash动画内容结构特征与学习兴趣关联度分析 |
8.1 实验设计 |
8.2 实验平台开发 |
8.3 实验实施过程 |
8.4 实验分析 |
第九章 总结与展望 |
9.1 论文工作总结 |
9.2 工作展望 |
注释 |
参考文献 |
图索引 |
表索引 |
附录 |
攻读博士学位期间的学术成果 |
谢辞 |
(2)基于多源信息融合的科研学者画像及应用研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 科研学者画像的国内外研究现状 |
1.3 本文的主要内容 |
1.4 本文的创新点 |
1.5 本文的结构安排 |
第二章 画像构建及应用的相关技术 |
2.1 数据采集和预处理技术 |
2.1.1 Scrapy-Redis分布式采集 |
2.1.2 正则表达式 |
2.1.3 Kafka数据传输 |
2.2 数据挖掘相关方法 |
2.2.1 分词技术 |
2.2.2 TF-IDF特征提取 |
2.2.3 聚类算法 |
2.2.4 条件随机场模型 |
2.3 用户画像概念 |
2.3.1 用户画像的维度构建 |
2.3.2 科研学者画像的维度 |
2.4 复杂网络理论 |
2.4.1 度和度分布 |
2.4.2 聚类系数 |
2.4.3 平均路径长度和中心性指标 |
2.4.4 PageRank算法 |
2.4.5 链路预测 |
2.5 本章小结 |
第三章 科研学者画像的构建 |
3.1 引言 |
3.2 画像模型设计 |
3.2.1 基本模型 |
3.2.2 数据获取和信息融合 |
3.3 画像的基本维度构建 |
3.3.1 个人信息维度构建 |
3.3.2 专业学术维度构建 |
3.4 画像的进阶维度构建 |
3.4.1 兴趣维度的快速表征方法 |
3.4.2 基于时间演变的兴趣发现方法 |
3.5 画像可视化 |
3.5.1 画像信息标签 |
3.5.2 画像内容的可视化展示 |
3.6 本章小结 |
第四章 科研学者画像的应用研究 |
4.1 基于画像内容的个性化推荐 |
4.1.1 基于内容和影响力的论文推荐 |
4.1.2 实验结果分析 |
4.1.3 结论 |
4.2 基于画像内容的合作关系挖掘 |
4.2.1 基于结构的学者合作关系挖掘 |
4.2.2 基于结构和兴趣的学者合作关系挖掘 |
4.2.3 实验结果分析 |
4.3 学者画像的宏观合作分析 |
4.3.1 领域内的学术合作分析 |
4.3.2 机构间的学术合作分析 |
4.3.3 全球化的学术合作分析 |
4.4 本章小结 |
第五章 全文总结及展望 |
5.1 全文总结 |
5.2 后续工作展望 |
致谢 |
参考文献 |
附录 |
攻读硕士学位期间取得的成果 |
(3)学科领域中新兴研究话题的内容特征识别及其实证研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景 |
1.1.1 新兴研究话题发现的理论与实践 |
1.1.2 全文计量分析研究 |
1.2 研究意义 |
1.2.1 理论意义 |
1.2.2 实践意义 |
1.3 概念界定 |
1.4 研究综述 |
1.4.1 新兴研究话题发现研究 |
1.4.2 学术文献全文计量分析研究 |
1.4.3 研究现状总结 |
1.5 总体研究框架 |
1.5.1 研究问题的解构 |
1.5.2 研究脉络 |
1.5.3 技术路线 |
1.5.4 研究方法 |
1.6 研究的创新点 |
1.7 论文的章节安排 |
2 相关概念与理论基础 |
2.1 研究话题的属性、内容特征及周期性 |
2.1.1 研究话题的基本属性 |
2.1.2 研究话题的内容特征 |
2.1.3 研究话题周期性发展的理论基础——科学变革理论 |
2.1.4 研究话题发展的周期性 |
2.2 新兴研究话题及其相关概念 |
2.2.1 新兴研究话题 |
2.2.2 研究前沿 |
2.2.3 热门研究话题 |
2.2.4 概念辨析 |
2.3 复杂网络研究的理论与方法 |
2.3.1 复杂网络的网络属性 |
2.3.2 复杂网络的基本模型 |
2.3.3 引文网络模型 |
2.3.4 社区发现 |
2.4 本章小结 |
3 用于新兴研究话题发现的引文内容特征识别研究 |
3.1 数据与方法 |
3.1.1 实验数据 |
3.1.2 实验数据采集 |
3.1.3 引文内容特征 |
3.1.4 实验方法 |
3.2 实验结果 |
3.2.1 引用频次和引文被提及次数 |
3.2.2 引用位置 |
3.2.3 引文共被提及 |
3.2.4 引文话题相似度 |
3.3 讨论 |
3.4 本章小结 |
4 用于新兴研究话题发现的全文本内容特征识别研究 |
4.1 数据与方法 |
4.1.1 实验流程 |
4.1.2 实验数据 |
4.1.3 实验方法 |
4.2 实验结果 |
4.3 讨论 |
4.3.1 语言复杂度特征与学术影响力 |
4.3.2 统计显着性与实际显着性 |
4.4 本章小结 |
5 引文内容加权的文献耦合网络构建 |
5.1 数据与方法 |
5.1.1 实验数据 |
5.1.2 实验方法 |
5.1.3 实验流程 |
5.1.4 实验分析指标 |
5.2 实验结果 |
5.2.1 网络大小 |
5.2.2 网络节点度分布 |
5.3 本章小结 |
6 新兴研究话题发现的实证研究 |
6.1 数据与方法 |
6.1.1 实验数据 |
6.1.2 实验方法 |
6.2 实验结果 |
6.2.1 预实验 |
6.2.2 结果分析 |
6.2.3 实验结果评价 |
6.3 本章小结 |
7 结论 |
7.1 研究结论梳理 |
7.2 研究启示 |
7.3 研究展望 |
致谢 |
参考文献 |
附录 |
附录 A:学术文献全文本内容特征及其学术影响力回归模型结果 |
附录 B:PLo S期刊文献全文数据抽取样例 |
附录 C:新兴研究话题抽取结果数据 |
附录 D:攻读博士期间相关研究和成果 |
(4)基于Lucene的站内全文搜索引擎的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 主要工作 |
1.3 论文结构 |
第二章 全文搜索引擎概述 |
2.1 历史与国内外现况 |
2.2 搜索引擎分类和发展方向 |
2.3 信息检索 |
2.4 关键技术 |
2.4.1 中文分词 |
2.4.2 全文索引技术 |
2.4.3 全文检索技术 |
2.5 本章小结 |
第三章 需求分析和概要设计 |
3.1 需求分析 |
3.1.1 系统目标 |
3.1.2 功能需求 |
3.2 系统用例分析 |
3.3 概要设计 |
3.3.1 系统总体设计 |
3.3.2 搜索引擎设计 |
3.3.3 各子模块设计 |
3.4 本章小结 |
第四章 系统详细设计与实现 |
4.1 系统开发环境搭建与系统配置 |
4.1.1 开发环境 |
4.1.2 Nutch介绍 |
4.1.3 Lucene介绍 |
4.1.4 系统配置 |
4.2 系统详细设计 |
4.3 网络爬虫模块 |
4.3.1 配置爬虫 |
4.3.2 网页数据库数据结构 |
4.3.3 网络爬虫流程 |
4.4 数据解析模块 |
4.4.1 网页信息抽取 |
4.4.2 中文分词 |
4.5 索引模块 |
4.5.1 Lucene索引结构 |
4.5.2 索引实现 |
4.5.3 核心代码实现 |
4.6 检索模块 |
4.6.1 检索流程 |
4.6.2 代码实现 |
4.7 LUCENE相关性算法及其改进 |
4.7.1 Lucene相关性算法 |
4.7.2 相关性算法改进 |
4.8 用户界面模块 |
4.8.1 数据结构 |
4.8.2 实现代码 |
4.9 本章小结 |
第五章 系统测试和优化 |
5.1 全文本搜索引擎评价标准 |
5.2 系统功能测试和性能测试 |
5.2.1 系统功能测试 |
5.2.2 系统性能测试 |
5.3 系统不足和优化 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 论文总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读硕士期间研发成果 |
研发成果 |
(5)浅谈桔柚产业信息检索与应用(论文提纲范文)
1 建阳区桔柚产业发展现状分析 |
1.1 政策扶持力度不断加大 |
1.2 桔柚示范区建设取得成效 |
1.3 桔柚市场不断得到拓展 |
2 桔柚产业信息检索技术 |
2.1 文本检索和多媒体检索 |
2.2 多媒体信息检索的关键技术 |
3 信息检索技术在建阳桔柚产业中的应用趋势分析 |
(6)数字文献资源多元深度聚合研究(论文提纲范文)
论文创新点 |
目录 |
图表索引 |
摘要 |
Abstract |
0 引言 |
0.1 选题背景与研究意义 |
0.1.1 选题背景 |
0.1.2 研究意义 |
0.2 国内外研究现状分析 |
0.2.1 国内研究现状 |
0.2.2 国外研究现状 |
0.2.3 国内外研究述评 |
0.3 研究目标与思路 |
0.3.1 研究目标 |
0.3.2 研究对象与数据采集 |
0.3.3 研究思路与内容框架 |
0.3.4 研究方法与工具 |
0.4 本文创新之处 |
1 数字文献资源多元深度聚合的理论基础研究 |
1.1 数字文献资源概述 |
1.1.1 数字文献资源的概念和特点 |
1.1.2 数字文献资源的构成要素 |
1.2 数字资源整合 |
1.2.1 数字资源整合的概念 |
1.2.2 数字资源整合的模式 |
1.2.3 资源聚合与资源整合的关系 |
1.3 信息搜寻与检索 |
1.3.1 用户信息行为 |
1.3.2 信息搜寻和检索模型 |
1.3.3 信息搜寻和检索与资源聚合的关系 |
1.4 信息计量学中的集中与离散分布 |
1.4.1 幂律形式的集中与离散分布现象 |
1.4.2 集中与离散分布和资源聚合的关系 |
1.5 数字文献资源多元深度聚合的理论定位 |
1.6 本章小结 |
2 数字文献资源多元深度聚合理论体系模型与特性 |
2.1 数字文献资源多元深度聚合理论模型 |
2.1.1 多元深度聚合的概念认知 |
2.1.2 数字文献资源多元深度聚合模型 |
2.2 数字文献资源聚合的多元性 |
2.2.1 对象类型的多元性 |
2.2.2 关联网络的多元性 |
2.2.3 测度层次的多元性 |
2.2.4 目标结构的多元性 |
2.3 数字文献资源多元聚合的深度特性 |
2.3.1 多元聚合的深化过程 |
2.3.2 不同对象的聚合重点和挖掘深度 |
2.4 本章小结 |
3 数字文献资源多元深度聚合技术与方法研究 |
3.1 数字文献资源多元深度聚合的流程框架 |
3.2 聚合对象的重要性评价 |
3.2.1 局部视角的重要性指标 |
3.2.2 全局视角的重要性指标 |
3.2.3 各类重要性指标的比较 |
3.3 资源聚合挖掘的方法 |
3.3.1 以资源节点为中心的聚合 |
3.3.2 以聚类为中心的聚合 |
3.3.3 以相对重要性为中心的聚合 |
3.4 资源聚合的语义分析方法 |
3.4.1 基于词频的语义分析 |
3.4.2 基于共词的语义分析 |
3.4.3 基于主题模型的语义分析 |
3.5 本章小结 |
4 引文网络中资源多元深度聚合实证研究 |
4.1 引文分析概述 |
4.1.1 引文分析的基本概念 |
4.1.2 局部引文分析 |
4.1.3 全局引文网络分析 |
4.2 基于遍历值的重要性计算 |
4.2.1 遍历权重的特点 |
4.2.2 遍历计数计算方法 |
4.2.3 遍历权重转化 |
4.3 基于LDA主题模型的语义分析 |
4.3.1 LDA主题模型解析 |
4.3.2 试验对象的语义主题分析 |
4.3.3 文献聚合的语义主题获取 |
4.4 基于相对值的资源语义聚合 |
4.4.1 引文数据清洗与统计描述 |
4.4.2 基于阈值的资源聚合 |
4.4.3 基于论文重要性的相对值聚合 |
4.4.4 基于引用关系重要性的相对值聚合 |
4.4.5 整体趋势分析与聚合结果对比 |
4.5 本章小结 |
5 作者知识关联网络中资源多元深度聚合实证研究 |
5.1 作者知识关联网络及其语义内涵 |
5.1.1 作者知识关联网络的类型 |
5.1.2 关联网络数据的抽取 |
5.1.3 网络结构数据存储模型 |
5.1.4 作者知识关联网络的语义内涵 |
5.2 作者主题语义挖掘 |
5.2.1 作者名称数据清洗与规范 |
5.2.2 加入作者的主题模型 |
5.2.3 作者主题语义挖掘结果 |
5.2.4 作者聚合的语义主题获取 |
5.3 作者关联网络的相关性 |
5.3.1 关系相关性测度方法 |
5.3.2 相关性分析结果 |
5.4 作者关联网络的资源语义聚合 |
5.4.1 网络中作者重要性计算 |
5.4.2 基于相对值的作者语义聚合 |
5.4.3 作者关联网络语义聚合对比 |
5.5 本章小结 |
6 结语 |
6.1 研究总结 |
6.2 不足与展望 |
参考文献 |
附录1 主题模型分析结果 |
附录2 作者主题模型分析结果 |
附录3 引文网络相对重要性聚合结果 |
附录4 380名作者的加权Pagerank计算结果 |
攻读博士学位期间科研及获奖情况 |
致谢 |
(7)基于数据压缩的信息检索技术的研究(论文提纲范文)
0 引言 |
1 数据压缩技术的分类及特点 |
2 数据压缩技术在信息检索中的优点 |
3 数据压缩在信息检索技术中的应用 |
4 结束语 |
(8)XML文档交互式信息检索技术研究(论文提纲范文)
摘要 |
Abstract |
目录 |
第一章 绪论 |
1.1 研究背景 |
1.2 相关研究 |
1.2.1 支持全文本检索的XML查询语言 |
1.2.2 XML数据上的关键词查询 |
1.2.3 面向内容的XML文档检索 |
1.2.4 内容+结构的XML文档检索 |
1.3 研究内容 |
1.4 本文结构 |
第二章 XML节点编码模式与索引结构 |
2.1 XML文档模型 |
2.2 节点编码模式 |
2.2.1 基于范围的节点编码方法 |
2.2.2 基于前辍的节点编码方法 |
2.2.3 基于路径摘要和杜威编码的节点编码模式 |
2.3 数据索引结构 |
2.3.1 文本内容索引 |
2.3.2 元素标记索引 |
2.3.3 路径摘要索引 |
2.4 实验评价 |
2.4.1 实验设置 |
2.4.2 结果分析 |
2.5 小结 |
第三章 相关性打分模型及查询处理算法 |
3.1 引言 |
3.2 模糊结构向量空间模型 |
3.2.1 文档描述 |
3.2.2 查询表示 |
3.2.3 返回结果文档片断 |
3.2.4 结构化特征词出现的模糊度量 |
3.2.5 结构化特征词的权重计算 |
3.2.6 文档片断和查询的相似性 |
3.3 XML信息检索查询处理算法 |
3.3.1 简单关键词查询处理算法 |
3.3.2 路径关键词查询处理算法 |
3.4 实验评价 |
3.4.1 实验环境设置 |
3.4.2 实验评价方法 |
3.4.3 实验结果分析 |
3.5 小结 |
第四章 结合内容和结构的XML信息检索相关反馈 |
4.1 引言 |
4.2 相关工作 |
4.2.1 向量空间模型中的相关反馈技术 |
4.2.2 概率模型中的相关反馈技术 |
4.2.3 XML信息检索中的相关反馈技术 |
4.3 结合内容:和结构的XML信息检索相关反馈 |
4.3.1 内容查询词的扩展和重新权重 |
4.3.2 结构化查询扩展 |
4.3.3 扩展关键词查询为内容+结构查询 |
4.4 实验评价 |
4.4.1 实验环境设置 |
4.4.2 实验评价方法 |
4.4.3 实验结果及分析 |
4.5 小结 |
第五章 基于内容和结构的XML信息检索结果聚类 |
5.1 引言 |
5.2 相关工作 |
5.2.1 查询结果聚类技术 |
5.2.2 XML文档聚类技术 |
5.3 基于FVSM模型的XML信息检索结果聚类 |
5.3.1 问题定义 |
5.3.2 特征建模 |
5.3.3 距离度量 |
5.3.4 解决k-中心聚类问题的贪心算法 |
5.3.5 改进的k-中心聚类算法R-GreedKcenter |
5.4 实验评价 |
5.4.1 实验设置 |
5.4.2 结果分析 |
5.5 小结 |
第六章 结论与展望 |
6.1 本文工作总结 |
6.2 未来工作展望 |
参考文献 |
致谢 |
读博期间所参加的科研项目 |
读博期间发表和录用的论文 |
(9)中文搜索引擎的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
目录 |
第1章 概述 |
1.1 课题背景及意义 |
1.2 国内外发展现状 |
1.3 课题的目标与主要工作 |
1.3.1 本课题的主要目标 |
1.3.2 本课题的主要工作 |
1.3.3 创新之处 |
1.4 论文的章节安排 |
第2章 搜索引擎的工作原理及Sirgin的体系结构设计 |
2.1 搜索引擎的基本概念 |
2.1.1 用户任务 |
2.1.2 文档逻辑 |
2.2 基本要求 |
2.3 工作流程 |
2.3.1 网页搜集 |
2.3.2 预处理 |
2.3.3 查询服务 |
2.4 Sirgin的体系结构设计 |
2.5 本章小结 |
第3章 Sirgtn的Web信息的搜集方式 |
3.1 网页搜集 |
3.2 多道搜集线程并行工作 |
3.3 避免网页重复搜集 |
3.4 利用蜘蛛搜集重要网页 |
3.5 本章小结 |
第4章 Sirgin中的网页智能解析技术 |
4.1 预处理的系统结构 |
4.2 网页滤波 |
4.3 网页消重 |
4.4 中文分词 |
4.5 建立倒排文件 |
4.6 文本的压缩 |
4.7 网页库索引库 |
4.8 本章小结 |
第5章 Sirgin的内部索引构建方式 |
5.1 文本搜索与检索 |
5.1.1 查询模式 |
5.1.2 相似度测量 |
5.2 索引与查询评价 |
5.2.1 基本倒排文档 |
5.2.2 基本的查询评价 |
5.2.3 索引词的位置 |
5.3 短语查询 |
5.3.1 短语查询评价 |
5.3.2 短语索引 |
5.4 索引的构筑 |
5.4.1 内存中倒排 |
5.4.2 基于排序的倒排 |
5.4.3 基于合并方式的倒排 |
5.5 索引的维护 |
5.5.1 重构 |
5.5.2 间歇性的合并 |
5.5.3 增量更新 |
5.5.4 选择一种合适策略 |
5.6 提高索引效率的方法 |
5.6.1 参数编码 |
5.6.2 倒排列表的压缩 |
5.7 本章小结 |
第6章 Sirgin信息查询的实现方法 |
6.1 查询服务的系统结构 |
6.2 缓存机制 |
6.3 预排序 |
6.3.1 链接分析 |
6.3.2 PageRank技术 |
6.3.3 Hits |
6.4 基于PageRank改进的SpRank算法 |
6.4.1 关于PageRank |
6.4.2 SpRank算法 |
6.5 查询服务的实现 |
6.6 本章小结 |
第7章 总结与展望 |
7.1 本文总结 |
7.2 进一步的研究工作 |
参考文献 |
致谢 |
研究生期间发表文章 |
(10)基于XML的数据查询和信息检索集成化系统研究(论文提纲范文)
摘要 |
Abstract |
目录 |
第一章 绪论 |
1.1 课题背景 |
1.2 相关研究 |
1.2.1 数据库的研究 |
1.2.2 XML数据管理 |
1.2.3 XML数据查询 |
1.2.4 信息检索及基于 XML的信息检索 |
1.3 研究问题与意义 |
1.4 本文主要贡献与论文结构 |
第二章 基于 XQUERY的信息检索语言 |
2.1 XML查询语言 |
2.2 XML信息检索语言的特点 |
2.3 XML信息检索语言 XQuery+ |
2.3.1 XQuery+语法分析 |
2.3.2 XQuery+语义分析 |
2.4 小结与问题 |
第三章 XML节点编号模式与索引结构 |
3.1 预备知识 |
3.2 XML节点编号模式 |
3.2.1 节点标签路径数 |
3.2.2 节点数据路径数 |
3.2.3 节点标识 |
3.3 XML索引结构(HiD) |
3.4 值索引结构 |
3.5 相关试验及分析 |
3.6 小结与问题 |
第四章 XML相关度打分机制与算法 |
4.1 问题描述 |
4.2 IR查询表达 |
4.3 相关度打分机制 |
4.3.1 结构相关度 |
4.3.2 语义相关度 |
4.3.3 相关度集成 |
4.4 实例分析 |
4.5 实验与分析 |
4.6 小结与问题 |
第五章 查询处理 |
5.1 问题描述 |
5.2 XQuery查询处理算法 |
5.2.1 单路径查询 |
5.2.2 树模式查询算法 |
5.3 XQuery+查询处理算法 |
5.4 XQuery查询实验分析 |
5.5 XQuery+查询算法实验分析 |
5.6 小结与问题 |
第六章 原型系统的设计与实现 |
6.1 原型系统分析与设计 |
6.1.1 系统设计目标和原则 |
6.1.2 需求分析 |
6.1.3 数据流图 |
6.1.4 系统架构 |
6.2 原型系统模块分析 |
6.2.1 系统处理流程 |
6.2.2 模块设计 |
6.3 原型系统的实现 |
6.3.1 原型系统核心数据结构 |
6.3.2 查询引擎处理过程部分代码分析 |
6.3.3 原型系统界面及使用介绍 |
6.4 小结与问题 |
第七章 全文结论与展望 |
参考文献 |
攻读学位期间发表论文与参加项目 |
结束语与致谢 |
四、基于压缩的全文本数据库信息检索技术的研究(论文参考文献)
- [1]网络Flash动画学习资源的内容结构特征与检索研究[D]. 石林. 山东师范大学, 2020(08)
- [2]基于多源信息融合的科研学者画像及应用研究[D]. 王锐杰. 电子科技大学, 2020(07)
- [3]学科领域中新兴研究话题的内容特征识别及其实证研究[D]. 卢超. 南京理工大学, 2020(09)
- [4]基于Lucene的站内全文搜索引擎的设计与实现[D]. 黄正. 北京邮电大学, 2016(04)
- [5]浅谈桔柚产业信息检索与应用[J]. 黄世铅. 中国农业信息, 2015(18)
- [6]数字文献资源多元深度聚合研究[D]. 董克. 武汉大学, 2014(06)
- [7]基于数据压缩的信息检索技术的研究[J]. 向波. 煤炭技术, 2012(11)
- [8]XML文档交互式信息检索技术研究[D]. 郭永明. 东华大学, 2010(08)
- [9]中文搜索引擎的设计与实现[D]. 刘佳. 东华大学, 2008(07)
- [10]基于XML的数据查询和信息检索集成化系统研究[D]. 韩忠明. 东华大学, 2006(05)