一、中文文献自动标引过程研究(论文文献综述)
武华维[1](2020)在《基于主题模型与知识图谱的电子公文主题标引方法研究》文中研究表明世界已经从信息时代逐步进入到大数据时代,海量数据中很大一部分是用自然语言记录的文本数据。而电子公文作为文本数据类型的一种,它是政府机关、企事业单位等形成、具有法律效力和规范体式的数字形式的文件。历年累积的电子公文归档保存后一般按照内容进行人工主题标引、分类组织或者建立专题数据库以方便检索和开发利用。但人工标引主题方式存在劳动量大、速度慢、标引不一致等弊端,因此需要研究电子公文主题自动标引方法。针对非结构化公文的主题分析和标引问题,本文提出一种融合主题模型和知识图谱技术的电子公文主题自动标引方法,与当前存在的主题自动标引方法相比,它将电子公文文档集作为一个整体识别主题,基于主题词表构建外部知识库以实现对识别的主题用规范化的正式主题词和范畴进行统一标引。本文研究的内容包括以下三个方面:(1)基于主题模型的电子公文主题分析研究。从整体的视角进行电子公文的主题分析,应用多种自然语言处理技术将其转换成文档语料库,采用主题模型进行主题识别与分析,包括融合主题词表语义特征和通用主题模型进行主题识别,以及综合共词网络特征和层次主题模型进行主题层次结构分析。(2)基于知识图谱的主题词表语义自动转换研究。基于知识图谱建立机器可识别的主题知识库,弥补主题模型方法在非结构化文本的主题标引中存在的背景知识不足问题,以增强主题标引的语义性。在主题词表语义化表示及知识图谱技术的基础上,构建一种利用知识图谱技术对传统纸质载体的叙词表进行语义化自动转换的方法,为电子公文主题的标引奠定坚实的知识基础。(3)电子公文主题标引研究。提出综合应用主题模型和主题词表知识图谱进行电子公文主题标引的方法。在应用主题模型进行主题分析的基础上,运用知识图谱技术借助主题词表外部知识来进行主题的标引工作,使用正式主题词及范畴进行规范、控制和统一组织。具体包括基于LDA和知识图谱的电子公文主题标引、基于hLDA和知识图谱的电子公文主题标引。本文创新点和贡献主要有:(1)对电子公文主题标引这一传统实践问题,提出了综合应用主题模型和知识图谱技术进行自动化标引的方法。将应用主题模型进行文本主题分析的数据类型扩展到电子公文灰色文献类型,应用知识图谱技术建立主题词知识库,为正式主题词标引工作提供了现代化的标引工具和知识服务。(2)提出从纸质版主题词表到网络知识库的语义化转换的方法。设计了面向电子公文主题自动标引的主题词表SKOS数据模型描述方案及其自动转换算法,设计了RDF/N3主题词表关联数据自动转换成知识图谱算法,并用Python编程语言实现上述算法。(3)完成《中国档案主题词表》语义转换任务,将其主表和范畴表部分的所有内容从传统纸质媒介形式转换成为图数据库存储的知识图谱形式,为图书、情报和档案学术界和管理实务界贡献了重要的基础数据集。本论文包括图40幅,表17个,附录3个
付帅[2](2020)在《专利自动标引系统的设计与开发》文中提出当今世界已进入知识经济时代,专利规模的不断扩张,专利等知识产权受到人们前所未有的重视。专利不仅是企业技术实力的重要展现,更是企业参与竞争的战略性资源,是企业高价值的资产。目前专利文献的标引工作主要是请专业标引人员进行标引,在标引的过程中存在天然的缺陷,费时费力且主观性强,且在专利标引的过程中,只能对每件专利文献中的信息进行标引,标引的内容极少,专利知识难以掌握并合理利用,并且标引的内容并不能直观、简洁的体现专利的有效信息,给用户带来的帮助非常有限,用户体验度较差,如何设计一个完善的专利自动标引系统,对专利信息进行自动标引,是一项有意义值得研究的课题。本文针对专利信息标引工作进行调研分析,旨在设计开发一款企业级的完善的专利自动标引系统,挖掘专利有价值的信息,实现专利的自动标引,也为后续专利自动标引工作的研究奠定基础。本论文分析了专利自动标引系统的可行性并提出了详细的方案及模块设计,具体工作包括以下几个方面:第一,便于系统的管理和使用,本文主要从系统的人员管理、权限管理、专利检索、专利标引、专利审查、质量分析等几方面进行设计开发,应对企业中不同使用人员的操作需求。第二,将自动标引相关技术与实际需要相结合设计了 5层关键词体系,从不同维度对专利进行标引,从而使标引结果更好的覆盖专利的各个主题,缓解关键词覆盖度不够的问题,标引视角更为广泛,并通过系统WEB界面使标引结果直观、简洁的展现。第三,针对专利语料匮乏的问题,由北京东方灵盾科技有限公司提供的21000篇中医药专利作为专利语料集,主要从语料标注、命名体识别、主题词提取等方面进行研究。首先设定了语料标注规范,结合专利关键词的特点,定义了5类实体,对专利数据进行标注,构建了专利语料库。第四,针对现有专利中的命名体识别任务,采用深度学习对专利命名体识别与提取,分别以多模型为基础,分析模型优劣点,为了更好地获取上下文特征,对传统的LSTM进行改进,采用双向LSTM网络,使用Bi-LSTM+CRF模型对专利进行命名体识别。实验证明在相同特征的条件下,改进模型在性能上表现出优势。
王彦祥[3](2019)在《新世纪中国索引编纂与研究述评(下)——基于2000—2017年索引成果的定性研究》文中提出本文承袭上篇之定量分析研究,针对新世纪以来(2000~2017年)中国索引编纂和研究进行具体而翔实的定性分析研究。在结构布局上,从索引理论、索引编纂、索引技术和索引软件、索引历史与文化、索引评价与利用、索引标准与索引国际化等六大索引研究领域进行成果分析和概括。在具体内容铺陈上,索引理论研究涉及索引理论发展创新、索引理论研究与社会服务、张琪玉索引理论研究梳理、索引理论代表性观点总结等内容;索引编纂研究从文献类型角度分别探究年鉴索引、地方志索引、古籍索引、图书索引、期刊索引的研究成果,并就专题和主题索引研究与索引编纂数量相背离、标引技术研究成果偏少亟需加强、索引编纂流程归纳成为研究薄弱点等方面,指出索引编纂研究的特点和不足;索引技术和索引软件研究方面总结出新技术研究成果明显增多,多途径探讨索引编纂新技术新方法,探索利用相关软件进行索引辅助编制,多方面长时间开展中文索引软件开发,中国索引软件研发跟进时代发展等若干成果和特性;索引历史与文化研究包括对第一次索引运动梳理和讨论、对中国索引发端和索引之乡的研讨与争论、对平保兴索引历史与文化研究的回顾、对中国索引学会引领索引事业进行归纳总结;索引评价与利用研究概括出该领域的聚焦点、引文索引研制及其评价应用、国外索引系统推介与科学评价应用等几个方面;索引标准与索引国际化研究则梳理了中国索引标准研究与制订历程、索引国际化讨论与践行、中国索引界努力步入世界索引舞台中心等问题。在最后结论中,通过五大标志性特征阐明中国索引研究已全面走向世界,研究水平和质量稳定提升,索引编纂和研究已形成核心力量,并列举出中国索引编纂和研究的十大标志性成果、十大索引编纂核心作者、十大索引领域核心研究者,以及中国索引研究核心载体和核心出版机构,以供研究者参考借鉴。
熊欣,王昊,张海潮,张宝隆[4](2020)在《中文术语粒度对其区分能力测度的影响分析》文中研究指明【目的】比较中文术语粒度对不同字段的术语区分能力(Term Discriminative Capacity,TDC)测度的影响。【方法】将术语区分能力测度应用于题名、关键词、摘要和附加关键词的术语质量评估,在对照组和实验组中使用方差分析对不同学科、字段及术语粒度的TDC进行差异检测。【结果】当关键词和附加关键词未经处理时,在TDC上的表现为:题名>摘要>附加关键词>关键词;当术语粒度为词时,附加关键词的表现提升,题名>附加关键词>摘要>关键词。【局限】实验数据仅包含5个人文社会科学学科,样本代表性可能存在不足。【结论】中文术语粒度和字段在术语区分能力测度上相互作用,各字段的术语粒度统一为词可降低字段因素的影响。
赵文丽[5](2017)在《新闻出版行业标准碎片化标引研究与应用》文中提出随着当前社会的飞速发展和科技的空前进步,标准在社会生活中的地位不断提高,发挥着越来越重要的作用。对于我国的新闻出版行业来说,标准规定了整个新闻出版领域各个方面所依据的准则,其重要性不言而喻。但是当前新闻出版行业对标准文献的标引工作不够完善,都是采集标准的基本信息,如标准号、标准名称、分类号等进行标引,并不对标准的具体内容进行标引,用户查询时无法精准定位到需要的标准内容,为用户的使用带来不便,同时也不利于标准的推广。本文完成的主要内容有:①提出"标准碎片化"的概念,根据标准的结构—部分、章、条、段、附录等,将标准分成诸多碎片,通过计算机程序解析到数据库,完成标准文档的结构化存储,为新闻出版行业标准自动标引的实现打下基础。②建立了新闻出版行业词库。新闻出版行业标准中含有大量的专业术语、主题词等,本文基于现有的新闻出版领域内的词汇资源,构建新闻出版行业的专业词库,并进行分类存储管理。为后面中文分词处理,提高自动标引的准确率做准备。③针对关键词提取方法中TF-IDF算法、词频统计标引法、位置标引法等标引算法的不足,提出一种在TF-IDF算法基础上,根据标准文献的特点,考虑词频、位置、词性、词长特征的综合标引算法,并进行了实验,结果表明本文提出的算法提高了关键词提取的准确度,提高了标引质量。④提出了新闻出版行业标准的"碎片化"标引方案。将结构化后的标准在行业词库的基础上,采用NLPIR汉语分词系统进行分词;建立停用词表,对分词结果进行停用词过滤和词性过滤;采用本文提出的算法公式计算关键词的权重,提取关键词;经人工审查修正后,得到最终的标引词。⑤完成了新闻出版行业标准碎片化标引系统的设计与实现。本文从系统架构、功能模块设计、流程设计、数据库设计、系统实现几个方面,实现了标引系统的主要功能,包括标准的结构化、标准的管理、标准的碎片化标引、标准的检索、行业词库的构建及维护功能。
王丹,杨晓蓉[6](2014)在《自动标引中的歧义词消除方法研究》文中进行了进一步梳理针对中文自动标引过程中经常会产生诸多歧义词,导致检出的信息不切题或漏检这一问题,在论述自动标引中歧义词消除方法的相关研究基础上,提出一种将穷举法和消歧规则相结合的歧义词消除方法。测试结果表明,这是一种行之有效的消除歧义词的方法。
王星,刘伟[7](2014)在《基于引文的中文学术文献自动标引方法研究》文中研究指明针对中文学术文献,提出一种新的自动标引方法,该方法基于文献之间的引用关系,利用被引文献的标引词,对遗传算法进行改进,实现自动标引,避免利用文献正文、标题等内部文本特征进行自动标引的局限性。通过在大规模真实测试集(中文学术文献)上进行实验,验证该方法的有效性。
王仕雪[8](2014)在《计算机汉语语义组织和检索述评》文中研究指明基于汉语自动分词与自动标引、自由标引与自由词标引、自动摘要、自动分类、文本检索与全文检索等分析了我国计算机汉语语义组织和检索的研发过程.
许爱琴[9](2013)在《文本信息自动标引技术研究与改进》文中研究指明自动标引就是指利用计算机自动给出能表达文本信息内容的主题词或关键词的过程。为了适应信息资源快速增长的需要,和解决传统人工标引的费用高昂、效率低下、一致性差等缺陷,自动标引的研究成为必然趋势且具有重大意义。根据标引词来源的不同,自动标引方法分为关键词自动抽取标引和自动赋词标引两种方法。目前国内外的研究主要集中于自动抽词标引,即利用计算机自动从文本信息中提取出可以表达文本核心内容的主题词成为标引词。本文在研究、分析和总结前人的自动抽词标引方法的基础上,选择文本信息计算机自动抽词作为标引词的技术进行了研究,并完成了以下工作:(1)阐述了自动标引技术的研究意义。它是检索系统的基础,以及自动摘要、自动分类、自动聚类、机器翻译等自然语言处理领域的技术前提。介绍了标引词、关键词、关键短语、主题词、术语和受控词等自动标引相关的概念,确立关键词、关键短语或主题词为自动标引主体。概要介绍了计算机自动标引技术的流程步骤,及每一步骤的处理要求和相应方法。最后简要描述了中文自动标引分词技术的几类方法原理。(2)针对英文自动标引系统中的抽取候选关键词这一过程进行研究,引入了核心单词集这一概念。在研究核心单词集和关键词集之间关系的基础上,结合n-gram法,提出了由核心单词定位潜在候选关键词,再根据核心单词前后拓展树生成侯选关键词这一算法思想。并与n-gram法生成候选关键词进行结果比较,将传统的n-gram法生成候选关键词集缩小到原来的2/7,并且没有增加计算复杂性。(3)针对中文信息的自动标引技术研究中TF-IDF统计加权法的不足,考虑到词语的其他统计信息(词性、位置信息和互信息)对候选关键词成为最终标引词的权重计算的影响,在TF-IDF算法的基础上增加这些统计信息,提出了改进的自动标引多特征融合方法及其计算公式。最后进行了数值实验,并就自动抽词标引实验准确率、召回率和综合指标F等技术参数进行了对比分析。结果表明,改进的自动标引多特征融合算法较已知TF-IDF统计加权法提高了查全率和查准率。
薛春香[10](2013)在《中文报纸文献标引知识库设计与构建》文中认为报纸文献主题标引、分类标引和命名实体抽取是其内容深加工的主要形式,基于知识库的自动标引是报纸文献标引自动化的一种实现方式。在报纸文献自动标引研究现状基础上提炼出报纸文献自动标引一般流程,提出知识库建设是其实现自动标引的前提。结合报纸文献标引的特点,提出报纸文献标引用知识库应由主题标引库、分类知识库和实体标引库三部分多个词表组成,具有多词表融合、规模大、可扩充、简单易行等特点。同时,就知识库构建中的主题规范表、分类主题对照表和命名实体抽取规则库建设等关键技术进行阐述。
二、中文文献自动标引过程研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、中文文献自动标引过程研究(论文提纲范文)
(1)基于主题模型与知识图谱的电子公文主题标引方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 研究背景与意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 研究内容 |
1.2.1 研究问题 |
1.2.2 研究对象 |
1.2.3 研究内容 |
1.3 研究思路与方法 |
1.3.1 研究思路 |
1.3.2 研究方法和工具 |
1.4 论文结构与创新点 |
1.4.1 论文结构 |
1.4.2 论文创新点 |
第2章 相关研究现状 |
2.1 主题标引的相关研究 |
2.1.1 主题标引的基本概念 |
2.1.2 主题标引的演进历史 |
2.1.3 主题标引的技术方法 |
2.2 主题模型的相关研究 |
2.2.1 主题模型概述 |
2.2.2 主题模型应用研究 |
2.3 研究述评 |
第3章 研究框架 |
3.1 研究设计 |
3.2 研究整体框架 |
3.2.1 自由文本数据和词典数据的预处理 |
3.2.2 电子公文文档集主题识别和分析 |
3.2.3 主题词表语义转换 |
3.2.4 电子公文主题的自动标引 |
3.3 数据集的构建与清洗 |
3.3.1 实证数据 |
3.3.2 验证数据 |
第4章 基于主题模型的电子公文主题分析研究 |
4.1 融合主题词表语言特征和通用主题模型LDA的主题分析 |
4.1.1 研究方法及流程 |
4.1.2 实证研究 |
4.2 融合共词网络特征和层次主题模型hLDA的主题分析 |
4.2.1 层次主题模型及共词网络概述 |
4.2.2 研究方法及流程 |
4.2.3 实证研究 |
4.3 小结 |
第5章 基于知识图谱的主题词表语义自动转换研究 |
5.1 主题词表及语义转化的理论研究 |
5.2 研究方法及流程 |
5.2.1 分析主题词表构成及其语义关系类型 |
5.2.2 构建基于SKOS数据模型的语义转换映射方案 |
5.2.3 主题词表的SKOS语义自动转换 |
5.2.4 SKOS语义化主题词表自动转换知识图谱 |
5.3 实证研究 |
5.3.1 数据来源 |
5.3.2 分析结果 |
5.4 小结 |
第6章 综合应用主题模型与知识图谱的电子公文主题标引研究 |
6.1 基于LDA和知识图谱的电子公文主题标引研究 |
6.1.1 方案及流程 |
6.1.2 实证研究 |
6.1.3 有效性分析 |
6.2 基于hLDA和知识图谱的电子公文主题标引研究 |
6.2.1 方法及流程 |
6.2.2 实证研究 |
6.2.3 有效性分析 |
6.3 有效性验证 |
6.4 总结 |
第7章 总结与展望 |
7.1 总结 |
7.2 不足与展望 |
参考文献 |
附录1 实证数据 |
附录2 验证数据 |
附录3 主题词表数据 |
致谢 |
作者简历及攻读学位期间发表的学术论文与研究成果 |
(2)专利自动标引系统的设计与开发(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.2 研究现状 |
1.3 研究内容 |
1.4 论文结构 |
第二章 相关理论及技术概述 |
2.1 系统框架技术 |
2.1.1 SpringBoot技术 |
2.1.2 SSM架构技术 |
2.1.3 MySQL数据库介绍 |
2.1.4 前后端分离技术 |
2.2 自动标引相关技术 |
2.2.1 词嵌入(Word Embedding) |
2.2.2 条件随机场(CRF) |
2.2.3 LSTM与Bi-LSTM |
2.2.4 Bi-LSTM+CRF模型 |
2.2.5 Doc2Vec模型 |
2.2.6 NER任务评价标准 |
2.3 本章小结 |
第三章 专利自动标引系统的分析与设计 |
3.1 需求分析 |
3.1.1 功能需求分析 |
3.1.2 用例分析 |
3.1.3 非功能需求分析 |
3.2 概要设计 |
3.2.1 用例分析 |
3.2.2 功能模块分析 |
3.2.3 系统工作流程 |
3.3 数据库设计 |
3.3.1 数据库设计需求分析 |
3.3.2 数据库模块结构设计 |
3.3.3 数据库设计需求分析 |
3.3.4 系统性能提升 |
3.4 专利数据库与语料库构建 |
3.4.1 语料库准备 |
3.4.2 语料库构建 |
3.5 本章小结 |
第四章 专利自动标引系统的实现 |
4.1 系统环境准备 |
4.2 模块功能实现 |
4.2.1 注册登录模块实现 |
4.2.2 人员管理模块实现 |
4.2.3 专利检索模块实现 |
4.2.4 专利标引模块实现 |
4.2.5 专利审查模块实现 |
4.2.6 专利标引质量分析模块实现 |
4.3 专利文本命名体识别 |
4.3.1 模型设计 |
4.3.2 算法实现 |
4.3.3 模型试验 |
4.3.4 结果分析 |
4.4 本章小结 |
第五章 专利自动标引系统的测试 |
5.1 系统测试环境 |
5.2 功能性测试 |
5.2.1 用户管理模块测试 |
5.2.2 专利检索模块测试 |
5.2.3 专利标引模块测试 |
5.2.4 专利审查模块测试 |
5.2.5 专利标引质量审查模块测试 |
5.3 非功能性测试 |
5.4 本章小结 |
第六章 总结与展望 |
参考文献 |
第七章 致谢 |
第八章 硕士期间学术成果情况 |
(4)中文术语粒度对其区分能力测度的影响分析(论文提纲范文)
1 引言 |
2 相关研究 |
3 数据与方法 |
3.1 研究框架 |
3.2 数据来源与预处理 |
3.3 TDC的测度算法 |
4 实验结果及分析 |
4.1 各字段的术语数量与粒度比较 |
4.2 各字段的中文术语区分能力比较 |
(1)对照组 |
(2)实验组 |
(3)术语粒度的讨论 |
5 结语 |
(5)新闻出版行业标准碎片化标引研究与应用(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 研究现状 |
1.2.1 自动标引技术的研究现状 |
1.2.2 标准文献检索的研究现状 |
1.3 主要研究内容 |
1.4 研究的难点和创新点 |
1.5 本文结构 |
第二章 相关技术和理论 |
2.1 新闻出版行业标准 |
2.1.1 标准概述 |
2.1.2 标准的结构 |
2.2 标引技术 |
2.2.1 标引概述 |
2.2.2 自动标引分类 |
2.2.3 自动标引方法 |
第三章 新闻出版行业标准碎片化标引关键技术研究 |
3.1 标准的结构化存储研究 |
3.2 标准碎片化标引技术研究 |
3.2.1 中文分词技术 |
3.2.2 停用词表和行业词库建设 |
3.2.3 关键词提取技术 |
3.2.4 实验及评价 |
第四章 核心内容设计 |
4.1 方案设计 |
4.2 标准的结构化存储 |
4.3 新闻出版行业词库的建立 |
4.4 标准的碎片化标引 |
第五章 碎片化标引系统的设计与实现 |
5.1 开发环境 |
5.2 系统架构 |
5.3 系统设计 |
5.3.1 功能模块设计 |
5.3.2 流程设计 |
5.4 数据库设计 |
5.5 系统实现 |
5.5.1 标准管理 |
5.5.2 标准碎片化标引 |
5.5.3 行业词库管理 |
5.5.4 标准检索 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
在学期间的研究成果 |
致谢 |
(6)自动标引中的歧义词消除方法研究(论文提纲范文)
1研究现状 |
2问题的提出 |
3自动标引的一般方法 |
3. 1自动标引系统框架 |
3. 2文本预处理 |
3. 3知识库的构造 |
3. 4分词方法 |
3. 5关键词的频率与权值 |
3. 6较长关键词的处理 |
4歧义词消除方案 |
4. 1歧义词的产生 |
4. 2切分歧义的相关研究 |
4. 3消歧方法概述 |
5歧义词消除算法 |
5. 1消歧流程 |
5. 2消歧算法 |
5. 3测试与分析 |
5结语 |
(7)基于引文的中文学术文献自动标引方法研究(论文提纲范文)
1引言 |
2相关工作 |
3基于引用文献的自动标引方法 |
3. 1遗传算法的基本思想 |
3. 2基于标引词的二进制编码方案 |
3. 3个体文献的适应度计算 |
3. 4进化过程中的遗传选择 |
4实验分析 |
5结语 |
(9)文本信息自动标引技术研究与改进(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 自动标引技术研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 自动标引技术的国外研究情况 |
1.2.2 自动标引技术国内研究现状 |
1.3 本文具体研究内容与构成章节 |
第2章 自动标引技术和相关概念 |
2.1 自动标引技术应用 |
2.2 自动标引主体的界定 |
2.2.1 自动标引主体相关概念 |
2.2.2 自动标引主体的界定 |
2.3 自动标引的最基本流程 |
2.4 中文分词研究 |
2.4.1 基于字符串匹配分词算法 |
2.4.2 基于统计的分词法 |
2.4.3 基于理解的分词方法 |
2.4.4 混合方法 |
2.5 本章小结 |
第3章 生成候选关键短语集的改进方法 |
3.1 识别候选短语的相关研究 |
3.1.1 基于n-gram法的研究情况 |
3.1.2 基于POS序列法的研究情况 |
3.2 通过核心单词来定位候选短语 |
3.2.1 核心单词集法提出的思路 |
3.2.2 核心单词与关键短语的关系 |
3.2.3 核心单词集的获取 |
3.3 候选关键短语的形成算法 |
3.3.1 基于n-gram法得到核心单词及潜在候选短语 |
3.3.2 核心单词前拓展树算法的基本思路 |
3.3.3 后拓展树算法 |
3.3.4 算法测试运行结果 |
3.3.5 前(后)拓展树算法与基于n-gram法的比较分析 |
3.4 本章小结 |
第4章 基于TF-IDF统计法自动抽取关键词的改进多特征融合法 |
4.1 基于词汇分布特征统计自动抽取关键词的研究方法 |
4.1.1 词频统计标引法(绝对频率加权法) |
4.1.2 加权统计标引法 |
4.2 基于TF-IDF的多特征融合算法 |
4.2.1 TF-IDF算法公式的改进 |
4.2.2 词性特征 |
4.2.3 位置特征 |
4.3 基于TF-IDF多特征融合算法的改进 |
4.3.1 互信息 |
4.3.2 改进的多特征融合算法 |
4.4 本章小结 |
第5章 改进的多特征融合算法数值实验 |
5.1 实验过程 |
5.1.1 算法流程 |
5.1.2 算法的具体实现 |
5.1.3 实验安排 |
5.2 实验结果分析 |
5.3 本章小结 |
第6章 总结与展望 |
6.1 主要工作和创新点 |
6.2 未来的研究工作 |
参考文献 |
硕士学攻读位期间发表论文及参与项目情况 |
致谢 |
(10)中文报纸文献标引知识库设计与构建(论文提纲范文)
1 引言 |
2 中文报纸文献自动标引研究现状 |
3 报纸文献标引知识库设计 |
3.1 报纸文献标引知识库组成 |
3.2 报纸文献标引知识库特点 |
4 报纸文献标引知识库构建关键技术 |
4.1 主题规范表和转换规则的构建 |
4.2 分类主题对照表构建 |
4.3 命名实体规则库建设 |
5 结语 |
四、中文文献自动标引过程研究(论文参考文献)
- [1]基于主题模型与知识图谱的电子公文主题标引方法研究[D]. 武华维. 中国科学院大学(中国科学院文献情报中心), 2020(01)
- [2]专利自动标引系统的设计与开发[D]. 付帅. 北京邮电大学, 2020(05)
- [3]新世纪中国索引编纂与研究述评(下)——基于2000—2017年索引成果的定性研究[J]. 王彦祥. 中国索引, 2019(00)
- [4]中文术语粒度对其区分能力测度的影响分析[J]. 熊欣,王昊,张海潮,张宝隆. 数据分析与知识发现, 2020(Z1)
- [5]新闻出版行业标准碎片化标引研究与应用[D]. 赵文丽. 北方工业大学, 2017(08)
- [6]自动标引中的歧义词消除方法研究[J]. 王丹,杨晓蓉. 图书情报工作, 2014(05)
- [7]基于引文的中文学术文献自动标引方法研究[J]. 王星,刘伟. 图书情报工作, 2014(03)
- [8]计算机汉语语义组织和检索述评[J]. 王仕雪. 通化师范学院学报, 2014(02)
- [9]文本信息自动标引技术研究与改进[D]. 许爱琴. 武汉理工大学, 2013(06)
- [10]中文报纸文献标引知识库设计与构建[J]. 薛春香. 情报科学, 2013(07)