标题 | 科技文献语义检索系统的分类与功能特点论文 |
范文 | 科技文献语义检索系统的分类与功能特点论文 1 引 言 语义检索是信息检索的发展趋势, 早在 20 世纪80 年代, 语义检索的思想就已经出现, 并且信息检索领域已经开展了相关研究工作。企业级的语义搜索引擎近几年已经开始应用, 例如 Kosmix 和 等, 特别等让搜索变得更智慧。百度框计算搜狗知立方代表了国内搜索引擎在该领域的成功实践。在文献信息检索领域,作为语义检索系统的典型代表, 做出了开创性的工作, 一些面向科技文献的语义检索系统不断出现。 传统基于关键词的检索系统具有一定的局限性,如无法解决词汇的模糊性问题, 分散在多个文档中的相关信息不容易被发现等。语义检索基于含义而不是通过关键词匹配寻找用户查询的答案, 用以实现实体检索、概念检索、分类检索、关系查询等知识检索方式来满足用户的多种信息需求, 使得搜索智能化, 根据用户的意图给出用户想要的结果。目前, 语义检索主要有两个方向: 语义网资源的检索和对于传统检索系统的语义扩展。面向科技文献的语义检索研究主要偏向于后者, 利用语义技术改进传统文献检索系统,利用叙词表、主题词表、本体等知识组织体系实现语义丰富化, 采用语义标注、自动抽取、关系发现的文本挖掘技术从非结构化的文本中发现细粒度的数据,使得检索系统更智能化。本文根据文本语义处理程度对科技文献语义检索系统进行分类, 提出科技文献语义检索系统的基本框架, 并探讨科技文献语义检索系统的功能特性。 2 科技文献语义检索系统分类 根据系统的智能化、语义化程度, 将现有科技文献语义检索系统分为: 语义查询扩展的检索系统、以概念或实体为中心的检索系统、以关系为中心的检索系统、面向知识发现的检索系统 4 种类型。这 4 类检索系统对科技文献的文本语义化处理程度不同, 检索系统的智能化和语义化程度也不同, 如图 1 所示: 【1】 2.1 语义查询扩展的检索系统 语义查询扩展的检索系统在传统关键词检索基础上, 对检索词进行处理, 利用受控词表和本体对检索词进行扩展。PubMed支持基于 MeSH 的查询扩展,也有利用 UMLS 的同义词对 PubMed 查询进行扩展,QuExT执行面向概念的查询扩展, 检索结果根据用户预先分配给概念类别的不同权重进行排序。 GO2PUB利用基因本体中术语之间的语义继承对PubMed 查询进行语义扩展, 基因名称、符号和同义词都作为额外的关键词提交给查询处理器。 2.2 以概念或实体为中心的检索系统 以概念或实体为中心的检索系统利用本体、主题词表、叙词表等对科技文献进行语义标注, 识别文献中的知识, 检索过程通过匹配用户查询和语义标注结果执行, 这使得检索系统能够利用标注信息查询到更精确的结果。GoPubMed是这类系统中最典型的, 它利用 Gene 本体和 MeSH 标引 PubMed 文献, 并用于检索结果的结构化展示, 可以让用户看到与查询相关的主要的生物医学概念。相比 PubMed, GoPubMed 可以更快地找到相关的检索结果。NextBio 文献检索系统利用基于本体的语义工具和创新界面, 对 ScienceDirect 内容和 PubMed、临床实验、生物医学新闻等授权开放使用的研究数据进行文本挖掘, 并通过自然语言处理技术实现命名实体识别和消歧, 从而提高检索性能。Kleio 系统对文本的语义概念(如 genes、protein和其他生物医学术语)进行标注, 提供对于 MEDLINE的文本和元数据相结合的检索, 利用标注的命名实体类型对检索结果进行分面, 从而实现检索结果的过滤。 2.3 以关系为中心的检索系统 以关系为中心的检索系统通过文本挖掘技术从科技文献中发现概念或实体之间的关系, 能够提供基于关系的检索服务。Quertle是一个关系驱动的生物医学文献检索工具, 使用基于语义的自然语言处理方法从生物医学文献集中抽取主谓宾关系, 发现生物医学实体(如疾病、基因、药物)之间的一般或特殊关系。 用"咖啡因偏头痛"作为搜索词, Quertle 会发现两个检索词之间的关系如"咖啡因治疗偏头痛", 而不是通常搜索 PubMed 所返回的同时包含"咖啡因"和"偏头痛"两个检索词的记录。CoPub是以共现关系为中心的检索工具, 利用文本挖掘技术检测 PubMed 摘要中共现的生物医学概念, 如基因本体中的人类/鼠基因、生物过程、分子功能、细胞组成以及病理、疾病、药物和途径等。在 CoPub 系统中检索某个生物医学概念, 可以获得与其共现的其他生物医学概念以及共同出现的文摘。PolySearch抽取人类疾病、基因、突变、药物和代谢物之间的关系, 利用各种文本挖掘和信息检索技术对内容摘要、段落或句子进行识别和排序, 支持面向十几个不同类型的文本、科学文摘或生物信息学数据库的50多种查询类型, 例如检索"与乳腺癌有关的基因". 2.4 面向知识发现的检索系统 面向知识发现的检索系统通过发现隐含的关系和知识, 从而为用户提供更深层次的语义检索服务。 CoPub 5.0在 CoPub 共现关系挖掘的基础上开发了称为CoPub Discovery的新技术, 从文献中挖掘间接关系, 用于研究疾病背后的机理、连接基因和途径, 发现现有药物的新型应用等。CoPub 5.0 提供了三种分析模式, "term search"模式为一个术语检索文摘和术语关系, "pair search"模式分析术语对之间的已知关系或新关系, "set terms"模式用以给出多个术语之间的关系。 FACTA++从 MEDLINE 文摘中发现并可视化如基因、疾病、化合物等生物医学概念之间的间接关联, 利用机器学习模型发现文本中的生物分子事件, 利用概念之间的共现关系统计出信息挖掘隐藏的关联。EvidenceFinder实现对 PMC 全文数据从化合物基因、蛋白质、疾病等生物医学实体到如磷酸化、绑定、激活等生物相关性事实的多层次文本标注。Evidence-Finder 将标注事实转化为一系列的问题, 作为文献检索的推荐, 帮助用户找到问题答案对应的文章。例如, 输入检索词"粘蛋白", 系统自动给出一系列相关问题, 如"降低肠道粘蛋白的是什么?"、"什么产生粘蛋白?"等。 3 科技文献语义检索系统的基本框架 根据对典型科技文献语义检索系统的分析, 提出系统基本框架, 分为语义知识获取、数据集成与融汇、语义索引构建、查询处理、结果展示 5 个主要的系统功能, 如图 2 所示。实现科技文献的语义丰富化, 基于领域叙词表或本体, 利用语义标注、实体抽取、关系抽取等技术从科技文献文本信息中获取语义知识。以这些语义知识为基础, 借助实体或概念匹配、本体集成、Linked Data 之间的关联实现潜在语义知识、科技文献以及外部资源的数据集成与融汇, 支持细粒度的语义检索以及相关知识的扩展检索。在文献元数据索引的基础上, 构建实体、概念、关系、文本事实依据的索引, 支撑基于语义的检索功能。在查询处理方面, 采用术语匹配、自然语言处理、相似度计算、知识库图遍历、本体推理等技术手段理解用户的搜索意图, 通过基于语义知识的分类、聚类、排序等对检索结果进行重新优化计算。通过结果列表、可视化展示、分面浏览、树形导航、本体导航等方式将检索结果展示给用户, 同时提供基于语义知识的 |
随便看 |
|
范文网提供海量优质实用美文,包含随笔、日记、古诗文、实用文、总结、计划、祝福语、句子、职场文档等范文,为您写作提供指导和优质素材。