Factiva (道琼斯/路透社公司)的白皮书,作者Jan Sykes,信息管理服务 2001年2月
控制词表或分类学的背景
Delphi 集团总裁及奠基人曾在早期提出著名的“分类学是别致的”( “taxonomies are chic.”)的论断。那么,分类学究竟是什么呢?
控制词表是一种索引语言,即是一系列标准词汇和短语被授权应用在索引系统中,描述某一主题区域或者信息范围。控制词表(controlled vocabulary)、辞典(thesaurus)和分类结构(classification structure) 等词经常可以互换使用。当索引结构是分等级的时候,就完全可以被称为分类。一个控制词表可以像恰当描述主题区域的词汇字母表一样简单。辞典通常由一系列词汇以及广义、狭义、相关和交叉参考的链接构成,这些链接表明了相关词汇之间的关系,提供了不同范围、水平的等级结构或分类。一些被高度认可的辞典和分类结构包括:
• INSPEC 辞典(英国电机工程师协会(IEE)出版与信息服务)
• 医学主题标题(MeSH) (国际医学图书馆)
传统上,索引者手动的从控制词表中将词条选出,形成文档。在机器辅助索引程序的帮助下,建立了一系列规则,至少可以部分的完成自动索引的程序。索引词条的数量应用和专业水平依赖于出版者编纂的方针原则。
索引语言的重要作用在于同义词控制。在布尔检索系统中,检索者利用文本词汇或者关键词等含盖作者描述一个概念的各个方面。但是,从一个良好的控制词表中选择索引、详细描述检索需求时,需要合适的同义词。控制词表中一个独立的条目都表示一个特殊的概念,无论它在原文中是怎样被提及的。
电子信息的数量是如此之大,增长之快,使用者需要掌握必要的技能进行访问,使用控制词表索引内容能够在使用者准确定位检索对象时提供巨大的帮助。一个控制词表体系,应该由熟知该主题的人和覆盖该信息领域的文档类型创建和维护,随着信息领域的发展动态的发展。
分级索引基准(Hierarchical Indexing Benchmark)
医学主题标题 (MeSH) :由国际医学图书馆制定,包括1.9万对数据库进行索引的主标题和代码的等级分类表。联机医学文献分析和检索系统(Medline)数据库是第一个生物医药的数据库,是《Medicus索引》、《国际护理索引》和《国际牙科文献》的电子版,《MeSH 索引》是Medline 数据库中的重要因素。
从6-15个主题标题中确定一个条目的3个主要重点,最专业的词条作为该词条精确的主题检索,一般的、常见的子主题,如“不利影响”(adverse effects)或“治疗”(therapy)则被组合到MeSH 词汇中。
《医学主题标题》被拥有知识和专业技术的健康科学领域的专家不断修改和更新。他们搜集出现在学术文献和研究领域的新词,应用现有词表进行定义,并将其提交给MeSH。同时也接受来自索引者和其他专业人士的建议。
索引结构还处于探索阶段,但是它在检索方面提供的准确性和精确性已经得到一致称赞。MeSH 在评估索引结构方面可以被认为是其他学科的黄金标准和基准。
检索的精确度(precision)和(反馈)Recall
信息科学文献,尤其是关于信息在线服务检索的文章,经常涉及到精确度和反馈。精确度是指被检索到相关条款的数量,反馈是指检索到所有条款的总量。通常精确度与反馈成反比,即检索到的总量越多,检索的精确度就越低。索引者进行词条分类的索引口径和编辑原则也会影响精确度和反馈。
最佳的信息系统设计应该可以满足用户高反馈和高精确的需求。分级索引表促进了从广义检索到专业检索的弹性发展,当使用者能够看到检索词能检索到所有主题的文章,检索系统如此强大足以聚集所有专业内容的文章时,会感到非常自信。
(未完待续)
【作者】Jan Sykes ;宋建敏 编译 来源:中国知识管理网