企业内容管理系统白皮书(8)

附录A

Penn State元数据白皮书

引言

作为强大的新型信息媒体,互联网已经被大学采用,因为它在有效处理教育、研究和管理需要等方面具有潜力 。与此同时,互联网发展迅速,并且在我们公认的社会的很多领域都有所发展,这使“制服网络”成为迫切的需要,使其成熟发展为可靠而有效的信息和通讯媒体。 当网站上的信息资源快速增长时,超链接网页和全文搜索引擎等基本导航工具在快速查找所需内容方面变得越来越无能为力。 由于这种快速发展,信息专家正开发多种解决方案,以使网络资源在受控状态下快速增长。 如今,当典型的变化(如发生在信息产业中的变化)已成事实时,专家们承认, 通过在战略上重新定义广域网(如互联网)的主要功能,这种变化的力量就会被最有效的利用。 Penn State的信息专家和计算机科学家也在积极地寻找策略,以求在更好的控制下产生基于网络的信息,并且在校园中,这些策略的执行将对网络成为Penn State社区更强大的媒体产生重大影响。

在寻找这个策略的过程中,提出的一个关键内容就是元数据领域。 元数据理论集中于明确的需求——在大范围网络域中,为可利用的资源提供较好的组织控制。在过去几年里,元数据理论在寻找有效的办法解决网络快速发展提出的挑战这方面取得了巨大成绩。 基于战略元数据基础,Penn State网站将发展成一个更强大的工具,可以在其领域内组织和查找可利用的电子资源财富。

根据网络的快速增长和在查找所需信息方面遇到的越来越多的困难,本文将考虑大学网络的范围。 它将简要地描述什么是元数据,以及在组织控制下,它如何用于发掘Penn State的网络资源。 最后,它指出为了将元数据和正在进行的网站管理相集成,需要开发一套管理框架。

大学网站

当互联网作为社会中强大的新生力量不断发展时,大学认同了在数字环境下反映自己机构存在的战略价值,并跟随业界开拓互联网,将互联网作为获取其资源和服务的主要途径或“门户”。 由于这个战略价值,大学认识到他们主要站点的管理工作必须一致而协调地贯穿到组织结构中。 从基础组织框架的角度看,学院网络范围的一个关键要素是有效组织和有权使用在此获得的信息。

不久以前,有远见的大学管理部门发现,网站 “事实上” 可以向它的学生、教员和职工表现它的组织结构和完整的服务范围 。从真正的意义上说,这样的网站称为整个组织的复杂的数字象征。 然而,象大公司一样,大学不同的分区单位——学院和学校、组织、研究室和相似的单位都拥有高度的管理自治权。 然而,无数显性的和隐性的政策、规章和规则继续存在,以使强烈的大学一致性和组织自治之间保持平衡。

这种平衡在互联网上继续上演 利用分等级的“网络”组织——这是使用内含超链接的网页所固有的,以某种不可想象的方式,仅仅在几年里,早期的大学就能创造非常有组织的全部管理结构框架,包括可进入信息(带有详细的用法指导)、学院服务提供的范围、教育工具、职员负责特殊服务的证明、甚至是联系这些职员的方法。 ‘psu.edu’ 网络服务器的范围是很大的,然而,无数的服务器在地理上产生了团体和未知事物。 在大型的综合大学里,如Penn State,以视觉和叙述的形式使服务全面概念化 ,这因此成为非常复杂的事业,因为它要显示在组织网络范围的当前叙述中。 这些服务器的每一个都为用户潜在地提供一个网站,并且每一个网站也能拥有上百个,确切地说是上千个网页。 如今, Penn State 网络范围的规模仅仅是一个开始,当全体教员不断地发展基于网络的课程内容,当部门和组织不断地在网站上添加内容,在未来地几年里,大学网站将迅速发展。

大学站点的发展和信息爆炸

象互联网自身一样,大学网络范围的发展意味着用户发现查找所需信息越来越难。对教导主任来说,什么是有联系的信息?一个人如何在电子存量中完成阅读作业?我在哪里可以找到暑期语言课程的报名信息?哪里是人力资源部提供的训练课程的网页?等等。 与大学网站并行发展的是大众媒体中的抱怨,人们抱怨 在互联网上查找所需信息越来越难 。 “网络正进入混乱的无政府状态”,现在这种熟悉的诅咒能一次又一次地听到,与其并肩发展的是浪费时间徒劳地搜索所需信息带来的挫折。 在互联网存在的短短几年里,它从作为专家分享技术文件的方法发展成为研究和学术成果的重要平台,事实上,已经成为普通的社会信息手段。在很多领域,它迅速地取代纸质出版物,成为散布信息地主要载体。

查看大学迄今使用网络的方式,我们能更好的理解这种发展。 当大学将网络和他们的组织结构相结合时,很自然地,他们把自己主要的功能并入到网络的使用中。 因为互联网提供了简单而有效的方法,以电子直观的方式组织信息,所以它第一次有代表性地用于大学团体来制造全面的可利用信息。 院系的开放时间、管理部门、组织、特殊事件、学院和管理政策及相似物都提供了简单的网页和网络连接。 在很短的时间内,各种各样的附加功能都能在大学网站中找到,包括更复杂的程序如申请入学和注册课程等。 校园的其他学术和行政单位,也很快认识到建立自己网站的利益。 因此,对于很多大学来说,最初描述普通服务的几十个网页很快发展成为包含几千个网页的大型组织网络。 大学如Penn State,在利用网络使用流行的技术时,并不简单地追求流行;相反,他们很快地认识到制造可利用信息和服务的潜力,这些信息和服务是在每天的任何时候在校园物质范围以外进行的。以服务的观点,这是很方便的方法,为大学制造所需的可利用信息。

另一方面,当网络规模每几个月就成倍增长时,作为查询的工具,获取和查询资源的网络蜘蛛在效力上会急剧下降。 单纯的,相对粗糙的网络资源查询无疑不能应付网络数据的快速发展。 到目前为止,数据库设计者仍然依靠终端用户,使用关键词来搜索需要查找和访问的信息。 然而,在过去的几年里,随着互联网的爆炸性发展,简单的关键词查询所具有的内在弱点以以往不可能的方式暴露和扩大了。由于网络的规模和多样化特征,数据的无序产生和无组织检索已经导致了混乱的局面,这是很多专家长期担忧的问题。网络发展太快,不仅仅对网络蜘蛛来说无法应付,对使用者来说,简单地使用关键词来搜索这样一个大型数据库,会使搜索结果难以访问和使用。

很多组织如Penn State正发展更复杂的用户界面来努力解决这些问题。 网络设计者运用“通路”或“门户”概念将它们与等级链接组合起来,使用一些技术如“标签”网页、框架、串联类型单和站点搜索工具,试图制作复杂的导航网页“信息富载” 然而,当数字资源的数量增加时,通路概念,至少它的较静态的形式如按等级链接的网页,在快速查找所需信息方面变得越来越没效力。 其他事物无疑时是必要的,它们向用户提供强大的方法查找特殊的资源,或者发现网站提供的有用的或重要的信息。

组织控制下产生的大型网站:元数据

随着互联网的发展,数据库开发者意识到,在为查找所需信息创造的充分的搜索环境中,检索每个词的无用结果和后来关键词查询的使用是太粗糙的方法。 信息专家很快地达成共识,需要两种主要特征来驯服网络:第一,识别和标记关键信息的方法。这样,蜘蛛可以战略上检索贴标签的信息。第二,需要使用标准的和专门的列表。一旦信息特别地贴上标签,这些标准和列表就能创造信息的高度一致性。 如果作为置标语言的HTML在处理文本时能更有识别力、更智能,那么检索软件在进行检索时就会有明确的目标。 处理复杂领域的显著平台在SGML中已经存在,它是高水平的标识语言,HTML是由它发展而来的。 但是,HTML是非常简单的标记性语言,用作表达不太复杂的文本,而SGML表达范围的另一段——综合的复杂的文本。 解决的办法是从SGML中提取有用的本质的特性,将其结合到下一代的HTML中。结果如信息专业中很多人知道的那样,成为标记性语言XML。

为了和已有的数百万 HTML网页保持向后兼容 ,XML以“智能”的HTML为特征。描述的来源是XML的能力,象SGML一样,允许网站设计者或专业团体定义标签的类型,这种标签在网站中使用。因此 ,在XML中定义标签的精确性和灵活性,在标记语言的管理中已经进入全新的复杂水平。依次地,它也会为信息科学理论的战略应用提供方法,来解决困扰网络的组织和访问等问题。 理论的主体,是众所周知的元数据理论,将和网络战略管理协力合作,使组织的网站更加有序的发展。

存在于HTML或XML中的标签或标记,为数据提供了明确的标识符或指针,这就是大家公认的元数据。 通过标注特殊成分建立网页,数百万的人们已经知道元数据作为信息控制器的内在特性。的确,在非常短的一段时间里 ,全世界数百万人都发展了元数据的应用知识。 它的标签和控制特性,联合计算机的操作特性,使人们很容易理解元数据处理信息混乱的潜力,这种信息混乱已经充斥网络。的确,这就是把元数据描述为“数据的数据”的原因。

利用图书管理员的知识,一套描述性标签构成了XML框架的一部分,称为资源描述框架(或RDF),它允许网络开发者或信息代理(如图书馆)准确地识别描述性标签如标题、作者或语言,而且也包括构成特殊术语的主题词。 这套用于RDF的描述性标签称为‘Dublin Core’ (DC),与HTML相似,Dublin Core 设计用来快速而容易地创造标签信息和产生元数据。 这就产生了一套容易理解的标签(在DC用法中称作“元素”),它允许设计者添加必要的元数据来描述他们自己的网页。 描述性元数据如Dublin Core 试图把传统的图书管理学中最好的东西和信息科学相结合,因为这在战略上把标题的智能化控制和计算机执行的有效检索、查询结合在一起。由于Dublin Core数据能存储于XML标注的网页标题中,那么蜘蛛和搜索引擎就能为基于网络的数据库获取信息。

大学网站围绕XML发展,并使用充分的Dublin Core 描述性元数据元素的子集,向大学的管理部门提供强大的环境来发展有特色的组织网站。 XML允许管理部门定义元数据标签的类型,然后它能在整个组织中一致地使用。 XML兼容数据库和搜索引擎可以配置来检索和查找网站管理机构指定的标签。因此,对于大学的管理部门来说,利用元数据配置自己有特色的网站是可能的。可以开发带有软件工具和指南的支持结构,将鼓励大学范围内的所有网站遵循大学的XML指南。 利用元数据为大学网站打基础并组织大学网络会取得成功,在组织的控制下,它将带来大量 数字化的可用信息资源,同样,它也为用户提供一个强大的手段来快速查找所需信息。

元数据框架的管理

在解决互联网中存在的信息混乱问题上,过去的几年产生了大量的先进方法。 很明显,图书管理员、信息和计算机科学家的正紧密协作, 共同致力于网络的研究和开发,并已经取得巨大进展,同时高度一致的网络结构策略正积极地推进。计算机和信息产业的主要公司正筹备重要的软件包首次展示,这将允许XML兼容网站的系统发展。

为通过组织网站达到高效的组织控制,象Penn State一样的大学需要把元数据框架和政策合并到网站发展的战略计划中去。这将包括合并描述性的元数据方案如Dublin Core ,在此之中,大学网站的管理页面拥有很多种描述性元数据。 大学网络的搜索引擎得以配置,明确地查找描述性元数据中的成分。 因而,网站将围绕着基于元数据的搜索工具和集成的导航特征来发展。随着网站的发展,导航、搜索和发现原则将和通过网站获得的实在信息一样重要。

意图依然很强烈,就是赞同网页作者创造自己的元数据(元数据发展团体预见直观的基于网络的形式能保护普通的网络创作公众,使他们不受Dublin Core规范复杂性的困扰。),并且大学图书馆在发展策略中的确能扮演重要角色,这个策略是为基于网络的资源创造正式的元数据创作的工作流 。 正如我们所看到的,对图书馆技术的需求已经被越来越多的共识所驱使,人们认识到某种程度的复杂性是在查找检索中发展充分的具体性和可靠性所必需的。 总之,当基于网络的数字资源呈指数增加时,人们能听到不断增长的呼声——在较好的组织控制下产生资源 。 这导致了元数据理论的相应发展,同时,元数据概念的战略性应用,在正进行的信息知识库的开发中扮演重要的角色。 这篇文章的重要前提是:大学需要界定组织网络的概念和它的发展基石——元数据,紧紧地围绕在大学管理部门的组织、管理环境中。 通过把网络的主要功能转变为在社会中更适宜的组织任务,大学将成功地利用互联网的潜力。 作为一个公共机构,我们在演变的数字革命中如何组织和显示大学的角色,这对于它的未来是至关重要的。 考虑到大学网站的至关重要性,Penn State应该果断地提出这样的问题:Penn State应该如何定义他们希望利用的技术?作为高等教育机构,它将如何在社会中实践自己的任务?

【作者】Michael J. Halm、Michael Pelikan,李琳翻译,钱磊编辑 来源:中知网根据相关资料编译