推荐阅读:摘要:本文介绍了关联数据概念,提出了基于关联数据的语义数字档案馆概念,并设计了语义数字档案馆的框架,该框架具有四个层次:数据发布层、数据网、数据存取整合保存层和应用层。其核心是用RDF三元组替换档案数据库,将传统的档案数据发布为关联档案数据,
摘要:本文介绍了关联数据概念,提出了基于关联数据的语义数字档案馆概念,并设计了语义数字档案馆的框架,该框架具有四个层次:数据发布层、数据网、数据存取整合保存层和应用层。其核心是用RDF三元组替换档案数据库,将传统的档案数据发布为关联档案数据,实现档案数据的共享、扩展和重用。
关键词:语义数字档案馆;关联数据;元数据;RDF
Abstract:Thispaperpointedouttheconceptsoflinkeddata,proposedaconceptionofSemanticDigitalArchivesonbasedonlinkeddata,anddesignedtheframeworkoftheSemanticDigitalArchives,whichincludesfourlayers-publicationlayer,webofdata,dataaccessintegrationandstoragelayerandapplicationlayer.ThecoreoftheframeworkismigratingtraditionalarchivedatatoLinkedArchiveDatawhichissharable,extensible,andeasilyre-usable.
Keywords:SemanticdigitalArchives;LinkedMetadata;RDF
1前言
关联,或者说“互相联系”的概念对于档案行业并不陌生,比如档案整理就要求保持文件之间的有机联系,还有“参引”的概念等。档案人员花费大量的人力物力来著录档案数据,其目的之一就是揭示档案和档案责任者或其他背景之间的联系,但其中的许多内在联系,并不能为计算机所理解和使用。档案数据被局限于各个不同的软件系统和数据库中,没有和网络资源整合在一起。档案数据基本上没有成为一种广为人知的网络存在,能够被方便地查找、标识、选择、获取、利用及为第三方开发新的应用。近年来,关联数据LD(LinkedData)技术的兴起,第一次为上述目标的实现提供了一种可能。
2语义网及关联数据概述
2.1语义网与关联数据概念。万维网的发明人蒂姆?博纳斯-李将下一代互联网称为“语义网”,并解释说“语义网就是数据网”。所谓“语义”,是指遵循一个统一的标准,给每一片信息赋予一个计算机都能理解的“意义”,也就是“元数据”。在当前使用的万维网上,网页是信息资源的基本组织单位,每个网页都有一个网址,即“统一资源标识”(URI),它们通过开发者定义的链接连接起来,用户可以从一个网页跳跃切换到另一个网页,即网上冲浪。
在语义网上,数据将像网页一样,成为组织资源的单位。一个数据,可以像万维网上的网页一样获得一个网址(即统一资源标识URI),同时,还有统一的语义对它进行描述。这样,语义网上的数据,就不再是一个死的数字,而是一个活的“细胞”,它可以被定位,还拥有和其他数据语义一致的标签,这意味着它可以和其他数据相联。之所以称之为相“联”,而不是相“连”,是因为,它们并不是像网页一样通过一个链接简单连在一起,而是通过数据之间内在的关系挂起钩来,“联”在一起。这种关系,不是随便定义的,而是基于数据的含义和属性产生的。这种相联,就像两个数据库通过“主键”(Primarykey)相联起来一样,不同的是,这里的“主键”,是一个数据的元数据。
“语义网,从某种程度上来说,就像一个全球性的数据库。……语义网不仅仅是把数据放上网,它还要在数据之间创建联接,数据一旦联接,计算机和人都可以对数据进行探索:通过一个数据发现另外一些相关的数据。”[1]这将是一次划时代的革命。而关联数据是一种推荐的最佳实践,用来在语义网中使用URI(统一资源标识符,即网址)和RDF(资源描述框架)发表、分享、连接各类数据、信息和知识(引自维基百科)。蒂姆?博纳斯-李概括出在网上发布关联数据的四原则:
1.使用URI(统一资源标识符)作为任何事物的标识名称。
2.使用HTTPURI,任何人可以定位到具体的对象。
3.当有人访问名称时,提供有用的信息。
4.尽可能提供相关的URI,以使人们可以发现更多的信息。[2]
关联数据可以说是语义网的一个简化实现。
2.2RDF三元组举例说明。RDF(ResourceDescriptionFramework)是一种信息资源描述框架,使用主体、谓词、客体三段式描述现实世界实体(thing),回答两种问题: a.这个实体(thing)是什么?(属性-值)
b.这个实体(thing)和其他实体(thing)有什么关系?
这两种问题的答案都可以用三元组来描述,如:
姚明出生于(birthPlace)上海
①[主体]②[谓语(属性)]③[客体(值)]
图1三段式举例
这个三元组就是RDF的表达方式:主体-谓词-客体结构。
谓词、客体均尽可能使用已有的URI,如“姚明”可使用一个已有的唯一的网址
http://dbpedia.org/page/Yao_Ming,“上海”也使用一个已经存在的网址
http://dbpedia.org/page/Shanghai,这样就可以生成一个RDF三元组:
图2RDF三元组
三元组的客体部分也可以变为主体,能产生新的三段式。比如上海,还可以有自己的属性和值。谓词、客体允许其他人使用自己的数据。三段式的任何一部分都可以回答检索问题,三段式的任何一部分都可以集中很多信息。比如来自某小学的姚明的毕业证书,可以与某网站上姚明的照片自动关联,只要两者生成的RDF三元组中“姚明”使用的是同一个URI。信息从而不仅仅是信息,已经转化为相互联接的知识。这种联接是格式化数据的相联,不是文本的相联,是机器可理解和可处理的数据,是对现有数据的再利用,可产生新的资源,其又被利用、再利用,可无限扩展下去。
这种自动关联,称之为RDF链接。RDF链接是关联数据技术应用最大的价值,它不仅可以对实体的内部资源进行链接,还能够实现实体与实体之间的链接,从而将各自独立分布的实体织成数据网络,使得用户能跟随RDF链接从一个实体遍历到另一个实体,获取更多更加标准化和规范化的数据资源。如下图:
图3RDF链接
3语义数字档案馆概念及基本框架
本文提出了语义数字档案馆概念,主要利用关联数据发布数字档案馆资源、扩展资源发现服务、实现数据整合与语义检索服务、实现异构关联数据的开放与复用。
从目前档案部门数据来看,大部分是格式化的数据,如excel或dbf,也有非格式化的数据如PDF等,均不具备语义表达功能,要对这些分布、异构的数据进行共享和操作是很困难的,改变档案数据著录和发布标准,按照关联数据标准对现有档案数据进行改造、发布,显得尤为重要。
本文设计了一个基于关联数据的语义数字档案馆基本架构,其功能层有三层:数据发布层,数据存取、整合和保存层,数据应用层。
图4基于关联数据的语义数字档案馆框架
数据发布层主要由数据发布者构成,是核心部分数据网的数据提供者。各机构以关联数据的形式发布本机构的信息资源。根据关联数据的发布原则,首先确立每一个独立存在的实体对象(例如单位、人员、事件、文档),赋予其唯一的URI作为标识,将传统数据转成RDF三元组数据集。数字档案馆可将元数据集、机构、名人、事件等作为规范文档发布为关联数据。部分允许开放的档案目录数据也可以发布为关联数据。
数据应用层由关联数据消费者即查询者构成,它们主要是应用数据网中的数据,来满足自身的数据需求,其消费方式包括浏览、发现、抓取、检索、混搭、推理、展现。
数据存取、整合和保存层,处于中间一层,由关联数据的第三方参与者构成。它提供了一系列基础服务,如本体词汇的维护、不同本体词汇间的相互映射、数据标识的规范控制等。这一层其实是关联数据网的基础设施,构建了数据发布者和消费者间的桥梁。
档案部门可以存在于这三个功能层中,它可以作为数据的发布者而成为发布层的主要组成部分;它又可以成为关联数据的消费者。更重要的是,档案部门以其天然的权威性,可成为数据存取、整合和保存层的主力军。其工作包括:制定域名策略,以保证URIs的一致性、稳定性,提高效率和质量;创建和维护URIs,保证URIs的持久性;保存元数据和属性值词汇;长期保存和维护数据集;实现不同本体词汇之间的相互映射。
语义数字档案馆用RDF三元组替换档案数据库,用统一资源标识符(URIs)标识每一份档案(无论是电子还是实物档案)。
4档案数据转换为RDF三元组过程
传统上档案的著录数据是两维结构,如:
表1档案著录数据举例
ID
题名
责任者
主题词
…
年度
档案A
54321
市档案局关于档案宣传活动的通知
郑州市档案局
宣传、通知
2011
档案B
76543
市档案局关于召开2013年度档案培训班的通知
郑州市档案局
培训、通知
2013
采用RDF三段式表示以上著录数据,如下图:
图5三段式表示档案数据 由上图,将档案数据根据其性能分为三类:数据集、元数据集和取值词汇。取值词汇作为客体,有些值是常数,如2013,而有些则是可以识别的实体,如“郑州市档案局”。
例如,“档案A”相对应的URI可以定为档案馆Z所在网址+馆内唯一ID号http://MyArchiveZ.com/54321
属性尽可能使用已有的URI,如:题名title,来自DC(都柏林核心元数据元素集,图书馆使用,已发布为关联数据),URI为http://purl.org/dc/terms/title(dct:title)
生成的RDF三元组如下:
5基于关联数据的语义数字档案馆应用前景
“关联数据”自2006年提出至今,受到各界的广泛关注,研究的深度和广度都得到不断拓展,应用领域也有长足的进步。然而问题和困难还是存在的,关联数据的发展还有很长的路要走。但是其资源数量的庞大性、人机互动的灵活性以及信息发布的高效性,都决定了它未来发展的必然性。面对大环境,档案部门作为信息的采集者、储存者和提供者,将关联数据这一前端技术应用到工作中已是大势所趋。
基于关联数据的语义数字档案馆,不仅大大提高档案资源的利用率,而且在更大程度上满足社会公众的文化需求,其优势如下:
5.1从封闭的数据到开放的数据。目前档案数据存储在各自的数据库中,没有与网络上其他数据资源整合。其实档案数据和网络上其他类型的资源,可以在日期、机构、人物、全宗、事件等方面实现互连。档案数据覆盖众多部门、机构、团体,经常需要数据交换与转换,也就是需要数据开放。关联数据技术本身并不要求将数据开放,但是该技术随时可以将数据发布为关联的开放的数据。不仅可以在本单位内使用、外部各种的应用也可以获取并使用,数据成为网上的资源,不仅是人可读的资源,还可以被电脑所使用,可在更大范围内被任意链接和重用,发挥数据的最大价值,消除信息孤岛。
5.2从固定的数据到可混搭的数据。关联数据间可以随意混搭,甚至可以和其他关联数据的不同片段进行混搭。通过自下而上发布数据的方法,关联数据技术为档案部门提供了改善著录现状的机会。过去描述档案数据,一条记录作为一个独立的整体,不能产生高粒度的信息。有了关联数据技术,同一资源可以以分散的方式由不同的责任者提供不同的著录数据,而这些数据可以整合在一起。文件生成部门提供某文件的原始数据,如题名、责任者等;档案室添加文件归档时的信息,如归档时间、保管期限、室编件号等;档案馆添加馆藏信息,如档案馆、馆编件号等,查档用户可添加附加信息,如在维基百科的链接等。档案馆人员为所有这些与本文件相关的信息生成页面和链接,作为关联数据发布到万维网上。无数据冗余,每个流程只创建自己的部分数据;无需下载到本地,所有数据都“联邦”链接;责任明确:哪个流程的元数据出问题,不会影响其他;无需统一工作平台:以数据为中心,流到哪个平台就在哪个平台加工。系统各组成部分松散耦合,互相联系却互不干扰,整个系统成为一个不断增长的有机体。
关联数据技术可以帮助机构提高内部数据的整合过程,另一优势是数据发布者可以将发布的数据的部分信息开放。即使机构内部的数据没有完全开放,关联数据技术也可以提高机构内部数据的发布过程。
5.3从低质量的数据到高质量的数据。关联数据,能够有效维护各单位不同类型数据的一致与完整性,为查询者从大量的信息资源中获取所需要的信息和问题提供解决方案。如,同一责任者“郑州市人民政府”在不同单位可能简称不一,应该统一为同一名称,但这样做费时费力。如果将“郑州市人民政府”赋予唯一的URI,各单位都引用这个URI,就可以保障数据的一致性,并减少数据冗余。档案部门的资源可以跨领域得到广泛的参引。互联网的域名系统保证了URI的稳定性、可信性和可持续性,这和档案部门的长期保存信息资源的使命是一致的。
5.4摆脱数据格式和软件商的限制。所有的技术都是有寿命的,每一阶段代表性技术都不例外。关联数据描述的数据(包含语义),不受限于数据格式(语法或者格式),因此,保证了关联数据不会被格式的变化所淘汰。通过一般开源软件就可以满足开发需要。
6关联数据技术在应用中可能遇到的问题
6.1技术难题:要实现基于关联数据的语义数字档案馆,需要运用一些语义网的技术,例如SPARQL和OWL等,需要工具和技术支持。
6.2各相关系统封闭问题:关联数据最大的阻碍就是封闭,如果其他数字档案馆、数字档案室、OA系统都不开放,关联数据也就无计可施。需要鼓励更多的数据提供者参与进来,并且保证用户能够规范使用这些数据。
6.3关联数据的监管问题:如果某一数据源的数据被修改或删除,数据源之间的关联很可能发生断链现象,从而使得基于关联数据的应用程序发生错误。需建立起有效的监测和修正机制以维护关联数据的参照完整性和数据更新的同步性。
尽管基于关联数据的语义数字档案馆目前只是一个框架,也有可能遇到各种问题,但关联数据是在语义网时代,提供对任何网上资源和数字对象进行著录和规范控制的基础技术。关联数据技术为档案行业带来了千载难遇的新机遇,若能利用好这个机遇,档案行业将成功实现向数字化、网络化、开放化的华丽转身,在网络时代创造新的辉煌。
参考文献: