内容摘要:文章以关联数据思想为基础,提出了一个基于关联数据的递进式政府数据开放模式,将政府数据开放分为数据开放、关联开放和深度开放三个阶段,给出了一个四层结构的松耦合和开放性的技术框架,对框架所涉及和需要解决的关键性问题进行了探讨,包括数据描述与发布、数据管理与服务、语义互操作支持以及社会化参与等,为相关研究和实践提供一个系统性的路径指导和实现参考。
关键词:关联数据;政府数据开放;关联开放政府数据(LOGD)
作者简介:
作者简介:赵龙文(1964- ),男,华南理工大学经济与贸易学院副教授;莫荔媛(1993- ),女,华南理工大学经济与贸易学院硕士研究生;潘卓齐(1994- ),男,华南理工大学经济与贸易学院硕士研究生。广州 510006
内容提要:文章以关联数据思想为基础,提出了一个基于关联数据的递进式政府数据开放模式,将政府数据开放分为数据开放、关联开放和深度开放三个阶段,给出了一个四层结构的松耦合和开放性的技术框架,对框架所涉及和需要解决的关键性问题进行了探讨,包括数据描述与发布、数据管理与服务、语义互操作支持以及社会化参与等,为相关研究和实践提供一个系统性的路径指导和实现参考。
关 键 词:关联数据 政府数据开放 关联开放政府数据(LOGD)
标题注释:本文系国家社会科学基金项目“基于关联数据的政府数据开放研究”(编号:14BTQ009)的研究成果。
大数据是当前最热的话题,被视为引领未来繁荣的三大技术变革之一,然而,驱动大数据发展的核心资源——数据在哪儿?美国白宫2012年3月29日发布的“大数据研究与发展倡议”将政府数据开放视为确保美国科技产业在大数据时代领跑全球的重要举措,2013年5月9日,奥巴马发布的“实现政府信息公开化和机器可读”总统令,要求联邦机构开放他们所拥有的数据资源,让公众能够“容易发现、获取并使用”。2009年5月和2010年1月,美国和英国的政府数据开放门户网站Data.gov和Data.gov.uk相继上线,成为政府数据开放的里程碑,紧随其后,加拿大、澳大利亚、新加坡、肯尼亚、挪威、荷兰等国家和地方政府纷纷大批量地公开数据,并建立各自的公共数据开放平台和网站。在国内,北京、上海、浙江、武汉、青岛以及佛山南海区、宁波海曙区等也先后开通了各自的政府数据开放网站。2015年8月31日,国务院发布的《促进大数据发展行动纲要》提出了三大任务,其中第一个任务就是“加快政府数据开放共享,推动资源整合,提升治理能力”,并计划在2018年建成我国政府数据统一开放平台,这标志着我国已经在国家层面对政府数据开放进行规划和推进。
由此可见,各国政府、学者和公民已经逐渐认识到:政府在行政管理和社会治理过程中积累的大量数据不仅是政府的,也是国家和全体公民的宝贵资源和战略资产,同时也是驱动大数据发展和亟待开发的重要数据源泉,实现政府数据开放,对于构建透明公信、社会参与、广泛合作的服务型政府,促进政府部门之间的数据共享、数据资源的社会化开发以及国家大数据发展战略的落地生根和生态繁荣具有十分重要的意义[1-3]。
1 研究背景
政府数据开放(Open Government Data)就是把政府所掌握的大量数据,在不涉及隐私、安全和版权的前提下,以“原始的”和“机器可读”的形式向社会开放,让任何人均可免费使用、转化和共享。2007年11月,开放政府工作组提出政府数据开放的八项基本原则[4],包括完整(涉及隐私、安全和特别限制的数据除外)、原始、及时、可获得、机器可读、非歧视(对所有人都可用)、非专有格式、无须授权,这些原则为建设更加高效、透明和亲民的开放政府提出了一个清晰的路径。
政府数据开放主要包括开放数据集的描述与发布、组织与管理、使用与消费三个环节,重点需要解决三个问题:(1)如何描述和发布政府开放数据?(2)如何让用户更好地找到和利用他们所需要的数据,包括准确理解、机器处理、跨领域跨部门多源数据混搭等?(3)如何对发布的数据进行良好地组织,提高数据的质量并方便各类用户和应用高效地检索和利用数据?Li Ding等[5]认为基于关联数据的解决方案——关联开放政府数据(LOGD)对此能够提供理想的帮助,并设想了政府数据开放三个阶段(开放、关联、利用)对应的三大挑战:(1)如何在大量缺乏关联协作的数据集目录中发现和消费数据?(2)如何将简单的数据集目录演化为更具协作的LOGD集市?(3)如何确定众多LOGD应用直接或间接使用的数据源?这些问题和挑战也是当前广受关注的研究热点[6-10],如出现了众多的数据集描述元数据和词汇集,包括DC、FOAF、SKOS等,文献[11]提出的VoID(Vocabulary of Interlinked Datasets)从访问、结构和关联等多个维度为数据集的描述提供支持,文献[12]对Data.gov和Data.gov.uk等7个典型的政府数据目录所使用的词汇情况进行了分析和研究,提出DCAT目录词汇和交换格式能帮助数据目录之间的相互理解,R2R框架[13]允许第三方开发并发布词汇映射数据集,使得应用程序可以将其他未知的词汇翻译和转化为本地词汇,以实现多源数据的混搭和复杂处理,而Silk链接框架[14]通过启发策略和多种相似度计算支持数据源之间的关联发现和维护等。
然而,由于目前关联数据的研究和成果大多并非针对政府开放数据,未能充分考虑和利用政府数据开放在组织、协调、管理以及系统、权威、规范、完整等方面具有的明显优势和特征,没有一个比较权威和规范的顶层规划和实现框架,对于政府数据开放的主要流程和环节、开放数据集的组织、管理和服务、涉及的主要任务和关键技术等的研究缺乏针对性和系统性,研究目标分散、成果集成困难[15]。为此,本文提出了一个三级递进式的政府数据开放模式,并探讨了基于关联数据的实现框架以及所涉及和需要解决的关键性问题,为相关研究和实践提供一个系统性和渐进式的集成框架和实现路径。
2 基于关联数据的政府数据开放:概念、问题及模式
2.1 政府数据开放与关联数据
政府数据开放要求政府部门将其所掌握的高价值的海量数据释放给社会,供各类用户以各种方式进行开发和利用。来自政府不同部门或同一部门的不同数据集只能分别反映客观事物的一部分侧面和事实,而客观世界中事物的许多属性是与其所处环境以及与环境中其他事物密切相关的,对这种客观环境和事物之间相互关系的综合了解是认识客观世界和事物的重要途径。单一孤立的数据集就如同数据库中一个单一孤立的数据表,或者如互联网上的一个独立网页,其价值是有限的,因此,发现和建立这些数据集之间的相互关系,对于实现众多公共数据资源的相互参考、数据创新、综合开发和有效利用非常必要。
关联数据(Linked Data)由互联网的发明者Tim Berners-Lee在2006年提出[16],其目标是形成一个类似于互联网(以网页为基本单元)的数据网(Web of Data,以数据为基本单元)。其基本思想和原则是:(1)使用URIs来命名事物;(2)使用HTTP URIs查询事物;(3)在用户查询一个URI时提供有用的信息;(4)同时提供其他URIs的链接,以帮助查询者发现更多相关事物的有用信息。他认为,数据之间的关系很有意义,关联起来的东西越多,数据就越有价值,并在2009年题为“关联数据开启互联网新纪元”的TED演讲中为人们描绘了公开且关联的数据所带来的无限魅力和好处,同时希望政府数据能够以关联数据的形式向公众开放[17,18]。开放数据由于不涉及任何授权和隐私,鼓励不受限制地自由开发和利用,特别适合采用关联数据的思想进行组织和服务。相互关联且具有较好自解释能力的海量开放数据对于大数据的跨领域多源数据的智能化处理和应用具有十分重要的意义。
关联数据将数据集定义为针对某一特定的主题,从某个数据源或业务过程产生,由某个单一提供者发布、维护或被某个管理者聚合和管理的一个RDF三元组集合。RDF(资源描述框架)是关联数据采用的数据描述框架,其基本构成单位是一个主谓宾三元组,分别表示资源、属性和属性值,一个三元组描述一个资源的一个属性,表示该资源和属性值之间的一种关联关系,可视为数据图结构中的一条有向边及其两个邻接顶点,一个数据集所包含的多个三元组即可完整地描述该数据集的数据结构。如果一个三元组的主语和宾语为同一数据集中的两个实体,则称这种关系为数据集内部关联。也可以跨数据集建立一些三元组,即一个三元组的主语(资源)和宾语(属性值)为分属不同数据集的两个实体,相当于用一条边链接两个不同数据图结构中的两个顶点,称其为数据集外部关联。另外,还可以在两个数据集实体之间建立关联关系,表示为一个RDF三元组,其主语和宾语分别为两个数据集的URI,谓语为这两个数据集实体之间的关联关系,如可以在具有不同版本、不同语言、不同时间区间、不同覆盖区域、不同发布者等两个数据集之间建立关联,称为数据集关联。通过大量的内部关联、外部关联和数据集关联,可以将众多资源相互关联,构成关联开放数据云(Linked open Data cloud,LoD cloud),进而形成数据网(Web of Data)。
一部分内部关联和数据集关联,可以在数据集描述和发布时由发布者自主建立,也可以由数据集管理和服务提供者通过手工或检索的方式进行发现和建立。随着政府开放数据的不断增加,数据之间的关系也会变得越来越复杂,有大量的关联关系需要发现和建立,对于比较复杂的外部关联,需要在实体识别的基础上依赖资源同一性检测和关联发现算法来实现[1920]。
另外,数据开放是一个动态过程,已发布的数据可能会更新或撤销,目标数据集的任何变化都有可能导致已建立的关联关系失效(如断链、死链、错链等),因此,需要对已建立的关联关系进行维护,及时发现目标数据集的状态变化,保证关联关系的准确性和有效性。目前主要采用的方法包括基于协议、基于更新通知和基于主动监测机制的动态链接维护方法[14,21,22]。
2.2 关联开放政府数据(LOGD)面临的技术问题及实现模式
政府数据开放强调面向开放世界、机器处理以及数据的发布和数据的使用相互分离,与现有的面向封闭世界的数据库系统不同,数据的提供者在发布数据时预先并不清楚其数据将会在何时被什么人以何种方式进行加工和利用,也不能完全了解其他数据提供者已经或将会发布那些数据,无法预先对源自不同提供者的开放数据集的结构、命名、标识语义以及数据集之间的相互关系进行系统性地设计和定义,数据提供者提供的数据通常是孤立的,数据的结构、格式、命名、标识等是自定义的,因此,数据发布者必须对所发布的数据集进行准确和科学地描述,以保证管理者和使用者能够准确地发现和理解这些数据,进而对其进行良好地组织管理、操作集成和开发利用,其核心问题包括数据描述、数据理解和数据关联,然而,目前这些方面还面临不少问题有待研究和解决,如:(1)在数据描述方面:大多采用信息资源描述方法对数据集实体进行粗粒度的描述,缺乏针对机器处理的访问属性和数据集内部数据的细粒度描述;普遍使用的RDF(资源描述框架)允许用户自己定义或自由使用已有的词汇表,数据描述能力优秀灵活,但同时也导致数据集之间产生词汇异构而影响相互理解;数据集描述的方法、语言和框架等缺乏规范和标准,影响了数据集的组织、使用和质量保障。(2)在数据理解方面:缺乏广泛和有效的领域本体、概念词汇和语义支持,数据集之间的词汇映射、语义互操作、关联数据的检索和语义搜索等仍然是目前研究的热点问题,现有的方法还需要较多的人工介入,实现困难、繁琐。(3)在数据关联方面:以关联数据的思想实现政府数据开放已基本达成共识,趋势明显,但针对政府数据开放特点的相关研究和成果还比较罕见;关联数据的相关理论、技术和工具的研究和实践已经取得一些进展和成果,但还不够成熟,关联发现和关联维护的算法和效率还不够理想,需要较多人工介入,数据关联的类型还比较单一,而针对大规模政府开放数据资源的组织及关联价值评估等的研究还基本处于空白状态。






