以下文章来源于“中国国家图书馆·中国国家数字图书馆网站”
背景解读或引言:国家图书馆于2007年加入国际互联网保存联盟(IIPC),本文是国家图书馆代表团于2015年参加国际互联网信息保存联盟大会形成的总结报告。报告指出国际信息技术发达国家在该领域已深耕多年,积累了丰富的实践经验和保存了大量的互联网内容。
以下为正文:
2015年4月27日-5月1日,由数字资源部研究馆员张炜和信息技术部工程师童忠勇组成的代表团,参加了在美国斯坦福大学召开的国际互联网信息保存联盟会议。会议期间,代表团还参观了美国互联网档案馆(Internet Archive)。
一、互联网信息保存联盟介绍
国际互联网保存联盟(IIPC)是2003年在法国国家图书馆成立的国际性组织,该组织致力于推动网络存档资源的广泛获取和利用,进而促进学术研究和文化遗产保护。目前该组织成员有49个,涵盖国家图书馆、区域组织、非盈利基金会、学校图书馆和档案馆等,其中始创成员11个,分别为:法国国家图书馆、英国国家图书馆、芬兰国家图书馆、瑞典国家图书馆、冰岛国家与大学图书馆、加拿大图书馆和档案馆、美国国会图书馆、挪威国家图书馆、澳大利亚国家图书馆、丹麦皇家图书馆以及美国互联网档案馆。我馆于2007年7月成为该组织成员。
二、参会基本情况
国际互联网信息保存联盟会议每年举办一次,本次会议主题既有针对网页存档的前沿技术探讨,也有成员机构的实践经验分享。从形式上分为公开会议和工作组会议。
(一)公开会议的主要内容
软件保存
Google首席互联网专家Vinton Cerf先生以《数字牛皮纸:经过若干世纪的数字对象交互》(Digital Vellum:Interacting with Digital Objects Over Centuries)为主题,进行主旨发言,阐述如何保存创建的数字对象的有效内容。卡内基梅隆大学计算机科学学院Mahadev Satyanarayanan教授针对“橄榄档案”做了相关报告。
网络全局
丹麦奥胡斯大学副教授Niels Brügger和丹麦网络档案(Netarchive)高级研究员Ditte Laursen从分析法与方法学角度阐释了如何进行丹麦国家网络域名发展研究项目。英国国家图书馆网络存档技术负责人Andy Jackson介绍了“英国网络档案”十年以来的保存成绩及工作回顾。
小数据与大数据研究
德克萨斯AM大学副教授Cathy Marshall进行主旨发言,题为《我们是否该存档Facebook?为什么用户错了而美国国家安全局正确》,芝加哥Loyola大学助理教授Meghan Dougherty、奥胡斯大学Annette Markham以及荷兰Groningen大学助理教授Susan Aasman介绍了日常生活中“小数据”的存档,伦敦大学历史研究所教授Jane Winters、英国国家图书馆网络存档项目负责人于虹、牛津互联网研究所研究助理Josh Cowls分享英国主域“大数据”艺术与人文项目概况、档案访问开发和使用方法。
访问服务
美国原子能研究中心洛斯阿拉莫斯国家实验室的Herbert VandeSompel从增加可视化、支持第三方开发、增加稳健性、增加范围四个方面详述了“纪念品”(Memento)及其基础设施现状。葡萄牙网络档案的Daniel Gomes以网络档案信息检索为题作了报告,他提到自1996年以来,全球网络信息档案项目共有17PB资源、5340亿个文件。
爬虫以外的新存档应用
Ilya Kreymer针对建设新的存档服务“网络记录器”(WebRecorder)做了报告。每个用户都可使用“网络记录器”记录网页、下载上传并回放WARC。弗吉尼亚理工大学Zhiwu Xie从动机、技术背景、UWS系统架构、演示、未来工作五个方面介绍了存档交易记录的不间断网络服务(Uninterruptable Web Service,UWS)。
网络信息采集内容分析
弗吉尼亚理工大学的Mohamed Farag以《网络档案内容分析:灾难事件案例研究》为题做了报告,从建设事件档案、事件模型与展示、评估档案质量、质量评估工具与结果、未来工作五个方面展开论述。
丹麦皇家图书馆的Eld Zierau针对确认本国顶级域名以外的互联网上的本国内容进行报告,解释分别从互联网档案馆和丹麦互联网档案获取采集数据的不同办法及流程,并对两种结果进行对比分析。
研究数据集以及数字化考古的采集
互联网档案馆的Jefferson Bailey针对作为研究数据集的网络档案进行报告,详论了网络数据的诠释学,以及研究服务的三种数据集及其优点:网络档案转化为关键元数据(WAT)、纵向图形分析(LGA)、网络档案命名实体(WANE)。
斯坦福大学图书馆Ahmed AlSum介绍了借助Wget和一些手动更改恢复美国的旧网站,,将1992-1999年的SLAC网站备份材料转化成WARK和CDX文件,让它们如当初采集的一样。只有实现了这种转换,老旧的网站才能在Open Wayback系统中得以正确再现。
WARC格式数据标准
亚历山大图书馆的Youssef Eldakar介绍了如何进行网络档案的复件删除记录WARCRefer。Clément Oury主持了WARC标准修订讨论。丹麦皇家图书馆的Eld Zierau针对作为所有保存数据材料的包装格式WARC为题,作了报告。
WARC的标准化过程始于2006年,2009年获得ISO28500认证。
(二)工作组会议的主要内容
采集工作组
IIPC“采集工作组的三位成员Sara Aubry,Roger Coram和Kristinn Sigurðsson分别作了三场相关报告。Sara Aubry的报告题目为《收费墙号模式下的数字报纸采集》,Roger Coram以《使用PhantomJS补充爬行》为题作了报告。于虹还对Open Wayback 2.X.X版本的开发和发布作了报告。Tom Cramer作了题目为《数字图书馆应用程序界面与合作软件开发》的报告。
访问工作组
有六场报告,讨论议题分别为数据挖掘和WAT文件的格式、工具与使用案例;网络档案的全文检索和Apache Solr软件。Perter Stirling的报告题目为《法国国家图书馆使用WAT绘制第一次世界大战》,Sara Aubry和Vinay Goel以《创建WAT文件的WAT格式与工具》为题,介绍了WAT格式以及它和WARC格式之间的关系、创建WAT文件的JAVA库。
Vinay Goel和Andy Jackson针对WAT格式在互联网档案馆和英国国家图书馆的应用和挑战做了主题报告。Apache Solr所属公司Lucidworks员工以Apache Solr为主题,说明Apache Solr是世界最受欢迎的检索途径。
Andy Jackson阐述了英国国家图书馆网络档案的全文检索架构、检索词设置、访问系统特性、用户界面索引架构、Hadoop索引架构、存储分区与Solr云,其中检索词设置包括词干提取、多种词汇过滤、同义词、关键词等。哥伦比亚大学人权档案研究中心的Alex Thurman介绍了“哥伦比亚大学人权网络档案”基于Solr4.2版本的全文本检索与元数据检索。
三、参观情况
会议于4月29日安排参会代表们参观了美国互联网档案馆。该档案馆成立于1996年,由Alexa创始人布鲁斯特·卡利创办。提供数字数据如网站、音乐、动态图像、和数百万书籍的永久性免费存储及获取。位于旧金山靠近著名的金门大桥,由创办人购买的一个教堂改建而成。由于联盟就是由IA发起成立的,所以联盟的LOGO就是这所教堂的正门外观。教堂二层大厅被设计成了报告厅,高高的拱形圆顶、精美的图画,一排排用于祷告的椅子,都在诉说着它过去的历史,同时该档案馆也定期收录并永久保存全球网站上可以抓取的信息,目前其存储的网页数据总量已经将近9PB,并以每周20TB的速度增长。也为其他国家的类似项目提供技术和存储上的支持。
四、几点建议
一是对网络信息保存重视程度的亟待提高。
对网络信息进行保存,能够及时、有效地记录时代文明发展脉络,提炼、积累与传承中华优秀文明最新成果及其生动展现形式,有利于讲好中国故事,传播中国声音,提升我国在信息环境下的文化软实力,不断增强中华文化竞争力。与国外发达国家相比,我国网络信息保存工作整体差距还较大,应重点加强社会上下对网络信息保存工作的认识,加大在政策法规、资金投入等方面对网络信息保存的支持力度,使我国网络信息保存工作为国家安全、政府决策、经济发展和社会管理等方面提供科学权威的智力支持。
二是要勇于走出去借鉴和学习最新的经验和技术。
虽然国家图书馆网络信息保存项目经过了将近10年的建设,但是在网络信息的存档方面,我们跟其他国家图书馆和文化机构在技术能力、研发能力、政策保障、宣传等方面差距还很大,在软硬件配置和功能开发上都还处于比较浅层和简单的应用水平。当前美国、英国等网络信息保存工作较为成熟和完善的机构组织大多为IIPC成员,此次参会和对当地的走访参观收获和感悟良多,一些工作细节也在沟通中得以解决。希望通过增加这样的学习机会,使网络信息采集工作在与国际同行的“知己知彼”交流中从采集策略的制定、到技术应用的研发、再到网络信息资源的展示和服务能够得到质的提升。
三是积极开展全方位的合作,借力发展全国网络信息采集工作。
通过多种渠道来加大我馆网络保存保护项目的宣传力度,包括在国际方面,积极参加IIPC年会并与国际同行开展交流,了解国际最新技术和实践进展,扩大我馆在国际上影响力,增强与国外相关组织机构的合作可能性。在国内,可经过中国图书馆学会成立网络信息保存保护专门委员会,聘请专家智囊团为项目建设出谋划策,推动业界对该领域的关注与研究。同时,利用数字图书馆推广工程平台使业界了解相关工作的意义和必要性,并通过国家图书馆的示范效应,带动公共图书馆共同加入网络信息采集与保存工作中,形成以国家图书馆为中心,各省市图书馆为节点的多层级、分布式的资源组织与服务体系。