原文以Disks back from the dead为标题
发布在2017年5月2日的《自然》新闻上
原文作者: Monya Baker
从老式软盘或计算机磁带中提取数据并非易事,但借助智能软硬件也能有所收获。
2012年,William Parker和同事们找寻过一组数据,其内容详细记载了分布于1500平方公里范围的白云杉树林十几年的生长情况。他们找到一卷计算机磁带、一张相对算是新式的3.5英寸软盘以及一盒老式5.25英寸软盘。它们记录的数据来自20世纪70年代后期进行的一些以提高商业林地产能为目的的田间试验。Parker来自加拿大苏圣玛丽市的安大略省森林研究所,他需要评估类似“协助迁徙”等方法能否在地球变暖的背景下保护森林。前述长期系统化研究正是他想要的,他说,“我们找到它时的情形就像,‘找到啦!哈利路亚!终于到手了!’” Project Twins 不能高兴太早。Parker启动了一台老式电脑,但无法读取那张新式3.5英寸软盘。甚至没人有能读取老式软盘和磁带的设备。 Parker的IT服务方给他推荐了一家数据恢复公司。结果那些老式软盘是一种双面软盘,能用来读取的驱动器很少。通过一台小心放置的打孔机,外加数字取证技术,以及一些可以将旧版代码转换成新版电子表格的程序,专业人员最终获取了这些软盘内的数据。 Parker的经历可以概括许多研究人员遇到的问题。从淘汰的存储介质上恢复数据就像解锁层层铁笼,AVPreserve公司(位于威斯康星州麦迪逊市)的档案员Bertram Lyons评价道,“科学家们有被困在早期格式里的数据”。其中一些是因为硬件屏障,另一些是因为数据结构,两者都会遭遇升级淘汰。 想要从老介质读取数据的科学家们首先需要找到可用于读取的设备,并连接到现代计算机上(见‘老式介质’)。然而将文件转移到新型介质上只是第一步,下一步是如何正确解读内容,这需要另一套工具。 拷贝到新介质 如果是旧式硬件造成的问题,本地图书馆或许是个不错的求解起点。比如华盛顿特区公众图书馆的存储实验室(The Memory Lab)提供了一台自助服务站,供人们将3.5英寸软盘的内容转移到新的存储介质上。斯坦福大学图书馆也为5.25英寸软盘提供类似资源。澳大利亚墨尔本大学电子学术研究中心主任Gavan McCarthy拥有一个被他称为“弃用技术博物馆”的藏馆,可以处理一系列硬件制式。他说,“如果你有磁带、磁盘和任何可以带动它们的设备,我们就有对应的转换插头。” 只需为每张磁盘支付几美元,数据转换服务公司,比如位于加利福尼亚州的FloppyDisk,或者北卡罗来纳州的RetroFloppy就能提供帮助。也可以求助于专攻受损介质的数据恢复公司。位于加利福尼亚州诺瓦托市的数据恢复公司DriveSavers拥有约20000个存储设备,最古老的是1980年的一台来自舒加特公司的ST-506硬盘驱动器。Parker找的是位于安大略多伦多的CBL Data Recovery公司,后者外协给Muller Media Services公司(现在外协方是位于纽约曼哈斯特的George Blood Audio),并为数据恢复支付了约3000美元。 能否成功取决于介质的易损程度以及保存方式。5.25英寸软盘很容易因为油污或者被挤压而破损。Iomega的ZIP磁盘则不稳定。McCarthy指出,导致无法读取旧式介质内容的原因并不局限于“数位损坏”或者介质破损, “设备及备件的数量正以惊人的速度减小。”具有讽刺意味的是,纸张相对来讲稳定多了。 有老式驱动器和电源线的人们也许会尝试搭建自己的自助工作站,结果发现新型电脑没有提供可以建立连接的电路或接口。比如某些老式ZIP驱动器需要连接到并行端口(打印机口),而此种端口现已大规模淘汰。不过也能求助于一系列主要由档案员和视频游戏爱好者使用的适配器。像KryoFlux设备就属于其中的高端产品,由软件保护协会开发,可以通过USB口读写软盘数据。位于英国的KryoFlux Preservation Technology Group公司向购买KryoFlux设备的私人用户收取约100美金的费用。 现代计算机的操作系统也会无法读取旧格式的文件,科罗拉多大学博尔德分校的媒体考古实验室主任Lori Emerson举例说,能不能帮助本地一家科学博物馆恢复一张ZIP磁盘里的神秘文件,取决于能否找到一台合适的电脑(1994年装载OS 7的 Power Macintosh 8100电脑)。那个文件最后被确认是文献管理软件EndNote某一旧版本的程序库。 来自伊利诺伊大学芝加哥分校的药物化学家Guido Pauli的建议是,预防数据丢失的最好办法是保持更新换代。Pauli维护着NAPRALERT数据库,研究人员可以通过它搜索天然产物(比如植物提取物)以及生物学进展报告。这个数据库最早还是索引卡形式,是Pauli的博导组织发起的,后来又被转换为磁带以及各类磁盘格式,如今又以云存储的形式分布在两大洲的硬盘里。Pauli说,“我确实也有一些旧的存储介质,但不会因为无法读取它们而影响工作。” 深入理解数据 恢复旧数据的下一个挑战是理解这些数据文件本身。对于数字档案员而言,抢救数据的第一步是获取磁盘镜像——即复制设备内的每一位元数据,包括被覆盖和隐藏的文件。这就是数字取证技术致力的领域,不过这类工具的商业许可证要耗费数千美元。由于这些技术更侧重法律应用领域,它们会忽略某些对档案员来说重要的功能,比如滤除敏感信息。 因此档案员们开发了BitCurator,一款提取磁盘镜像并指导用户初步解读其内容的开源虚拟机,比如确认位元和字节到底以什么格式存为文件以供windows NT, Linux或者DOS操作系统读取。格式越古老,解读会越困难。 创建Muller Media的Chris Muller开发了可以解析古老文件的软件,但他指出有时由人提供的线索会更有价值。Muller会要求潜在客户给他寄数据原先所在介质的照片。有时客户认为没有意义的、两三个三福记号笔留下的潦草痕迹,却有可能是某些字母或者数字,并帮助Muller推测出备份数据时所用的格式和软件。 下一步是识别文件,北卡罗来纳大学教堂山分校信息和图书馆学学院的Christopher Lee解释说,他也是BitCurator主要的组织者之一,文件格式可能无法辨识,很难知道要用什么软件打开,他说,“软件经常成为阻碍。”研究人员可以用诸如HEX编辑器等程序显示这些文件的原始二进制内容。如果运气好,这能提示文件是什么软件生成的,甚至直接提取出有用数据。BitCurator也会跟美国国家标准和技术研究所的软件参考图书馆(Software Reference Library)交互,尝试为文件找出匹配的软件。 通过一些线索,研究人员经常能够知道可以用哪种现有软件读取相似的较早期软件生成的文件,并将它们转换为新的文件格式。如果可以找到原软件,另一种选择则是模拟器:在现代机器里重构一个模拟老式操作系统的平台,比如互联网库(Internet Archive)提供的模拟器可以在浏览器里模拟诸如MS-DOS等平台。当软件处理的是高度专业化的任务,或者是视觉渲染软件,不易转换为现有格式时,模拟器具有更好的成本优势,弗赖堡大学计算机科学学院的Klaus Rechert指出。他最近生成了一款模拟器,以重生某个自然语言研究的分析过程,这个分析之前被用于生成排版软件LaTeX的用户定制语言映射。 另一个选择是“数字考古”——开发专用软件以使旧格式的文件可读。但这是一条高成本路径,常会徒劳无功,而且通常要求对文件内容有合理推测。其中一个相对简单的例子是,RetroFloppy公司的David Schmidt,利用组成某个客户名称的字母组合造成的重复代码得到转换矩阵,再从存储于8英寸软盘的不明IBM系统中恢复数据。像George Blood和AVPreserve等公司则致力于解决更为复杂的这类问题。 数字档案员们指出,最大的障碍有时是人为因素而非技术因素。提取出一个文件并弄清它有6列100000行数据并不够,研究人员还需要知道这些数字的意义。比如,在密歇根州的政治与社会研究大学间联盟机构内,由Amy Pienta带领的档案小组购买了一台翻新的穿孔卡片读取机,以便从一项上世纪50年代开始的、针对退休的大规模纵向研究中提取数据。但是当孔位被转换为ASCII数字编码后,他们只有借助保存下来的编码表档案才能知道数字的确切含义——到底“1”代表“是”还是“否”呢? Paker的故事有个有趣的收尾:那些数字化数据只记录了给树分组后每组的平均数据,但又从一个撞大运的电话沟通中得知,记录每棵树测量数据的纸质档案也被保存了下来。他驱车几小时去见了原先的科学家并拿到了数据档案。 墨尔本的McCarthy说:“如果你想拯救什么,你必须趁还能联系上相关人员时开始行动。”