各市(县、区)档案局(馆)、市局各科室:
现将《晋城市档案局纸质档案数字化技术规范》和《晋城市档案局照片档案数字化技术规范》印发给你们,请认真执行。
晋城市档案局
2014年12月26日
晋城市档案局
纸质档案数字化技术规范
1 适用范围
为统一全市纸质、照片档案数字化的主要技术要求,推动档案现代化和数字档案馆的建设,特制定本规范。
本规范适用于各单位档案的数字化处理及数字化成果的管理。
2 总则
2.1 基本原则
2.1.1 同步检查档案实体质量,确保数字化成果的真实、完整。
2.1.2 采用先进的数字技术,确保数字化成果的长期有效、数据兼容和安全迁移。
2.1.3 采取有效的保护措施,确保档案实体及数字化成果的安全。
2.1.4 确保档案实体与数字化成果间的有机联系。
2.2 过程管理要求
2.2.1 制定档案数字化的总体方案、技术路线与工作方法,确保档案数字化工作标准化、规范化和流程化。
2.2.2 档案数字化的基本环节主要包括:档案整理、档案扫描、图像处理、索引质检、数据转换、数据挂接、数据验收、数据备份、成果管理等。
2.2.3 建立档案数字化各环节的安全保密机制和工作制度,确保档案数字化工作的安全与高效。
2.2.4 档案数字化的各个环节均应进行详细的登记,并及时整理、汇总,装订成册,在数字化工作完成的同时建立起完整、规范的记录。
3 纸质档案数字化操作规程
3.1 术语解释
3.1.1 数字化
用计算机技术将模拟信号转换为数字信号的处理过程。
3.1.2 纸质档案数字化
采用扫描仪或数码相机等数码设备对纸质档案进行数字化加工,将其转化为存储在磁盘、光盘等载体上并能被计算机识别的数字图像或数字文本的处理过程。
3.1.3 数字图像
表示实物图像的整数阵列。一个二维或更高维的采样并量化的函数,由相同维数的连续图像产生。
3.1.4 黑白二值图像
只有黑白两级灰度的数字图像。它对应于黑白两种状态的文字稿、线条图等。
3.1.5 连续色调静态图像
以多于两级灰度的不同浓淡层次或以不同颜色通道组合成的静态数字图像。
3.1.6 分辨率
单位长度内图像包含的点数或像素数,一般用每英寸点数(DPI)表示。
3.1.7 失真度
对档案进行数字化转换后,数字图像与档案原件在色彩、几何等方面的偏离程度。
3.1.8 可懂度
数字图像向人或机器提供信息的能力。
3.1.9 图像压缩
消除图像冗余或对图像近似的任一种过程,其目的是对图像以更紧凑的形式表示。纸质档案数字化过程中,较常见的有TIFF(G4)、TIFF(LZW)、JPEG等压缩格式。
3.1.10 PDF
PDF是Portable
Document Format的简称,它是Adobe公司开发的电子文件格式,其优点在于跨平台、能保留文件原有格式、开放标准。
3.1.11 双层PDF
一种具有多层结构的PDF格式文件,其每一页都包含两层,下层是从纸质文件扫描出来的原始图像,上层是用OCR软件对扫描图像进行识别后产生的文字结果,但字体效果设置成透明。这样用户在阅读PDF文件时看到的是扫描图像,可以100%保留原始版面效果,在需要的时候,又可以通过透明的文字信息支持选择、复制、检索等功能。
3.2 档案整理
3.2.1 前期整理
合理确定档案数字化的范围,区分扫描件与非扫描件。对档案进行适当整理,并视需要做出标识。根据拟数字化档案的数量情况,估算数字化后所需要的存储空间。
3.2.2 目录建库
3.2.2.1 应按照DA/T18的要求,确定档案的著录项,建立目录数据库。
3.2.2.2 目录数据质量要求
应采用人工校对或软件自动校对的方式,对目录数据库的建库质量进行检查,确保著录项目完整,著录内容准确、规范,发现不合格的数据应及时进行修改或重录。
3.2.3 编页
应在扫描之前对没有编页或编页不规范的档案重新进行编页。
3.2.3.1 编页工具
宜使用2B铅笔进行编页。
3.2.3.2 编页位置
3.2.3.2.1 应在档案页面的顶部外侧编写页号。
3.2.3.2.2 编页不应压盖档案内容。
3.2.3.2.3 页面顶部外侧已有页号时,应将原页号用铅笔划去以示区分。
3.2.3.3 编页方法
3.2.3.3.1 使用阿拉伯数字从"1"开始依次编写页号。
3.2.3.3.2 应保证每卷或每件页号编写的连续性。
3.2.4 拆除装订物
去除影响扫描工作的装订物,保证扫描的顺序,确保数字化后正确归卷并不损坏档案。
3.2.5 档案修复
破损严重、无法直接进行扫描的档案,应先进行技术修复。折皱不平影响扫描质量的原件应先进行相应处理(压平或熨平等)后再进行扫描。
3.2.6 建立作业单
制作并填写数字化加工作业单,全程监控扫描过程,并记录整理数字化过程中各种相关情况。
3.2.7 装订
图像质检完成后,拆除装订的档案应该按档案原貌及保管的要求重新装订,做到安全、准确、无遗漏。
3.3 技术要求
3.3.1 档案扫描
3.3.1.1 扫描方式
根据档案幅面的大小(A4、A3、A0等)和纸张质量选择相应规格的扫描仪进行扫描。数量较少的大幅面档案,可采用小幅面扫描后的图像拼接方式处理;如果数量较多则使用宽幅工程扫描仪进行扫描。纸张状况较差,以及过薄、过软或超厚的档案,或者不宜拆装的档案,应采用平板扫描方式。纸张状况好并且可以拆装的档案,可采用高速扫描方式以提高工作效率。
3.3.1.2 扫描色彩模式
扫描色彩模式一般有黑白二值、灰度、彩色等,通常采用黑白二值。页面为黑白两色,但字迹清晰度差或带有插图的档案,以及页面为多色文字的档案,可以采用灰度模式扫描。页面中插有黑白照片、彩色照片、彩色插图、印章等带色彩标志的档案,可视需要采用彩色模式进行扫描。底图可视需要采用灰度或彩色模式进行扫描。我局纸质档案数字化加工全部采用24位彩色模式进行扫描。
3.3.1.3 扫描分辨率
采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率应≥300DPI。特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率。如需要进行OCR识别的,扫描分辨率应≥300DPI。
3.3.1.4 特殊情况处理
3.3.1.4.1 当扫描无法保证图像整体清晰时,应通过调整技术参数确保档案主要内容清晰。
3.3.1.4.2 对大幅面的档案进行分幅扫描时,应使各分幅尺寸相近、技术参数一致,相邻图像之间必须有部分重叠。
3.3.1.5 扫描登记
认真填写档案扫描情况登记表单,登记扫描的页数,核对每份文件的实际扫描页数与档案整理时填写的文件页数是否一致,不一致时应注明具体原因和处理方法。
3.3.2 图像处理
3.3.2.1 对扫描图像偏斜度、清晰度、失真度、完整情况等进行检查,发现问题及时处理或重新扫描。
3.3.2.2 发现文件漏扫、扫描图像排列顺序有误时,应及时补扫并正确插入图像,调整排列顺序。
3.3.2.3 应对偏斜的图像进行纠偏处理,以达到视觉上基本感觉不偏斜为准,偏斜不宜超过1度。对方向不正确的图像应进行旋转还原,以符合阅读习惯。
3.3.2.4 对扫描图像中影响图像质量的杂质(黑点、黑线)、多余边框等,进行去污和裁边处理。处理过程中应遵循在不影响可懂度的前提下展现档案原貌的原则。
3.3.2.5 对大幅面的档案进行分幅扫描后形成的多幅图像,应进行拼接处理,合并为一个完整的图像。拼接时应确保拼接处平滑地融合,拼接后整幅图像无明显拼接痕迹。
3.3.2.6 认真填写图像处理情况表单,记录质检结果和处理意见。
3.3.3 图像存储
3.3.3.1 长期保存格式
采用黑白二值模式扫描的图像文件,使用TIFF(G4)格式存储。采用灰度模式和彩色模式扫描的文件,使用JPEG格式存储。如需要进行OCR识别的,识别后可存储为双层PDF格式。
3.3.3.2 网络利用格式
纸质档案数字化处理后全部要做OCR识别,采用双层多页PDF格式进行网络利用。
3.3.3.3 存储方式和命名规则
按“档号”建立文件夹方式存储。
以档案数据库中每份文件的档号,命名该份文件的图像存储文件夹;以每份文件的题名,命名该图像存储文件夹下所保存的扫描图像文件。通过档号的一致性和唯一性,建立起档案数据库条目与图像存储文件夹一一对应的关联关系,从而确保扫描图像文件挂接的正确。
4 数据质检
4.1 目录数据质量检查
应对目录数据库著录项目的完整性、著录内容的规范性进行检查,对质量不合格的目录数据进行修改或重新著录。
4.2 图像质量检查
应对扫描处理后的图像是否清晰、完整进行检查。遗漏的应进行补扫;不符合质量要求的图像,应重新进行处理或重扫。
5 数据挂接
5.1 档案数字化转换过程中形成的图像数据,经质量验收合格后,加载到档案数据库服务器。通过编制的程序或借助相应的软件,实现档案数据库条目与相关联的数字图像批量的快速挂接。
5.2 认真填写《档案数字化挂接检查情况登记表单》,记录数据关联后的页数,核对每一份文件关联后的页数与档案整理、扫描时填写的页数是否一致,不一致时应注明具体原因和处理办法。
6 数据验收
6.1 数据抽检
以抽检方式检查目录数据库、图像文件、数据挂接的质量以及数字化工作记录是否完整等。一个批次数据抽检的比率应达到数字化总页数的20%以上(含20%)。
6.2 验收指标
6.2.1 当目录数据录入有错误或图像文件不完整、不清晰或目录数据与图像文件挂接错误时,确定为"不合格"。
6.2.2 统计"不合格"的页数。抽检合格的页数="抽检页总数-抽检不合格的页数,合格率=抽检合格的页数/抽检页总数×100%。
6.2.3 合格率应达到99%以上(含99%)。
6.2.4 数字化工作记录应完整。
6.3 验收审核
验收“通过”的结论,必须经分管领导审核、签字后方有效。
6.4 验收登记
认真填写数字化验收登记表单。
7 数据备份
7.1 备份范围
经验收合格的完整数据应及时进行备份。
7.2 备份方式
为保证数据的安全,除将数据上传至档案管理系统服务器外,还应采用光盘或硬盘存储的方式实现多套备份,并注意异地保存。
7.3 数据检验
检验内容包括备份数据能否打开、数据信息是否完整、文件数量是否准确等。
7.4 备份标签
数据备份后应在相应的备份介质上做好标签,以便查找和管理。
7.5 备份登记
填写纸质档案数字化备份管理登记表单。
7.6 数字化成果管理
应加强对数字化成果的管理,确保其安全、完整和长期可用。