天津市档案资料数字化加工指南(试行)
天津市档案局
2005-10-27
档案资料数字化加工指南
(试行)
馆藏档案数字化是建设数字档案馆的基础和前期工作,是组成数字档案馆的主要资源。为了实现数字资源的共享和统一利用,现有档案的数字化加工与处理势在必行,为了统一数字资源的加工操作规范,推动档案现代化和数字档案馆的建设,特制定本指南。
本指南适用于天津市各综合档案馆、各类专业档案馆及各委办局档案室的数字化工作,其它单位可参照执行。
1. 总则
1.1 档案文件的数字化,要保证数字化后形成的电子文件与原文件的一致性,保证电子文件的完整性、真实性和有效性。
1.2 开展档案数字化工作,既要考虑满足当前的应用需要,又要考虑档案数字资源的长期保存。
1.3 数字化过程应实行全程管理和监控,以保证数字化工作的连续性。
1.4 音、视频档案的数字化要尽可能全面、真实和无损地保存信息,保证数据的可用性不会随着时间的推移和系统的变换而受到影响;满足不同网络和计算机应用条件下数字化数据能从存储介质中正确读取,并能还原成音、视频信号输出。
2. 数字化加工要求
2.1 档案数字化过程中,应与检索体系建立科学的挂接和联系,保证数字化后的资源能够在计算机中进行检索与利用。
2.2 档案实体与数字化后产生的电子文件,要保证在管理和使用过程中相互之间的对应关系。
2.3 数字化后的档案资源要做好存储和备份的工作,做好有效的保管和保存。
3. 纸质档案数字化
参照中华人民共和国行业标准DA/T 31——2005《纸质档案数字化技术规范》实施。
4. 照片档案数字化
4.1 扫描方式:照片按彩色和灰度两种方式扫描。
4.2 存储格式:扫描后的照片以TIF和JPG格式存储,TIF采用无损压缩或不压缩方式。对于重要的照片和扫描质量要求较高的照片,以tif格式存储优先。
4.3 分辨率: ≥200dpi。原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准,特殊情况下,可适当提高分辨率。
4.4 补充说明:
4.4.1 彩色照片采用彩色方式扫描,黑白照片采用灰度方式扫描。
4.4.2 扫描线数调整的方法为:比较要扫描照片与5寸照片大小的比例,假设待扫照片大小为5寸照片的N分之一,则扫描线数变为5寸照片的N倍,即≥Nx200dpi;相应的,假设待扫照片为5寸照片的N倍大小,则我们的扫描线数可相应变为5寸照片的N分之一,即≥200/N dpi。这样,可达到最佳的精度/容量比,便于保存和利用。
4.5 照片档案数字化操作规程
参照纸质档案数字化操作规程。
5. 缩微胶片数字化
5.1 存储格式:转换的图像存为TIF格式。
5.2 转换方式:缩微胶片的构成方式采用“高对比”,压缩方式采用无损压缩,保存方式采用“黑白”方式。
5.3 分辨率:对于一般缩微胶片,转换分辨率采用≥200dpi。对于效果较差的缩微胶片,转换分辨率应适当提高,其他材料用户可根据需要进行调整。
5.4 缩微胶片数字化操作规程:
5.4.1 进行图像参数设置,如分辨率、对比度、亮度等;
5.4.2 进行图像保存参数设置,如文件夹名称、文件名等;
5.4.3 进行其他参数的设置;
5.4.4 进行缩微胶片转换;
5.4.5 保存、备份图像。
6. 音频档案数字化
6.1 硬件设备
6.1.1 放音设备 放音设备必须能正确地将声音源输出。放音设备应根据原载体型号进行选择,如盒式录放机、开盘式放音机等等。
6.1.2 计算机配置 应选用性能稳定配置较高的计算机作为数字化设备。推荐的计算机配置为:CPU为奔腾系列的P4以上,硬盘为40G以上,内存128M以上,操作系统为WIN98以上,有专用声卡。
6.1.3 存储设备 声音信号除存储在硬盘中随机使用外,应备份至磁带或光盘上脱机保存。
6.1.4 声音卡 声音卡(声卡)是声音数字化和数字化声音转换为可听到的模拟信号的部件。声音卡必须符合音频档案数字化要求的技术指标和功能。
6.1.4.1 声音卡的采样频率至少应支持44.1kHz,最好支持48kHz;16位、双声道以上;应能够支持多种声源输入,如CD Audio、MIDI、话筒、线性输入等。
6.2 存储格式:推荐使用的声音文件存储格式为WAV、MP3。
6.3 技术指标与要求:
6.3.1 采样频率越高,采样位数越多,声道数越多,压缩率越低,得到的数字化声音质量越高,相应的信息量也越大。音频档案数字化选用采样频率为44.1kHz;量化级为16位;立体声双声道采样参数。对于DVD中的声音选用48kHz。
6.3.2 声音档案数字化时必须远离强磁场等外部干扰。
6.3.3 数字化过程中应检查声音档案载体质量,确保声音档案的真实性、完整性。
6.4 音频档案数字化操作规程
6.4.1 计算数字化录音带所需的磁盘空间;
6.4.2 数字化录音带参数设置;
6.4.3 开始进行数字化,打开放音设备,启动数字化采集程序;
6.4.4 全程监听数字化采集情况,直至采集完成;
6.4.5 重新命名采集的文件名
6.4.6 采集完成后,检查形成的文件是否可以正常播放;
6.4.7 处理采集的文件:数字化录音带会形成两个文件,分别对应录音带的A、B面,需要将两个文件进行合并形成一个文件;
6.4.8 将数字化完成后的档案归档保存。
7. 视频档案数字化
7.1 硬件设备:
7.1.1 放像设备 放像设备必须能正确地将影像信息源输出。放像设备应根据原载体型号进行选择,如VHS放像机、3/4放像机等。
7.1.2 计算机配置 应选用性能稳定配置较高的计算机作为数字化设备,提高采集和编辑的速度。安装有视频采集压缩卡。视频采集压缩卡应有回放功能或安装回放卡。
7.1.3 本指南规定的计算机配置为:
CPU:奔腾系列的P4 以上,IGHZ以上,最好为双CPU;
内存:256M以上
硬盘:最好为SCSI总线结构,容量为40G以上,转数为10000转/分以上,缓存最低需要2M;
显卡:至少4MB显存的显卡;
操作系统:WIN98以上;
7.1.4 存储设备 影像信号除存储在硬盘中随机使用外,应备份至磁带或光盘上脱机保存,如有必要,应异地保存。
7.1.5 视频采集压缩卡 采集卡是影像档案数字化的关键部件。采集卡应支持采集MPEG1或 MPEG2格式。采集卡的码流最高值至少应为10MB。 采集卡应能够支持多种影像源输入,如输入输出接口为AV复合端子与S端子等。
7.1.6 编辑机 本指南推荐使用非线性编辑机进行数字视频资源的采集和编辑工作。
7.2 存储格式:推荐使用的视频文件存储格式为AVI、MPEG2。
7.3 技术指标与要求:
7.3.1 对模拟视频信号进行数字化处理的参数:
主观质量描述 采样方式 帧数(帧/秒) 视频速率(kbps) 音频设定 音频采样
保留原有质量 1920*1152 30-60 40000 384k 立体声、48KHZ
相当于Dvd质量 720*576 25-30 1500 384k 立体声、48KHZ
相当于Vcd质量 352*288 15-25 500 224k 立体声、48KHZ
7.3.2 视频档案数字化时必须远离强磁场等外部干扰。
7.3.3 数字化过程中应检查载体质量,确保视频档案的真实性、完整性。
7.4 视频档案数字化操作规程
7.4.1 计算出数字化录像带所需的磁盘空间,使存储文件的磁盘满足采集的要求;
7.4.2 数字化录像带参数设置;
7.4.3 开始进行数字化,打开放像设备,启动数字化采集程序;
7.4.4 全程监控数字化采集情况,直至采集完成;
7.4.5 采集完成后,检查形成的文件是否可以正常播放;
7.4.6 将数字化完成后的档案归档保存。
附件一:本指南技术术语简介
1.1 灰度值 是指进行灰度扫描时把图像由纯黑到纯白整个色彩区域进行划分的级数,编辑图像时一般都使用到8位,即256级灰度。
1.2 黑白 是与彩色及灰度相对应的一种模式,黑白图在表示图像时只区分黑白二值,他把其它色彩根据其特性转换为黑白两种,因此形成只有两种颜色的图像。
1.3 奈奎斯特理论 奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样就能把数字表达的声音还原成原来的声音。采样频率的高低是根据奈奎斯特理论以及声音信号本身的最高频率决定的。
1.4 采样率:通过波形采样的方法记录1秒钟长度的声音,需要多少个数据,用Hz或kHz来表示。
1.5 量化级:描述声音波形的数据是多少位的二进制数据,通常用bit做单位
1.6 声道 声道数是声音处理的重要参数,早期存储声音的接触式唱片最多有两条声道,后来的录音机、调频广播、录像机甚至连数字激光唱盘也都采用两个声道的规格,现在的杜比AC-3采用5 1个声音通道,即左、中、右3个声道,左后、右后两个环场声道以及一个次低音声道,另外,还有7 l声音通道等技术。
1.7 模数转换(ADC) 模数转换是将输入的模拟音频信号转换成数值,数字化后的音频信号是数值,是离散的数,并非像音频信号一样为连续的波形。
1.8 数模转换(DAC) 数模转换完成将数字化的声音数据转换成模拟音频信号输出,它是模数转换的逆过程。其主要的指标与模数转换相同。
1.9 视频制式 视频制式标准主要有NTSC制式、PAL制式和SECAM制式。中国及欧洲大多数地区使用PAL制式,规定每秒25帧,每帧625行,每行240~400个像素点,隔行扫描方式,场频为50HZ,行频为15625Hz。
1.10 视频数据压缩 根据解码后的数据与原始数据是否安全一致,数据压缩方法一般被划分为可逆编码方法和不可逆编码方法两类。
1.11 用可逆编码方法压缩的图像,其解码图像与原始图像严格相同,即压缩是完全可恢复的或没有偏差的。
1.12 用不可逆编码方法压缩的图像,其还原图像较之原始图像存在—定的误差,但视觉效果一般是可被接受的。
1.13 常用的有损压缩方法有:脉冲编码调制(PCM)、预测编码、变换编码(主要是离散余弦变换方法)、插值和外推法(空域亚采样、时域亚采样、自适应)等。
附件二:本指南存储格式简介
2. 存储格式:
2.1 TIFF:(Tagged Image File Format)是Aldus公司和微软联合开发,扩展名为.tif,是一种无损(不丢失信息)压缩格式,存储的图像细微层次的信息非常多,图像的质量高,非常有利于原稿的复制。
2.2 JPEG:(Joint Photographic Expert Group)是由联合照片专家组开发,文件扩展名为.jpg或.jpeg,是丢失少量信息的压缩格式,与原始文件比较,图片质量有所下降,也不能恢复,除非返回原始文件,优点是文件更小。支持16M色彩即24位色或真色彩,典型压缩比为4:1。
2.3 WAV格式:是windows本身存放数字声音的标准格式,目前也成为一种通用性的数字声音文件格式,几乎所有的音频处理软件都支持WAV格式。由于存放未经压缩处理的音频数据,体积大,不适于在网络上传播。
2.4 MP3:是MPEG Audio Layer-3,具有压缩程度高、音质好的特点,是最为流行的一种音乐文件。
2.5 MPEG-2:制定于1994年,设计目标为高级工业标准的图像质量以及更高的传输率。这种格式主要应用在DVD/SVCD的制作(压缩)方面,同时在一些HDTV(高清晰电视广播)和一些高要求视频编辑、处理上面也有相当的应用。使用MPEG-2的压缩算法,可以把一部120分钟长的电影压缩到4到8GB的大小。这种视频格式的文件扩展名包括.mpg、.mpe、.mpeg、.m2v及DVD光盘上的.vob文件等。
2.6 AVI: Audio Video Interleaved,是微软公司推出的视频格式文件,它应用广泛,是目前视频文件的主流。