檔案數字化是指“利用數據庫技術、數據壓縮技術、高速掃描技術等技術手段,將紙質文件、聲像文件等傳統介質的文件和已歸檔保存的電子檔案,系統組織成具有有序結構的檔案信息庫。”檔案的數字化可以節省檔案存貯空間,緩解庫房壓力,也可以減少因對檔案原件頻繁使用而造成的磨損,妥善解決珍貴檔案文獻的利用問題,有利于保護檔案原件,尤其是珍貴檔案的保存。目前,數字化在檔案事業中發揮著重要的作用,已成為檔案工作發展的必然趨勢。
檔案數字化與掃描技術
檔案數字化實現文本的輸入,主要是采用掃描方式將紙質的文件與檔案轉換為數字化的形式。掃描加工是通過中高速掃描儀和專用掃描軟件將整理和分檢好的檔案資料批量轉化成圖像文件,并自動實現圖像壓縮存儲的過程。
(一)國家規范中的有關標準
檔案數字化直接標準除《電子文件歸檔與管理規范》外,就是《紙質檔案數字化技術規范》。這一技術規范指出,“掃描應該根據檔案幅面的大小選擇相應規格的掃描儀或專業掃描儀進行掃描。大幅面檔案可采用大幅面數碼平臺,或者縮微拍攝后的膠片數字化轉換設備等進行掃描,也可以采用小幅面掃描后的圖像拼接方式處理。”另外,“紙張狀況較差,以及過薄、過軟或超厚的檔案,應采用平板掃描方式;紙張狀況好的檔案可采用高速掃描方式以提高工作效率。”
掃描色彩模式一般有黑白二值、灰度、彩色等,通常采用的是黑白二值。具體又細分為三種:“頁面為黑白兩色,并且字跡清晰、不帶插圖的檔案,可采用黑白二值模式進行掃描。頁面為黑白兩色,但字跡清晰度差或帶有插圖的檔案,以及頁面為多色文字的檔案,可采用灰度模式掃描。頁面中有紅頭、印章或插有黑白照片、彩色照片、彩色插圖的檔案,可視需要采用彩色模式進行掃描。”
掃描分辨率參數大小的選擇,原則上以掃描后的圖像清晰、完整、不影響圖像的利用效果為準。因為高分辨率容易使文件遭到復制,基于此,國家規范中規定采用黑白二值、灰度、彩色幾種模式對檔案進行掃描時,其分辨率一般均選擇≥100dpi。如遇到文字偏小、密集、清晰度較差等特殊狀況,則可以適當提高分辨率。而需要進行OCR漢字識別的檔案,掃描分辨率一般建議選擇≥200dpi。
(二)實際操作中的做法
實際工作中,檔案部門根據檔案本身不同情況,一般都采用各類掃描儀進行掃描,數碼相機則較少使用。另外,實際掃描中受檔案狀況或掃描設備所限,也存有一些暫時無法進行數字化轉換的檔案,如紙張過于破損、發脆,或者某些尺寸過大的圖紙等。而這些只能等待設備或者技術的更進后才可以解決。
色彩模式的選擇是依據現有的設備以及檔案本身狀況而定的,可以遵守循序漸進的原則。比如檔案館在進行紙質檔案數字化時,一期以黑白掃描為主,二期對紅頭文件及其他帶有紅章的文件進行彩色掃描,三期則全部進行彩色掃描。無疑,彩色掃描的層次更加豐富,清晰度更高,可以更真實地顯示檔案原貌。
分辨率的選擇與設備關系很大,在不同地區、不同部門也有所差別。如檔案館在紙質檔案數字化的一期工程中,就將掃描分辨率定為300dpi,檔案館的數字化掃描分辨率一般在200~300dpi左右,有的高達600dpi;而在一些設備相對比較落后的部門與地區,其掃描分辨率大都是按照國家規范來設定的,甚至于很多部門還達不到200dpi。分辨率越高,掃描后的圖像就越清晰,但同時必須考慮到圖像文件的大小。
(三)掃描技術發展趨勢
掃描技術中最主要的是色彩模式選擇和分辨率選擇。
色彩模式無疑會朝著彩色掃描發展,而分辨率的選擇需要根據實際業務進行靈活設置。一般情況下,為了滿足網絡化查詢利用,黑白圖像采用200dpi就可以滿足要求,彩色圖像的掃描分辨率還可以低一些,具體參數可以根據掃描清晰度和質量因素進行綜合選擇。對于一些特殊的利用如承辦展覽等可以采用較高的掃描分辨率來進行。值得注意的是,分辨率的選擇既不可過低,也不可過高。如福建曾采用了50dpi的掃描分辨率,雖然容量小、費用低,但是根本無法實現上網查詢利用,等于做了無用功;另一方面,如果一味追求過高的分辨率,則會導致容量過大,對于網上資源的傳播也是一種負擔。
檔案數字化后還要考慮文字識別(OCR)的運用,一般來說,文字識別主要用于全文檢索之用,而非真正將掃描后的圖像文件還原為文檔,因而,就這一點看,不要以OCR的識別率來設置掃描分辨率,《紙質檔案數字化技術規范》建議需要OCR識別的圖像文件,分辨率≥200dpi,這是一個比較中性的標準。