1、古籍數字化研究現狀
古籍又稱典籍、文獻,是指沒有采用現代印刷技術來印制的書籍。中華文明五千年從甲骨文、簡牘、卷軸再到線裝,留下了大量寶貴的古籍,作為中華文明文化延續的印證,古籍整理是非常重要的。
古籍整理的傳統方法,是通過對古籍進行審校釋(審定、???、注釋)等加工整理后形成新版本,便于現代人進行閱讀。古籍整理的傳統方法主要依賴手工進行,有著操作過程繁雜、效率低的缺點,而且新版本仍然是書本形式,難以再次利用。在計算機技術出現后,古籍整理有了新的工具和方法,即古籍數字化技術。通過利用信息技術將古籍文獻進行加工和整理,并使其轉化為電子數據,可以通過光盤、網絡進行保存和傳播,有效解決了傳統古籍整理的缺點。
中文古籍的數字化最早是二十世紀七十年代,從計算機技術發達的美國開始的。我國在引入相關技術后,產生了大批有價值的成果。國家圖書館的“古籍特藏文獻數字化計劃”,完成了“甲骨文”、“數字方志”、“碑砧菁華”、“敦煌遺珍”、“西夏碎金”、“永樂大典”等成果。其他研究機構也推出了大量產品。
國際上,拉丁文體系古籍的數字化工作也進行了大量研究工作。由歐盟二十六家圖書館聯合推出的IMPACT(Improving Access to Text)項目,是一個通過研究OCR(Optical Character Recognition,光學字符識別)技術,來推動拉丁體系文字古籍數字化工程。
2、古籍數字化的發展與瓶頸
我國古籍數字化的發展經歷了聯合目錄階段、目錄+影像階段和全文檢索三個階段。
第一階段是20世紀80年代,聯合目錄為古籍數據庫檢索系統的開發,以數據庫的形式儲存。通過利用計算機,對古籍資料進行目錄檢索、內容整理、儲存、數量統計,以及編制索引,極大的改進了古籍文獻的檢索方式,是古籍研究的輔助工具。最初的古籍數據庫主要是書目數據庫,很多省市級圖書館都建立了書目數據庫,其中南京圖書館建立了40萬條中文古籍書目數據。
第二階段是20世紀90年代的目錄+影像階段。這個階段形成了以光盤為載體,可通過目錄進行查詢、瀏覽原文的影像頁的古籍文獻或古籍數據庫,所以又稱為光盤版古籍。1997年武漢大學出版社推出的“四庫全書光盤版”共150張光盤,以文淵閣本《四庫全書》為底本,將全書兩百余萬頁逐頁掃描成電子文件。
第三階段,2000年起古籍數字化進入了全文檢索階段。將古籍的全文錄入進數據庫系統,通過文本與檢索項匹配,實現直接到段落的精確查找。并且配置網絡化,以各地區的圖書館為節點、網絡為紐帶建立了網絡上的聯合數據庫。
通過網絡共享服務,可以不再依賴個人存儲也能得到海量資源。然而古籍數字資源不足,影響了網絡化的發展。古籍數字化加工有著很多的問題。
整理好的古籍進行數字化的第一步,便是古籍錄入。
圖書數字化錄入的方法有兩種,分別是人工鍵盤輸入和計算機光學字符識別(OCR)掃描輸入。人工鍵盤輸入屬于手工作業,需要由錄入人員看著圖書,逐字錄入,有著效率低、成本高的缺點。OCR是一種先進的自動化技術,通過機器來大量識別圖像為文本,是大量圖書數字化的主要手段。
賽數OS12002V專業古籍文獻掃描儀,采用投射式無眩目冷光源技術為珍貴的古籍和文獻數字化提供了極其充分的保護,高精度真彩色掃描鏡頭完美再現原稿的真實細節,獨有的90°V型稿臺, 特別適用于裝訂成冊且不能完全打開的珍貴資料的數字化,自動開啟壓稿玻璃,自適應調節V型玻璃下降速度和壓力,最大限度保護文獻資料,人性化設計為用戶提供了安全、可靠并符合人體工程學的操作環境。
技術參數:
描述:頂置式掃描頭、臺式非接觸掃描,適合文物、古籍、圖書、報紙、字畫地圖等單頁或裝訂成冊稿件。
掃描尺寸:600 (2 x 300) x 450 mm (> 2 x 超A3
書稿臺:書本最厚可達 150 毫米,V型臺可90°調整;可調V型臺兩側、中央、高度、書脊柱的寬度。
掃描模式:42 位彩色采集 | 24位彩色輸出14 位灰度采集 | 8位灰度輸出1 位黑白采集 | 1位黑白輸出
光學分辨率:600dpi
輸出分辨率:100-600dpi
掃描速度:3.8 秒(400dpi)
掃描儀接口:IEEE1394 火線接口
影像格式:所有的標準格式,如TIFF 不壓縮,TIFF G4,JPEG,JPEG2000,
PDF,多頁TIFF,BMP,PCS,PNG 等。
掃描軟件:OS12 掃描軟件
圖像處理軟件( 選配):糾斜、去雜點、翻轉、去黑邊、遮幅、銳化、彎曲修正、剪裁、黑白掃描與動態閾值。
Perfect Book( 選配):雙掃描系統、完美3D掃描、書脊彎曲修正和文件自動檢測。
電氣要求:220V/50Hz.
體積(W x Dx H):1023 x 880 x 1025 mm