大幅面報紙掃描儀:歷史古舊報刊數字化搶救的核心是技術
歷史古舊報刊數字化流程概述:歷史古舊報刊數字化技術與最近十多年普通的報刊數字化技術不盡相同。自從報業實現數字化工作流程以來,報紙的采編發排都采用計算機技術,其信息已經實現了數字化,而歷史報刊由于早期使用鉛字印刷或者石印、油印等,沒有對應的數字信息,因此需要通過相應的技術手段將紙質信息數字化提取到計算機當中。
歷史報刊特別是早期報紙是歷史文檔的重要資料,雖然人們對報紙的格式十分熟悉和認可,但從數字化處理的角度來看,報紙的格式是相當復雜的:文章長短不一,早期報紙有豎排版面、繁體字等,字體也不是當代的標準化字庫里的字體,有照片圖表,長篇的文字分布在不同的版面或頁面中。另外,早期報紙的印刷質量和紙張質量不是很好,隨著時間推移,有的字體可能會模糊,紙質會變得非常脆、易碎,難于處理,還有一些報紙只能在縮微膠片上找到。所有這些因素都使歷史報刊的數字化面臨很多困難,需要進行一些特殊處理。
目前,歷史報刊數字化有比較標準的制作流程和技術工藝,不同的廠商可能會有自己的特點,不過制作流程一般會包括以下幾個步驟:
1.報刊的清點。按照日期、版面清點數量,確認其完整性、可識別性、可掃描性。由于報刊一般都有一定的發行量,不止一個復本,應盡可能尋找最佳的一份,如果現實中找不到可用的報刊實體,可以用縮微膠片替代。
2.掃描和修圖。利用大幅面掃描儀掃描紙質報刊,用膠片掃描儀掃描縮微膠片。對掃描得到的TIF圖片進行修正,去除污漬、裂紋等。
3.OCR文字識別與校對。OCR(光學字符識別)是一種通過計算機自動識別圖片上文字的技術,標準印刷漢字的OCR識別正確率可達到99%以上。由于早期報刊印刷技術簡單和保存環境的原因,識別率可能稍低一些,需要進行多次校對以保證最終的質量。校對包括人工校對和智能化自動校對。
4.版面分析和劃分。將修正后的版面掃描圖片按照主題文章進行區域劃分和標識。
5.制作版式文件。根據步驟2、3、4得到的信息制作可檢索的數字版式文件,比如PDF等。
6.數字數據驗收。對上述步驟得到的文字、圖片、版式文件等數字數據進行再檢驗,以確保完整性和正確性。
7.數據入庫。文字入全文數據庫,圖片入圖片數據庫,版式文件入版面數據庫,三種數據庫是相關聯的,可以聯合檢索。
8.建立雙平臺檢索系統。一般采用B/S架構,用戶通過瀏覽器即可檢索上述三種數據庫。
經過上述步驟的處理加工后,最終的產品是一個完整的系統,其中包括:包含全部報刊文字和元數據的全文數據庫、包含報紙照片和版面掃描圖片的圖片、可檢索的PDF版式文件、基于B/S架構的雙平臺檢索系統等。此外,為了支持高質量的再印刷,也包括修正后的版面掃描TIF圖片。
歷史報刊數字化關鍵技術研究
歷史報刊數字化的關鍵技術包括:
1.圖像獲?。褐饕ㄟ^掃描,包括紙質掃描和膠片掃描等。
2.OCR文字識別與校對、版面分析和劃分等:將修正后的版面掃描圖片按照主題文章進行區域劃分,目前有自動識別主題文章區域的技術。
3.元數據抽取和分類標引:文章的元數據抽取包括對文章主題、副題、引題、作者、來源、關鍵詞、摘要、引文、外部特征等信息的自動識別和自動抽取;分標引類是按照國家新聞標準分類法對文章進行分類標識。
4.全文數據庫和圖片數據庫:全文數據庫是實現全文檢索的數據庫系統,為按關鍵字檢索整篇文章帶來很大便利;圖片數據庫一般按照文件存儲、按照標引檢索。
5.數字版式文件的制作、檢索技術:制作數字化版式文件是為了能夠展現歷史報刊的原始風貌,使讀者能直觀地感受到是在閱讀一份早期的報刊,更具有視覺震撼力。目前報刊的數字版式文件一般采用Adobe的PDF格式,根據掃描圖像制作成可檢索PDF一般采用雙層和重構技術。
下面進行更詳細的闡述。
1.掃描技術
掃描是歷史報刊數字化制作流程中的關鍵,因為后續工作完全基于掃描后得到的TIF圖片,其掃描質量、分辨率的選擇、所使用的設備和參數設定都對后期制作有重要影響。特別是分辨率的選擇,需要考慮到當代印刷術和近代的印刷術,當代彩色報刊的印刷一般要求彩色圖片在200~300dpi即可,既不宜過低也不宜過高,而近代的印刷主要是以鉛印、油印等為主,歷史報刊的掃描精度一般采用300~600dpi,其目的是為了保存更多的細節,更具參考和研究價值。掃描精度越高,所得到掃描圖片的容量也越大,因此,在選擇掃描精度的時候也需要考慮硬件方面的存儲容量。
由于報刊在印刷時是靠細小點陣來顯示圖像,并不是連續的色彩,高精度掃描會掃描出網狀條紋,這種情況可能會降低OCR軟件的處理速度?,F在許多掃描儀有去除網紋的功能,可以解決此類問題。對于沒有去除網紋功能的掃描儀,如對圖像要求不高的話,可用降低掃描分辨率的辦法。因此,如果考慮到下一步的文字識別率, 5號以上字體使用300dpi掃描,6號、7號字體使用400~600dpi掃描。綜合考慮上述因素,可以統一使用400dpi左右的掃描精度。
紙質報紙和縮微膠片掃描所使用的設備和參數設定也有所差別,紙質報紙一般使用大幅面的快速掃描設備,而縮微膠片掃描儀在掃描前需要進行預先光學處理,目的是為了達到和紙質掃描相同的分辨率。
2.OCR技術與校對
OCR技術原理是對光學儀器產生的影像(比如掃描圖片)進行處理,消除一些影響識別的可忽略因素(自動或者手工),將影像進行區域分割,使之成為可以獨立識別的單元,然后從這些影響單元中提取形態特征,再與標準特征庫中的數據進行對比,根據對比的結果決定該單元的識別結果。由于不確定因素較多,比如掃描設備的質量、掃描資料的質量、掃描精度、識別軟件、學習和測試樣本等都會影響到識別的準確率。
文字識別之前的影像預處理是該過程中需要處理問題最多的階段,其中包括影像的正規化、除噪聲、圖像矯正、圖文分析、文字行與字分離等步驟。舉例說明,對于歷史報刊而言,如果其掃描圖片出現傾斜,超出計算機自動識別的誤差范圍,就需要就行圖像旋轉矯正;如果原始報刊本身由于存放時間過長,出現污點裂痕較多,影響到正常文字的識別,那么就需要將掃描圖片上的這些污點裂痕去除、背景化;此外,早期報紙有豎排版,在行、字分離上需要進行特殊處理。
從識別技術的難度角度來看,印刷體識別相對要容易、正確率更高一些,因此對于歷史報刊而言,只要預處理做得比較完善,其自動識別不會產生過多的錯誤。為了保證更高的文字正確率(比如差錯率在萬分之一以下),需要進行校對。校對包括軟件自動校對和人工校對,自動校對是根據自然語言處理技術對識別出的文字語句的正確性進行判斷和標注,然后進行糾錯;人工校對是完全依賴校對員的判斷。OCR的校對一般都是結合自動和人工兩種方式進行反復多遍的排查糾錯。
3.元數據抽取和標引技術
在建立全文數據庫、圖片數據庫和版式文件數據庫之前,需要對文章進行元數據抽取和標引,其目的是從多角度對文章、圖片和版面文件進行標注說明,以完善檢索系統。文章的元數據主要包括題名信息、作者信息、來源信息、關鍵詞信息、摘要信息、引文信息、外部特征信息等。對于報刊而言,題名信息、作者信息、來源信息一般都在版面上明確標出,在OCR識別的版面區域劃分過程中獲得相應的信息;而對于其他元數據,比如關鍵詞信息、摘要信息、引文信息等,因為沒有明確標出,需要從報刊正文中提取,由于歷史報刊數字化需要在短時間內處理海量的報刊文章,依靠人工無法完成,所以必須要進行元數據的自動抽取,需要結合自然語言處理、機器學習等技術。
在文本中抽取元數據標引,可分為全關鍵詞標引和主關鍵詞標引。自動標引過程與人工標引過程相似,其特點是標引速度快,標引的前后一致性好,在隨機存儲介質容量允許、軟件檢索功能具備的情況下,可以實現文摘、甚至全文的無人工標引自動檢索。目前自動標引系統抽出的表述文獻主題的主關鍵詞準確性較差,還不能完全代替人工標引。
4.版式文件制作技術
版式文件是一種具有版權保護、加密、防止非法復制、防止屏幕拷貝、能夠全面展示版面多媒體內容和樣式、并且能夠精確輸出到打印設備的文件格式,目前比較流行的版式文件是Adobe公司的PDF,國內北大方正采用了CEB,另外還有epub等。報刊的版式文件一般采用PDF格式。
制作版式文件是歷史報刊數字化的一項重要工作,其意義有以下幾個方面:(1)首先通過版式文件能夠直觀地展示歷史報刊的外觀,包括版面布局、文字樣式和圖片等。(2)支持版面檢索,在雙平臺檢索平臺通過關鍵字檢索就能找到包含關鍵字的版面。(3)支持再印刷,矢量字體的版式文件能夠進行更大幅面的印刷輸出,不會有字體的變形。(4)標準化的文件格式便于存儲和交換。
目前歷史報刊數字化的PDF版式文件制作有兩種技術:雙層和重構。對于前期歷史報刊而言,因為沒有對應的電子版面文件,所以需要制作雙層或者重構PDF。制作雙層PDF的重點在于掃描圖片處理成合適清晰度的壓縮圖片用于雙層PDF的上層圖片層,并將文本按照原始版面結構重排并與圖片層對應,形成隱藏的下層文字層;重構PDF則是利用圖片和文本數據按照原始版面結構進行整版的圖文混合重排,是單層結構。這兩種PDF的主要區別有以下幾方面:
(1)在PDF文件結構方面:雙層PDF,顧名思義,該PDF邏輯上具有兩層(一層純圖片層、一層純文本層),上層是用于瀏覽的可視圖片層(為了避免文件體積過大,該圖片層一般使用高清掃描圖片的壓縮格式),能夠瀏覽版面掃描原貌;下層是用于文字檢索的隱藏文本層(瀏覽時不可見),文本層中的文字就是版式圖片經OCR識別校正后的文本,它與上層圖片層版式圖片中的文字是一一對應的,一個是圖片化文字、一個是文本化的文字。這樣形成的雙層PDF既可以100%保留原始版面效果,又可以通過下層的文字信息支持選擇、復制、文字檢索等功能。重構PDF,是當代流行的單層圖文混排結構。
(2)在PDF版式重排方面:對于歷史報刊而言,雙層和重構PDF都要進行相應的版面重排,但是雙層PDF僅對其文字層的文字按照原始版面位置進行重排和對應;而重構PDF則要按照當今的圖文混排方式重現原始版面的樣貌,所以制作方面工作量要大一些。對于組版出版數字化之后的近期歷史報刊而言,由于已經存在可印刷的數字PS版面文件和對應的數字矢量字庫,而且這些PS版面文件可以精確地批量生成當今流行的圖文混排的PDF版,不必再進行版面重排,就沒有制作雙層或者重構PDF之說了。
(3)在視覺瀏覽方面:雙層PDF是100%保留掃描版面視覺效果,但受圖片層的精度所限,其中的文字縮至較小時會產生字體變形,而放大到一定程度字體會產生馬賽克模糊;重構PDF中的文字是矢量字體,可對字體進行任意縮放,保持字體邊緣依然光滑,字體色素不會丟失,因此不會變形和模糊。但是,重構PDF中的文字字體可能與原始字體有所差別。特別是早期鉛字或者油印的報刊,由于沒有對應的數字矢量字庫,所以無法100%保留原始效果。但數字化以后的歷史版面,就不存在這個問題。
(4)在用于印刷方面:同視覺瀏覽方面相類似,雙層PDF是100%保留掃描版面視覺效果(原汁原味),但受圖片層的精度所限,不能進行大幅的放大印刷,字體會產生馬賽克模糊。對此可以直接使用修正后的高清TIF掃描圖片進行大幅面的印刷。重構PDF支持任意放大的印刷,字體邊緣光滑清晰,不會產生變形和模糊,印刷質量好于雙層PDF。
(5)在版式文字檢索和定位方面:雙層和重構PDF都支持版面文字檢索和定位,在檢索速度上,雙層的速度慢于重構,因為雙層PDF的文件較大。
(6)在存儲容量方面:重構PDF文件的存儲容量比雙層PDF文件小得多,一般是其1/4至1/6左右。因此重構PDF文件的打開和網絡傳輸都要比雙層PDF快,更適合于網絡瀏覽。
(7)在文字差錯率方面:理論上,歷史報刊數字化的文字差錯率和PDF采用雙層和重構并無關系,差錯率只和OCR識別準確率和人工校正等有關。在這方面,雙層和重構的差別在于:對于雙層PDF來說,即使文字層有錯字,由于其本身是隱藏的(上層是可視圖片),也不會被看見,但會在文本檢索和復制過程中體現出來;對于重構PDF來說,文字如果有錯誤,則直接能看到。出錯率的產生,很大程度上取決于原始掃描圖的修正、文字識別準確率、校改人員的責任心、新聞常識、歷史經驗和承接公司的項目管理經驗等。
(8)在發布渠道方面:雙層PDF適合在本地電腦和局域網上瀏覽,重構PDF除本地電腦和局域網上之外,也適合在互聯網上、手機、平板電腦、戶外大屏上瀏覽。
(9)在專輯出品方面:這兩種技術都能夠滿足個性化專輯出品的需求。
(10)費用方面:由于重構PDF的制作工作量相對大一些,所以制作重構PDF的費用比雙層PDF高15%~20%左右。
總的來說,實施歷史報刊數字化項目,如果僅從保護、存檔的角度考慮,那么掃描歷史報版面建立圖片數據庫,進而進行文字識別、校正、標引、入庫、建立全文數據庫和檢索網站即可;如果進一步從滿足版式檢索和PDF瀏覽功能考慮,可采用雙層PDF技術;如果考慮未來媒體終端的應用(例如蘋果的iPhone手機、iPad平板電腦)、開發更多的衍生產品,那么可采用重構PDF的技術方案。
德國Book2net報紙大幅面掃描儀系列:Flash報紙專業大幅面掃描儀??蔀槌珹1幅面的古籍、字畫、古舊報紙數字化提供仿真級別數字化。
德國Book2net書刊掃描儀Flash報紙專業大幅面掃描儀圖解:
德國Book2net書刊掃描儀產品參數:
北京方圓慧圖科技有限公司(以下簡稱“方圓慧圖”)是中國最具規模的集檔案數字化設備銷售、檔案管理系統研發、業務咨詢服務、數字化加工建設的整體解決方案提供商,總部位于北京。自成立以來,一直專注于檔案圖書數字化和文檔信息資源管理領域幫助用戶獲得成功,是的檔案圖書數字化方案提供商。
方圓慧圖是檔案圖書數字化領域最專業的掃描設備提供商。是多款高端掃描設備的中國地區總代理,包括德國Book2net書刊掃描儀全國總代理,德國Proserv書刊掃描儀亞太地區總代理,奧地利奇能書刊掃描儀全國總代理......。公司主要經營的數字化掃描設備有全自動書刊掃描儀、非接觸式古籍掃描儀、零邊距檔案專用掃描儀、報紙數字用化專掃描儀、縮微膠片掃描儀、工業探傷膠片掃描儀、醫療膠片掃描儀、高速文件掃描儀等??梢詾槟峁┳顚I的數字化掃描設備方案。
德國Book2net書刊掃描儀Flash報紙專業大幅面掃描儀圖解: