教育裝備采購網訊:從光明日報獲悉,這些年,多部大型電子古籍資料庫的面世,讓“古籍數字化”工作看上去雜花生樹,一派春光爛漫??墒?,當我們深入到繁華表象的背后,卻是“別有一番滋味在心頭”。我們選取清華大學智能圖文信息處理研究室和北京國學時代文化傳播有限公司,作為 “解剖麻雀”的樣本;在此基礎上,記者與國家古籍保護中心專家委員會委員、中國社科院研究員楊成凱先生展開對話,從宏觀視角對古籍數字化相關問題進行觀照。
期待通過這組報道,引發社會各界對古籍數字化研發和生產的重視。
(一)清華大學智能圖文信息處理研究室——“誰為我們的技術買單?”
眼下,清華大學智能圖文信息處理研究室的古籍識別技術研究,幾乎處于停滯狀態。研究室主任丁曉青教授為此焦慮不安。
漢文字和少數民族文字識別技術研究,是丁曉青團隊20年來專注推進的一項工作。作為文字識別技術的具體化,古籍識別系統也在此間漸具規模。
丁曉青告訴記者:“對系統來說,識別和理解古籍要比現代印刷品復雜得多。而更有挑戰性的是,處理每部古籍時,系統都要面對嶄新的情況,比如,這部古籍有無鈐印、句讀、欄線,單行標注還是雙行標注,寫本還是刻本,普通的文本還是家譜、碑拓…… 此外,古籍中還有大量形態各異的異體字。情況異常復雜。要提高古籍識別系統準確性,必須讓它盡可能多地接觸古籍,提取出新的字樣來擴充字符集;同時,在識別形態各異的版式過程中,增強其版面分析判斷能力。唯有如此,別無他途。”
然而,接下來的問題就是:這些耗資甚巨的古籍訓練樣本從何而來?也正是這點,讓古籍識別技術的推進舉步維艱。
“現在,社會上對古籍數字化產品需求量本就不多,生產相關產品的企業更加稀少,幾乎沒有企業找我們合作,單靠市場這條路根本行不通。”丁曉青對記者說。
更讓她無法釋懷的是,“近10年間,古籍識別技術研究項目從國家一些重大規劃中漸漸淡出了?,F在,識別技術研究無法得到國家政策和資金上的支持。系統無法接觸更多的古籍訓練樣本,要想提高識別能力根本無從談起。”彭良瑞副研究員遞給記者一份研究報告說:“與之形成對照的是,歐美對拉丁體系文字的古籍數字化研究卻方興未艾。近年來,歐盟26家圖書館聯合推出IMPACT(Improving Access to Text)項目,旨在通過OCR(光學字符識別)等技術的研究,來推動15-19世紀英文等拉丁體系文字的古籍全文數字化工程。”
現在,研究室里只有寥寥一兩個研究人員還在從事這項研究;而由于古籍識別系統日常使用太少,研究室入口處的公共演示平臺也根本沒有裝入這套系統。
這種局面,讓丁曉青深感痛惜。在她看來,對古籍進行數字化,就是用技術手段將傳統文化 “鏈接”進當代,不論對于古籍的保存還是中華文化的傳揚,都是功莫大焉。她也深信,要真正實現古籍數字化,“核心就是要解決古籍的識別技術問題”。在她眼中,古籍識別技術的優勢顯而易見:古籍收藏單位提供的圖像瀏覽方式不能進行全文檢索;而人工錄入校對古籍電子文本的成本大約是每頁8元-10元,錄入一冊古籍的全文則需要幾百元至數千元不等。
“現在我們只能靠一份責任感來艱難、緩慢地推進這項工作。”整個采訪過程中,丁曉青反復追問一個問題:“誰為我們的技術買單?”
(二)北京國學時代文化傳播有限公司——“最致命的是易于復制”
北京國學時代文化傳播有限公司董事長尹小林從書櫥中搬下一冊影印本《文苑英華》,打開,桌案頓顯局促。
隨著他的講述,一個耗時耗力的古籍數字化流程展現在記者面前。“前期先要選定古籍版本,比如《文苑英華》就有四庫本、明刻本等,要盡量搜羅內容完整的版本。之后,對文字進行分段、標點,錄入計算機。隨后,專業人員要對打印出來的文本進行校對,并由專家審訂,繼而由操作員在電腦上修正。這些工作都做完后,還要對數據進行標引和入庫。最后才是做成軟件。”尹小林說,每道工序都必不可少,像《文苑英華》6冊、1000卷這樣的體量,全部處理完要持續1年以上。
而對于公司全部工作量來說,這只能算滄海一粟。尹小林告訴記者,他們最大的一套數字化產品《國學寶典》現已收書6000種,最遲明年就能實現1萬種目標,屆時收錄的所有古籍加起來將達到20億字,比最大古籍叢書《四庫全書》的體量還多2倍。而每冊古籍都要重復同樣的工序,整個過程繁復、枯燥而漫長。
即使產品成形后,時間和人力的投入仍綿綿不絕。尹小林抱來一摞《古籍整理研究學刊》《古籍點校疑誤記錄》《中國典籍與文化》說,他每天做的工作就是大量掌握最新研究成果,隨時通查他們產品中的所有古籍,并及時進行修正和完善。類似工作從未間斷。
非但如此。尹小林團隊正憑一力推進,使自己的古籍數字化產品臻于完美:研發出數據格式和數據比對技術等獨有核心技術,請各領域專家擔綱古籍編選……
然而,艱苦的努力并未得到對等的回報。自產品面世那刻起,尹小林就再也無力掌控局面。
“誰來買?”這一點,尹小林作不得主。古籍數字化產品受眾面很窄,其需求量可想而知。而與微弱的需求形成強烈反差的是,要真正做好古籍數字化工作,必須投入高昂的人力、財力和時間成本。如今尹小林公司已購買了幾萬冊紙質古籍來充實資料庫, “且不要說明刻本、清刻本了,即便是現代影印本一冊也要幾百、上千元錢,這幾年光是購買古籍就投入了上千萬元。而對一部紙質古籍進行數字化,其成本將達到其定價的幾十倍。”利潤微薄,缺少外部投資,也讓試圖涉足這一領域的企業望而卻步?,F在,古籍數字化市場上,只有少數幾家企業在苦撐局面。
“最致命的,是數字化產品很容易復制。”尹小林告訴記者,現在《國學備覽》光盤已經賣掉 10多萬片,但是使用的人肯定遠不止這些?,F在,尹小林能想出來的應對之道都被自己否定了——加密?成本太高,“加密一張盤就要多花幾毛錢,相當于從原本微薄的利潤里扣掉一半”;訴諸法律?取證太難,“假如說《國學備覽》已經在網上下載100萬次了,要怎么證明呢?必須找到盜版的服務器和日志,這對我們而言無異于天方夜譚。100萬次?我們甚至連一次都證明不了。”
不足掌心大小的光盤幾乎沒有重量,但它卻沉沉地壓在尹小林心頭。尹小林對記者說:“和賣好這些產品比起來,做好它們似乎還容易些。”