<acronym id="pokdi"><strong id="pokdi"></strong></acronym>
      <acronym id="pokdi"><label id="pokdi"><xmp id="pokdi"></xmp></label></acronym>

      <td id="pokdi"><ruby id="pokdi"></ruby></td>
      <td id="pokdi"><option id="pokdi"></option></td>
      <td id="pokdi"></td>

        1. 教育裝備采購網
          第八屆圖書館論壇 校體購2

          數字人文視角下的數字方志集成平臺構建

          教育裝備采購網 2018-06-13 11:36 圍觀2763次

            內容摘要:數字人文視角下的數字方志集成平臺以異構數字方志數據為基礎、方法為導向,力求為人文學者提供統一的數據資源管理、大數據分析、可視化展示和智慧型服務的人文研究環境建設思路。通過資源與研究平臺的融合,嘗試整合全國高校師范聯盟圖書館數字方志資源,為人文學者在數字環境中尋求和使用新形式的信息提供方便,為人文研究提供全新的研究方法和平臺。案例采用BIBFRAME2.0進行知識組織、運用可視化以及知識圖譜技術實現數據之間的關聯關系、通過自然語言處理(NLP)技術實現文本深度挖掘與可視化檢索、基于關聯數據技術實現更大范圍的數據集成。

            關鍵詞:方志、集成、異構

            1.引言

            數字人文也稱人文計算,1949年Busa使用電腦對神學家Aquinas著作內的字詞進行大規模處理,被認為是數字人文的起源[1]。目前學界對其定義尚無權威界定,它是伴隨人文學者研究方式的變化而產生的。從資源服務研究角度看,數字人文即結合大量數字資源,運用信息技術來從事人文研究[2]。數字人文研究主要集中在文學、歷史、地理、古籍等方面[3]。

            方志特藏資源作為數字人文研究的重要數據來源,具有資料性、真實性、區域性、時限性和傳承性特征[4]。且數據的歷史、地理研究特征明顯;數據的時間、地點、人物、事件之間的關聯關系復雜。數字方志集成平臺基礎設施研究的目的在于基于信息技術對異構數據進行多角度、全方位有效揭示;深度挖掘數據之間的關聯關系及產生量化分析結果。從而為人文學者在數字環境中尋求和使用新形式的數字資源提供便利;為人文研究提供新的輔助研究方法、工具和平臺。通過資源的異構與集成,使人文學者從既有資源中挖掘出過去不曾發現的更大范圍的現象與課題,為跨越學科知識的界限、拓展研究者的視野、發現跨學科與跨領域特色的新研究方向與研究方法提供途徑。案例通過數字方志集成平臺設計,

            2.總體設計

            數字方志集成平臺以構建行業數字人文基礎設施為目標,通過異構特藏資源的集成、知識組織與數據關聯,將可視化技術與工具應用于其上,通過知識圖譜表現數據的復雜關系。

            數字方志集成平臺通過數據集成實現數據互操作,通過異構方志元數據構建知識本體。數字方志集成平臺由數據集成、數據處理、數據應用3部分組成。

            1)數據集成

            系統主要集成數據:

            書目方志元數據。以華東師范大學圖書館館藏方志數據為基礎,約40000種,基于全國師范大學圖書館聯盟成員館為參建對象,正在處理北京師范大學圖書館館藏方志數據、上海師范大學圖書館館藏方志數據,并逐漸擴大方志數據參建圖書館。

            電子資源方志數據庫元數據。目前完成的元數據:中國方志數據庫、超星系統方志資源、漢唐系統方志元數據以及華東師范大學參與CADAL項目的方志數據。上述方志數據資源實現了統一一次性處理元數據入庫,并根據參建圖書館實際購買情況,增加館藏信息,實現全文開放。

            2)數據處理

            通過集成方志資源元數據的內部細粒度加工與外部關聯的方式實現數據規范處理。方志書目資源的合訂本數據處理,

            3)數據應用

            分兩部分:通過數字方志集成平臺實現資源的統一揭示、分析、互動(通過社會網絡接口實現眾包方式的數據擴展、系統功能優化以及建立更多的語義關聯)等。同時,通過開放平臺實現元數據與關聯數據在更大范圍的共享,實現從數據孤島向數據共享的轉變。

            圖1數字方志集成平臺框架

            3. 本體與知識組織

            基于BIBFRAME2.0、FOAF、RDF、RDFs等詞表構建數字方志知識庫本體模型,模型主要分為作品、版本、單件三大類,將用于CNMARC格式到RDF格式的轉換。數字方志集成數據遵循關聯數據四原則進行RDF數據的發布,并提供諸如RDF/XML、JSON-LD、N3等多種內容協商方式。

            系統采用BIBFRAME2.0作為元數據主詞表,并根據方志資源特點通過FOAF、RDF、RDFs等詞表進行有效擴展。BIBFRAME2.0的優點主要體現在以下3方面。

            1)普適性。BIBFRAME2.0不僅體現在書目框架可描述的資源類型不限于描述傳統圖書,還可描述網絡資源,還體現在其采用RDF、URI等標準化的數據模型和編碼方式,可與網絡上的數據很好地兼容和互操作。

            2)語義化。因為BIBFRAME2.0是采用RDF描述的,因而數據的最小單位不是記錄,而是RDF的陳述,這就打破了 MARC書目“記錄”的格式,將記錄分拆為一個或多個三元組,成為一個又一個相互關聯的語義單元,為書目數據賦予了機器可處理的語義。

            3)開放性。用HTTP URI來標識所有的“東西”是關聯數據技術框架的基石,而HTTP URI是萬維網的基本信息組織方式,可全球唯一定位,當書目數據中的一切實體都賦予了URI,就可在全網范圍內被定位和訪問,突破了MARC數據的局限,打破了封閉的圖書館系統與開放網絡之間的藩籬,使書目數據能夠方便地與其他網絡數據混搭,融入“數據的網絡”,構建新的數據服務。

            表1.方志元數據與知識本體的對應表設計

            4. 功能設計

            檢索基于作品層設計的最大特點在于從檢索角度體現資源關聯性,作品層檢索角度可以檢索出所有不同載體、語言、版本等信息,同時可有效規避基于通常的版本項檢索的顯示重復性大、界面有效內容顯示少等情況。

            1)時空檢索界面設計。主要表現作品的檢索結果地理信息、時間(方志以朝代標注)信息以及具體作品的文本記錄信息。

            界面分為3個層次,見圖2.

            GIS結果。表現資源的地理位置、數量等,通過劃分面積,可產生面積內的資源量化結果。

            時間軸結果。通過鼠標拖動,曲線與GIS結果同步顯示量化結果。

            作品記錄層列表。點擊具體作品記錄列表,顯示版本層結果。

            圖2時空檢索界面設計

            2)通過可視化技術表現數據(作者、資源)之間的關聯關系,主要表現知識組織的3層結構,見圖3:作品、版本、單件。

            圖3 知識組織3層結構

            3)關鍵詞可視化檢索?;谫Y源的自然語言關鍵詞可視化檢索的實現,主要通過題名、自然語言關鍵詞、摘要等描述性元數據的分詞,并與規范主題詞構成標簽數據,用于可視化檢索。同時,結合特定屬性(時間、地點、人物等)的全文標注來實現知識關聯。實現上述文本數據的細粒度化,涉及到自動分詞/自然語言處理NLP (Natural Language Processing)技術、標注技術。中國科學院計算技術研究所開發的商業化軟件漢語詞法分析系統ICTCLAS(Institute of Computing Technology Chinese Lexical Analysis System)[5],是功能較強的非開源系統。主要功能包括中文分詞、詞性標注、命名實體識別、新詞識別,不僅支持用戶詞典與繁體中文轉換,還支持GBK、UTF-8、UTF-7、UNICODE等多種編碼格式。此外,有許多開源軟件可供使用,如類似開源LAMP平臺的基于字符串匹配PHP Analysis分詞組件工具[6]。SCWS –簡易中文分詞系統,采用的是自行采集的詞頻詞典進行分詞,并輔以一定程度上的專有名稱、人名、地名、數字年代等規則集來實現自動標注。同時,提供共享函數庫,可方便嵌入各種現有軟件系統,支持GBK、UTF-8、BIG5等漢字編碼[7]。自動分詞和屬性標注在專有名詞和特有需求甚多的垂直領域,要提升文本數據細粒度化處理的精準度,往往需要大規模語料庫的支撐,而在中文垂直領域語料庫很少,很難將比較通用的如在 Wikipedia上面訓練的模型直接拿過來用[8]。本系統采用開源LAMP平臺實現分詞功能,見圖4

            圖4分詞可視化檢索

            4)檢索結果的時空量化。主要基于GIS實現面積的檢索結果量化,見圖5。

            圖5基于面積的檢索結果量化

            5)異構資源整合結果展示,同一作品的不同收藏地表現、同一作品不同載體形態表現等,見圖6。

            圖6 資源整合文字界面

            5. 結語

            數字方志集成平臺的設計,基于國家社科基金項目“圖書館異構特藏資源的數字人文研發與共享模式研究”的階段性研究成果。力求通過資源的集成,為人文學者提供更方便、更權威的研究環境;基于知識本體的知識組織,通過可視化技術、GIS技術、關聯數據技術、知識圖譜等技術的應用,為人文學者提供全新的數字化研究環境,輔助人文學者在數字時代的研究過程。

            構建數字人文視角下的數字方志研究環境,數據處理和平臺功能同樣重要。全文數據的深度挖掘與分析以及基于時間、地點、人物、事件等的標注,這些相關不斷細化的自然語言處理,需要信息技術的進一步輔助才能逐步實現。數字方志集成平臺目前還有很多功能需要進一步完善。如眾包功能的嵌入、文本分析工具應用、產生更多量化結果等,這些功能都在不斷探索中。

            參考文獻

            [1]HOCKEY S.The History of Humanities Computing[M]//A Companion to Digital Humanities. Blackwell Publishing Ltd,2004:1-19.

            [2]于淑娟.臺大資訊工程學教授:新技術能為歷史研究提供什么幫助[EB/OL].[2018-03-28].http://www.thepaper.cn/newsDetail_forward_1340177.

            [3]柯平,宮平.數字人文研究演化路徑與熱點領域分析[J].中國圖書館學報,2016(11),13-30.

            [4]方志特征[EB/OL].[2018-03-28].https://baijiahao.baidu.com/s?id=1594922-446661171625&wfr=spider&for=pc.

            [5]百度百科.ICTCLAS[EB/OL].[2018-03-28].https://baike.baidu.com/item/ ICTCLAS/8609-504?fr=Aladdin.

            [6]分詞系統簡介:PHPAnalysis分詞程序[EB/OL].[2018-03-28].http://www. cnblogs.c-om/sanwenyu/p/4054728.html.

            [7]SCWS中文分詞[EB/OL].[2018-03-28].http://www.xunsearch.com/scws/.

            [8]構想:中文文本標注工具[EB/OL].[2018-03-28]. https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/78560121.

          來源:1華東師范大學數據科學與工程學院,2華東師范大學圖書館 作者:李欣 魯丹 責任編輯:楊靜 我要投稿
          校體購終極頁

          版權與免責聲明:

          ① 凡本網注明"來源:教育裝備采購網"的所有作品,版權均屬于教育裝備采購網,未經本網授權不得轉載、摘編或利用其它方式使用。已獲本網授權的作品,應在授權范圍內使用,并注明"來源:教育裝備采購網"。違者本網將追究相關法律責任。

          ② 本網凡注明"來源:XXX(非本網)"的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,且不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、網站或個人從本網下載使用,必須保留本網注明的"稿件來源",并自負版權等法律責任。

          ③ 如涉及作品內容、版權等問題,請在作品發表之日起兩周內與本網聯系,否則視為放棄相關權利。

          校體購產品
          99久久国产自偷自偷免费一区|91久久精品无码一区|国语自产精品视频在线区|伊人久久大香线蕉av综合

            <acronym id="pokdi"><strong id="pokdi"></strong></acronym>
              <acronym id="pokdi"><label id="pokdi"><xmp id="pokdi"></xmp></label></acronym>

              <td id="pokdi"><ruby id="pokdi"></ruby></td>
              <td id="pokdi"><option id="pokdi"></option></td>
              <td id="pokdi"></td>