<acronym id="pokdi"><strong id="pokdi"></strong></acronym>
      <acronym id="pokdi"><label id="pokdi"><xmp id="pokdi"></xmp></label></acronym>

      <td id="pokdi"><ruby id="pokdi"></ruby></td>
      <td id="pokdi"><option id="pokdi"></option></td>
      <td id="pokdi"></td>

        1. 教育裝備采購網
          第八屆圖書館論壇 校體購2

          學科分析服務可視化云圖案例 中國礦業大學

          教育裝備采購網 2018-06-13 11:43 圍觀3363次

            二.編寫范例(中國礦業大學圖書館可視化云圖案例)

            學科分析服務可視化云圖案例

            案例編寫人:鄧志文 都平平 宋迎法 鮑劼 穆亞鳳(中國礦業大學圖書館)

            [內容摘要]

            高校圖書館作為機構的信息情報中心,存儲和管理著大量的研究文獻和機構知識,對這些大量文獻進行整體和梳理,并采用文獻計量分析方法從中獲取有價值的信息和知識是圖書館情報服務的重要內容,而這個過程需要科技分析人員花費大量時間和精力??茖W知識圖譜用可視化技術描述知識資源,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系,揭示知識領域的動態發展規律,是圖書館提升情報服務的有效途徑。

            本案例設計了基于echarts的機構知識動態可視化云圖平臺,該平臺實現了在不同粒度下的復雜合作關系、研究熱點、機構分布等動態可視化云圖展示,并有效揭示了機構的研宄主題、研宄前沿等信息,在一定程度上為機構、用戶的決策需求提供了參考,取得了很好的實際應用效果。

            [關鍵詞] Echart 可視化 圖譜分析 關系網 熱點云

           ?。ㄓ⑽臉祟}、責任形式、摘要、關鍵詞,暫略)

            1.引言

            圖譜分析用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系,把復雜的知識領域通過數據挖掘、信息處理、知識計量和圖形繪制而顯示出來,揭知識領域的動態發展規律,讓人們更加方便、準確地獲取知識。

            高校是知識的聚集地,不斷產生著各種研究成果,也存儲著大量的知識。這些成果知識包含著機構研究的內容和研究軌跡,如題名、關鍵詞、作者等屬性從不同角度顯示了學術機構的“知識軌跡”,這些“知識軌跡”會因為機構知識的不斷積累而變化,知識可視化需以知識元為基礎,通過實時獲取這些知識元數據,才能動態顯示機構知識的動態變化過程。本案例通過分析機構知識可視化的關鍵技術,設計出了圖書館機構知識可視化云圖平臺的系統架構,并對平臺進行了實現,為機構的學術發展狀況、研究方向的確立、研究團隊的構建等提供信息支持。

            2.案例實施背景

            中國礦業大學圖書館機構知識庫現有數據量超過2萬,后臺元數據量超過200萬條,為可視化分析提供了很好的源數據基礎。由于所使用的開源平臺Dspace沒有對這些元數據進行多種可視化圖譜展示的模塊,很多時候需要供助第三方工具如Citespace 、VosViewer等對Dspace進行數據可視化的圖譜分析,分析結果都是靜態圖,并沒有將其嵌入到機構庫實現其動態可視化。北京大學calis中心、清華大學以及中科院等院校采用可視化圖譜分析技術對Dspace進行二次開發,實現了一定可視化設計,本案例以Echar為基礎設計了一種內嵌的、易擴充和多元數據整合的機構知識可視化圖譜平臺。

            3. 案例實施過程

            3.1關鍵技術分析

           ?。?)開源可視化開發包echarts技術分析

            隨著技術的不斷升級,應用開發者也開始在用戶體驗上下功夫,比如數據可視化,將一大堆密密麻麻的數字轉成圖表形式,可以更直觀地向用戶展示數據之間的聯系和變化情況,減少用戶的閱讀和思考時間,以便很好地做出決策,因此互聯網中也出現了很多數據可視化開發包,如:Arbor.js、D3.js、Gephi、Tableau、Public、Echarts。在充分查閱資料后,我們選取了Echarts作為平臺可視化開發包。ECharts是一款由百度前端技術部開發的,基于Javascript的數據可視化圖表庫,提供直觀,生動,可交互,可個性化定制的數據可視化圖表。Echarts體積小,開源,而且是國內人員開發,文檔豐富,學習相對容易。

           ?。?)Dspace數據庫結構分析

            數據可視化需要有數據的支持,dspace平臺的后臺數據庫為postgres,為了便于可視化設計,需要分析dspace數據庫各表功能,尤其是條目表item、元數據表metadatavalue,確定各表之間的關系[7],建立用于數據可視化的視圖,本文在dspace基礎數據庫的基礎上自定義了5張視圖。

           ?。?)元數據的清洗

            由人工向機構庫錄入數據的過程中,由于操作不規范,在格式和內容上存在一些問題,如關鍵詞間用逗號、漢字的分號,內容中有不該存在的字符等,這就造成元數據中存在異常的數據,需要對這些引起異常的數據進行清洗去除。因此需要分析所有異常數據可能性,并采用一定的方法最大限度的降低這些異常數據。

            《書樂園》雜志不僅是一本雜志,更重要的是它聯合了東南大學的學生社團,充分發揮了善淵讀書會、享悅讀創意空間、蒲公英社團、東南風文學社、圖管部等學生社團和組織的作用,與多項校園文化活動形成互動,《書樂園》是“書香校園”建設過程中最重要的參與力量。

            3.2系統架構

            本文設計的機構庫可視化平臺系統架構如圖1所示,平臺主要包括:數據存儲層、應用服務層、數據表示層。

            圖1 機構知識可視化平臺架構圖

            數據存儲層:主要是指物理數據庫層,該層即有postgres的元數據,也有自建的sql server中的元數據,為了向上層提供統一的數據格式,該層定義了各種視圖views。

            應用服務層:系統管理對元數據、機構、地理坐標等,可視化數據服務需要將獲取的元數據進行:預處理、數據清洗、規范化、分析、采樣和結構映射六個步驟,其中數據清洗把臟數據、敏感數據過濾掉,采樣需要剔除和可視化結果無關的冗余數據,映射是調整數據結構到表示層能接受的格式。

            數據表示層:可視化結果中我們肯定不可能把所有的數據統統展示出來,于是又涉及到包括標準化(歸一化)、采樣、離散化、降維、聚類等數據處理的方法。

            3.3實施過程

           ?。?)多數據源整合

            為了向應用層提供統一規范的元數據,需要對各種源數據進行整合,從這些異構或異源的數據中自動抽取信息得到備用知識單元。對Dspace平臺通過重新定義各視圖組織各元數據,定義的幾個關鍵視圖主要包括:v_metadatavalue,v_community2collection。

            其中v_metadatavalue為元數據視圖,其視圖邏輯如下,其關聯了4個基礎表。

            視圖v_community2collection為機構合集元數據,其視圖邏輯如下。

            

           ?。?)數據清洗

            數據可視化的主要工作是數據準備,而數據準備一個關鍵工作是從知識元中消除概念的歧義,剔除冗余和錯誤的概念,確保知識的質量。網絡爬取不可避免的會產生數據噪音,手動錄入不規范或者原始數據的標注不統一也會導致元數據中存在錯誤、不規范的數據。本文通過sql擁有的方法對數據清洗,清洗方法包括:

            1)數據輸入造成的關鍵詞空格問題。采用Trim()函數對元數據中的空格進行自動去除,保證數據的唯一性。

            2)同一內容用不同關鍵詞表達的問題,比如某些實體可能有多種表達,某個特定稱謂也許對應于多個不同的實體等。如機構的中國礦業大學、中國礦大、中國礦大徐州等不同的表達方式;知識融合以消除矛盾和歧義。系統通過定義一個單詞庫,并采用相似度計算,統一替換所有表述不統一的元數據,保證關鍵詞表達內容的統一性,提高研究主題的集中度。

            3)關鍵詞的著錄問題。如有的論文關鍵詞為服務提供商/內容提供商;個人數字圖書館資源共享;信息技術SWOT,本文將其分別修改為“服務提供商、內容提供商、個人數字圖書館、資源共享、信息技術、SWOT”。這樣可以使關鍵詞可以更加準確地表達相關研究內容。

           ?。?)信息抽取

            知識圖譜最適合處理關聯密集型的數據,因此首先需要存放的是圖譜中的節點和邊的數據;本文采用自底向上的方式從各種數據源中提取出實體(概念)、屬性以及實體間的相互關系,在此基礎上形成本體化的知識表達,本文定義了兩個主要數據結構:

            實體結構Node=(Category, Name, Value, Url);

            實體關系三元組結構Link=(Source, Target, Weight)。

            將各數據源中抽取出來的實體、關系都存儲在以上兩結構中,其中實體結構中的Value表示實體的重要程度,它反應到圖譜中就是節點的大小,而關系三元組中Weight是表示兩實體間關系的密切程度,它反應到圖譜中就是節點間的距離。

           ?。?)多級采樣

            各單位以及個人發文量不一樣,差別也很大,如果在一篇文章合作者之間的關系都記做權值1的話,那么機構和作者之間發文量差別非常大,在圖譜中展現的節點大小差距也會非常大,顯示效果會不好,因此需要對數據源進行預處理,本文設計出一種不同粒度下的數據采樣方法,以下是該方法實現的核心代碼段。

            系統中通過定義參數symsize,根據機構中總的節點權值進行一個加權平均得到symsiz值,然后所有節點的Value值與symsiz相除得到Value的最終值,最后保證了圖譜中不會超現超級節點。

            4. 實踐效果

            本文以中國礦業大學機構知識庫為處理對象,實現了有關圖譜的設計,如圖2是顯示的所有院系的作者合作關系圖譜,不同院系顏色不一樣。

            圖2 所有院系合作網絡圖

            5. 結語

            本文研究了基于echarts組件對機構知識庫進行圖譜可視的關鍵技術,并依據中國礦業大學圖書館dspace機構庫進行了知識圖譜分析的實現,設計出了動態的圖譜分析平臺,從結果來看,圖譜顯示美觀,響應速度快,基本都在單位秒內得到可視化圖譜,并且該平臺在大數據的前提下實現了對信息的處理、知識計量和圖形繪制,很好的揭示了知識領域的動態規律。

            6. 附件

           ?。?)單個機構合作網絡圖

           ?。?)研究熱點圖

           ?。?)合作機構區域分布圖譜

            案例作者的聯系方式:都平平 13852146685 ppdu168@126.com

          來源:中國礦業大學圖書館 作者:鄧志文 都平平 宋迎法 鮑劼 穆亞鳳 責任編輯:張肖 我要投稿
          校體購終極頁

          相關閱讀

          版權與免責聲明:

          ① 凡本網注明"來源:教育裝備采購網"的所有作品,版權均屬于教育裝備采購網,未經本網授權不得轉載、摘編或利用其它方式使用。已獲本網授權的作品,應在授權范圍內使用,并注明"來源:教育裝備采購網"。違者本網將追究相關法律責任。

          ② 本網凡注明"來源:XXX(非本網)"的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,且不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、網站或個人從本網下載使用,必須保留本網注明的"稿件來源",并自負版權等法律責任。

          ③ 如涉及作品內容、版權等問題,請在作品發表之日起兩周內與本網聯系,否則視為放棄相關權利。

          校體購產品
          99久久国产自偷自偷免费一区|91久久精品无码一区|国语自产精品视频在线区|伊人久久大香线蕉av综合

            <acronym id="pokdi"><strong id="pokdi"></strong></acronym>
              <acronym id="pokdi"><label id="pokdi"><xmp id="pokdi"></xmp></label></acronym>

              <td id="pokdi"><ruby id="pokdi"></ruby></td>
              <td id="pokdi"><option id="pokdi"></option></td>
              <td id="pokdi"></td>