摘要:本發明屬信息檢索領域,公開一種快速比對文本內容的方法與系統,分為文檔注冊和文檔比對兩個部分。文檔注冊部分使用一種迭代式學習方法從待注冊文檔的文本中學習新關鍵詞,構造關鍵詞庫,并基于關鍵詞庫建立文本語義和文字結構兩種表達方式表示的注冊文檔庫。文檔比對部分基于關鍵詞庫建立待比對文檔文本語義表達方式,與注冊文檔一一進行文本語義相似性比對,獲取相似度最高的、很少數量的注冊文檔,再基于二部圖分割算法與待比對文檔一一進行文字結構相似性比對,輸出文字結構相似度最高的若干篇注冊文檔及其與待比對文檔的文字結構匹配關系。采用本發明所述方法,可以大幅提高文檔的文本內容比對效率,并提供文檔間相似文本內容的對應關系。
- 專利類型發明專利
- 申請人廈門優芽網絡科技有限公司;
- 發明人陳春蓉;陽嬪虹;張委員;黃藝煌;
- 地址361000 福建省廈門市思明區蓮前西路595號益馬國際二樓
- 申請號CN201510989166.5
- 申請時間2015年12月28日
- 申請公布號CN105630751A
- 申請公布時間2016年06月01日
- 分類號G06F17/22(2006.01)I;