摘要:本發明公開了一種文本相似度計算方法及裝置,涉及數據處理技術領域,用于解決現有文本相似度計算效率低的問題,本發明的主要技術方案為:在文本中滾動預置長度的窗口,每滾動一次獲取一個字符長度與窗口長度相同的窗口特征詞向量;根據所述窗口特征詞向量生成與所述文本對應的唯一標識數據;通過對不同文本的唯一標識數據的比較,確定不同文本之間的相似度結果。本發明主要用于計算文本相似度。
- 專利類型發明專利
- 申請人東軟集團股份有限公司;
- 發明人張明亮;齊勇;王明強;
- 地址110179 遼寧省沈陽市渾南新區新秀街2號
- 申請號CN201610751935.2
- 申請時間2016年08月29日
- 申請公布號CN106469144A
- 申請公布時間2017年03月01日
- 分類號G06F17/27(2006.01)I;G06F17/30(2006.01)I;