摘要:本發明公開了一種快速內容分析的多關鍵詞匹配方法。所述發明方法包括預處理階段和模式匹配階段。其中,所述的預處理階段包括關鍵詞特征串裁剪和關鍵詞特征分片集合的構建、基于關鍵詞特征分片集合的Bloom Filte(布隆過濾器)構造,以及原始關鍵詞集合線性表構造,所述關鍵詞匹配階段包括:依據Bloom Filter實現當前窗口中文本串不與任何關鍵詞特征分片匹配的快速判定;只在判定失敗情況下通過字符串比較操作實現與候選關鍵詞的精確匹配;將文本匹配窗口連續多字節快速跳躍。本發明充分利用了待匹配文本與關鍵詞匹配成功概率異常低的特點,可實現大數量關鍵詞場景下的高速匹配,非常適合病毒檢測等在線病毒掃描應用。
- 專利類型發明專利
- 申請人北京啟明星辰信息技術股份有限公司;
- 發明人葉潤國;華東明;李博;胡振宇;
- 地址100094 北京市海淀區東北旺西路8號中關村軟件園21號啟明星辰大廈
- 申請號CN200710119845.2
- 申請時間2007年08月01日
- 申請公布號CN101359325B
- 申請公布時間2010年06月16日
- 分類號G06F17/30(2006.01)I;