摘要:本發明公開了一種搜索引擎檢索結果聚類的中文標簽提取方法,包括以下步驟:S1、用戶輸入查詢詞,形成輸入文檔;S2、選取候選詞,對所有候選詞評分;S3、判斷是否存在未作標記的候選詞,若否,則跳轉到步驟S8;若是,則選出得分最高的候選詞;把這個選中的候選詞拓展成為包含該詞的有序詞序列的集合,進入步驟S4;S4、計算各個有序詞序列的頻率,抽取高頻詞序列;S5、對高頻詞序列評分,并選取候選詞序列;S6、判斷選詞序列是否被接受為標簽,若是,則進入步驟S7;若否,則返回步驟S3;S7、根據生成的標簽進行聚類;S8、結束操作。本發明可以減少噪音標簽,使標簽具有更好的代表性、簡明性和完整性。
- 專利類型發明專利
- 申請人華南理工大學;廣州數園網絡有限公司;
- 發明人董守斌;張麗平;張凌;李粵;袁華;
- 地址510640 廣東省廣州市天河區五山路381號
- 申請號CN201010527341.6
- 申請時間2010年10月28日
- 申請公布號CN102081642A
- 申請公布時間2011年06月01日
- 分類號G06F17/30(2006.01)I;