摘要:一種應用于信息技術領域中的一種大規模文本數據的外部聚類方法及系統,設計的聚類系統,包括一候選分析器、關系生成器、關系選取和聚類部件,每個樣本點都作為一個簇,通過檢索技術為每個樣本挑選出候選的具有聯系的候選點集合,利用關系生成器計算樣本與候選關系樣本間的關系,按遞增/遞減順序輸出到外部存儲空間;方法的主要步驟包括:對輸入文本集的預處理,生成文本集的倒排索引和特征向量;采用檢索技術檢索每一文檔的候選關系集合;利用關系計算方法對有候選關系的文檔進行關系計算;排序輸出大于一定閾值的計算結果;聚類算法再依照排序結果,反復迭代合并具有第一直接關系的文本對,最終達到對文本集合的聚類輸出。該裝置構思新穎科學、聚類過程占用空間小、容量大的外部存儲器,對處理過程進行分化處理。
- 專利類型發明專利
- 申請人沈陽格微軟件有限責任公司;
- 發明人季鐸;蔡東風;張桂平;尹寶生;苗雪雷;周俏麗;白羽;
- 地址110034遼寧省沈陽市黃河北大街52號202信箱
- 申請號CN200810012141.X
- 申請時間2008年07月04日
- 申請公布號CN101308496A
- 申請公布時間2008年11月19日
- 分類號G06F17/30(2006.01);