摘要:本發明公開了一種基于元數據去除重復對象的方法,涉及元數據清理領域,解決了現有去除重復數據工作量大的問題,本發明先對待錄入的元數據進行規范化處理。在比較時通過縮小比較范圍,減少工作量,提高工作效率。在數據集合記錄中,選取與待錄入元數據的出版社字段相同的記錄;在選定的記錄中,選取isbn、書名、作者、出版社、出版時間、價格字段,作為比較范圍。利用帶權重值的相似度比較函數,計算待錄入元數據與數據集合中對應字段的屬性值之間的相似度值;將各個字段相似度值乘以權重值,相加得到復合相似度值;將復合相似度值與預設閾值進行比較;如果復合相似度值不小于閾值,則數據集合中的當前記錄與待錄入元數據為重復數據。
- 專利類型發明專利
- 申請人北大方正集團有限公司;北京方正阿帕比技術有限公司;
- 發明人高飛;
- 地址100871北京市海淀區成府路298號方正大廈5層
- 申請號CN200710106024.5
- 申請時間2007年05月29日
- 申請公布號CN101286156A
- 申請公布時間2008年10月15日
- 分類號G06F17/30(2006.01);G06F19/00(2006.01);