摘要:本發明公開了一種基于序列標注模型的學科術語抽取方法及系統,屬于數據抽取技術領域。該方法首先對訓練語料中的學科術語進行標注和類別標簽設置,得到標注序列,并以訓練語料作為觀察序列、標注序列作為狀態序列,訓練出學科術語抽取模型,以該模型為抽取器初步抽取出待抽取語料中的學科術語,再利用學科術語之間的相似度進行初步抽取結果的篩選,篩選出屬于對應學科領域的真正學科學術。通過本發明所述的抽取方法及系統,在進行學科術語的抽取時,通過將少量的訓練語料進行學科術語的標注,實現了語料中學科術語的快速、準確的提取,同時還能夠不斷完善學科領域的已有知識體系結構,克服了傳統學科術語抽取方法的不足。
- 專利類型發明專利
- 申請人明博教育科技有限公司;北京大學;
- 發明人楊碩;高飛;馮巖松;賈愛霞;趙東巖;盧作偉;王冬;
- 地址100085 北京市海淀區上地三街9號嘉華大廈C座801-803
- 申請號CN201510145663.7
- 申請時間2015年03月30日
- 申請公布號CN104794169A
- 申請公布時間2015年07月22日
- 分類號G06F17/30(2006.01)I;G06F17/27(2006.01)I;