摘要:本發明涉及一種基于語義分析的EXCEL文檔中身份信息的識別方法,其步驟包括:1)構造最大熵模型,采用特征函數表示該最大熵模型的約束條件,并通過在訓練集上進行學習得到特征函數的權值;2)創建處理的類對象,將需要處理的Excel文件名傳遞到類對象中;3)應用所述最大熵模型對需要處理的Excel文件進行信息抽取,將獲得的具體內容在類對象中緩存,進而從類對象中輸出識別結果。本發明能夠節省人工分析特定信息成本,并能減少人工分析的誤差,提高身份信息數據的識別和抽取的準確率。
- 專利類型發明專利
- 申請人北京銳安科技有限公司;
- 發明人李核;
- 地址100044 北京市海淀區中關村南大街乙56號方圓大廈9層
- 申請號CN201310751514.6
- 申請時間2013年12月31日
- 申請公布號CN103744830A
- 申請公布時間2014年04月23日
- 分類號G06F17/22(2006.01)I;