摘要:本發明涉及一種版式文件中表格識別方法及系統,屬于計算機信息處理領域的模式識別技術領域?,F有的模式識別技術不能夠有效識別和自動提取版面中的表格。本發明所述的方法及系統首先利用自動合并技術將版面中獨立的文字進行合并,使其組織成為內容塊,然后再根據這些內容塊的空間位置、字體信息、排版信息進行表格的識別和內容的組合。采用本發明所述的方法及系統,可以通過分析報紙版面上內容的位置和排版信息,快速高效的識別表格,同時正確的組織表格內容。
- 專利類型發明專利
- 申請人北大方正集團有限公司;北京方正阿帕比技術有限公司;
- 發明人徐劍波;董寧;
- 地址100871 北京市海淀區成府路298號方正大廈
- 申請號CN200810224799.7
- 申請時間2008年12月26日
- 申請公布號CN101770446A
- 申請公布時間2010年07月07日
- 分類號G06F17/21(2006.01)I;