摘要:本發明提供了一種版式文檔中復合圖的提取裝置,包括:文檔解析單元,對版式文檔進行解析,確定構成所述版式文檔的圖元及所述圖元的類型;圖層生成單元,提取文字圖元以構成文字圖層,并利用其余的非文字圖元構成非文字圖層;版面分析單元,分別對文字圖層和非文字圖層進行版面分析處理;區塊生成單元,生成文字圖層中的文字區塊和非文字圖層中的圖像區塊;關聯區塊確定單元,確定與每個圖像區塊相關聯的文字區塊,以合并為復合圖區塊;標識存儲單元,存儲復合圖區塊包含的所有圖元的標識。本發明還提出了一種版式文檔中復合圖的提取方法。通過本發明的技術方案,可以在復雜的文檔版面布局中,尤其是圖文混排版面中,實現對復合圖的準確提取。
- 專利類型發明專利
- 申請人北大方正集團有限公司;北京方正阿帕比技術有限公司;北京大學;
- 發明人許燦輝;湯幟;陶欣;史操;
- 地址100871 北京市海淀區成府路298號方正大廈9層
- 申請號CN201310343908.8
- 申請時間2013年08月08日
- 申請公布號CN104346615A
- 申請公布時間2015年02月11日
- 分類號G06K9/46(2006.01)I;