摘要:本發明提供一種文字行提取方法和裝置,屬于光學字符識別領域。包括:對全景二值圖像的各連通域統計,得到字符寬度和字符高度,根據字符寬度和字符高度對各連通域合并;將得到各第一尺度塊間的參考水平間距,根據參考水平間距將各第一尺度塊合并;將得到各第二尺度塊間的第二參考水平間距,根據第二參考水平間距將各第二尺度塊合并;將得到的第三尺度塊排序后將第三尺度塊左右兩端既定數目的第一尺度塊作延長線,根據延長線將各第三尺度塊合并為文字行。本發明分別對應字符、單詞和詞段進行多尺度合并,再以得到的文字行為基礎自頂向下將被排除的尺度塊添加回文字行中,減少了不完整字符對文字行提取的干擾,保證了得到的文字行的有效性和準確性。
- 專利類型發明專利
- 申請人漢王科技股份有限公司;
- 發明人李永彬;
- 地址100193 北京市海淀區東北旺西路8號5號樓三層
- 申請號CN201010568411.2
- 申請時間2010年11月30日
- 申請公布號CN102063619B
- 申請公布時間2013年03月13日
- 分類號G06K9/20(2006.01)I;