摘要:本發明公開了一種PDF文檔亂碼的檢測、校正的方法,包括:提取PDF文檔內所有字體特征;根據字體特征將字體分為正常字體、亂碼字體和待定字體;提取待定字體中字符的點陣圖像,并基于圖像統計特征的亂碼檢測算法計算點陣圖像與對應編碼的相似度,根據相似度判斷待定字體中的正常字符或亂碼字符;將所述待定字體中的亂碼字符和亂碼字體中的亂碼字符進行縱向和橫向編改校正;通過校正結果修正PDF文檔,去除亂碼字符。本發明采用字體特征和字符的圖像特征相結合的方式實現了亂碼的自動檢測,縱向和橫向編改相結合減少了亂碼校正的人工耗時,有效地去除了亂碼,排除了亂碼對后續碎片化加工的干擾,提高了加工效率和質量,降低了加工成本。
- 專利類型發明專利
- 申請人同方知網數字出版技術股份有限公司;同方知網(北京)技術有限公司;
- 發明人鄒季英;梁洵;袁仁慧;
- 地址100084 北京市海淀區清華大學華業大廈
- 申請號CN201510181385.0
- 申請時間2015年04月16日
- 申請公布號CN104732228A
- 申請公布時間2015年06月24日
- 分類號G06K9/32(2006.01)I;