摘要:本發明提供一種多語文檔分離的方法和系統,其主要原理是:對文檔字符進行掃描;提取當前掃描字符的字符屬性信息;并根據字符屬性信息與語種標識間的映射關系,為當前掃描字符分配相應語種標識;將當前掃描字符的語種標識與需分離語種標識進行比較,并當二者相同時,記錄當前掃描字符為句首字符;將掃描到的下一個字符與句尾符號進行比較,并當二者相同時,記錄其為句尾字符;將自句首字符至句尾字符的所有字符定位為當前句,并為當前句分配存放指針;根據所述存放指針,將當前句寫入到與該語種標識對應的文件中。通過本發明,能夠實現對WORD文檔中的多語混雜內容進行分離,不僅方便了用戶操作,而且能夠大大節約人力資源和時間。
- 專利類型發明專利
- 申請人傳神聯合(北京)信息技術有限公司;
- 發明人趙國偉;
- 地址100086 北京市海淀區青云里滿庭芳園小區9號樓青云當代大廈十七層1707A1房間
- 申請號CN201010285962.8
- 申請時間2010年09月19日
- 申請公布號CN101996164B
- 申請公布時間2012年07月04日
- 分類號G06F17/22(2006.01)I;