摘要:本發明公開了一種基于頁面分塊的圖片摘要提取系統,包括頁面預處理模塊、頁面分類模塊、頁面分塊模塊、主題塊識別模塊和信息提取模塊。本發明還公開了一種基于頁面分塊的圖片摘要提取方法,具體包括:步驟S1、從Internet上把頁面抓取下來;步驟S2、頁面預處理模塊對頁面進行預處理;步驟S3、頁面分類模塊對預處理后的頁面分類;步驟S4、頁面分塊模塊進行語義塊劃分;步驟S5、頁面分塊模塊將主題型頁面發送到主題塊識別模塊,主題塊識別模塊識別出主題塊,并發送給信息提取模塊;頁面分塊模塊將非主題型頁面發送到信息提取模塊;步驟S6、信息提取模塊下載圖片并與頁面關聯。本發明具有提取速度快、準確度高、效果好的優點。
- 專利類型發明專利
- 申請人華南理工大學;廣州數園網絡有限公司;
- 發明人董守斌;張朝斌;張凌;李粵;袁華;
- 地址510640 廣東省廣州市天河區五山路381號
- 申請號CN201010275844.9
- 申請時間2010年09月06日
- 申請公布號CN101944109A
- 申請公布時間2011年01月12日
- 分類號G06F17/30(2006.01)I;