摘要:本發明涉及一種面向海量數據源的網絡爬蟲動態帶寬分配方法及系統,所述方法包括以下步驟:S1、通過若干爬蟲程序帶寬占比進行第一次分配;S2、每隔一段時間通過各爬蟲程序對帶寬進行重新預測和分配;S3、若某個爬蟲程序停止后釋放其所占用資源,并通過爬蟲程序重新進行帶寬分配;S4、當所有爬蟲程序均停止,則分配結束。本發明實現了在request級別上對帶寬的細粒度動態分配,保障信息的及時獲取,降低爬取信息的總時間;實現了最短總爬取時間和最短最長爬取時間兩種分配算法,支持多種數據爬取情況。
- 專利類型發明專利
- 申請人武漢烽火普天信息技術有限公司;
- 發明人金俏;楊緒升;杜魯;朱衛平;李述;喬瑞凱;朱文鵬;范昊深;
- 地址430074 湖北省武漢市東湖開發區光谷軟件園A1棟10樓
- 申請號CN201610536834.3
- 申請時間2016年07月08日
- 申請公布號CN106209685A
- 申請公布時間2016年12月07日
- 分類號H04L12/911(2013.01)I;H04L12/919(2013.01)I;G06F17/30(2006.01)I;