爬蟲質量的評價標準
如果從搜索引擎用戶體驗的角度考慮,對爬蟲的工作效果有不同的評價標準,其中最主要的 3 個標準是:抓取網頁的覆蓋率、抓取網頁時新性及抓取網頁重要性。如果這 3 方面做得好,則搜索引擎用戶體驗必定好。
對于現有的搜索引擎來說,還不存在哪個搜索引擎有能力將互聯網上出現的所有網頁都下載并建立索引,所有搜索引擎只能索引互聯網的一部分。而所謂的抓取覆蓋率指的是爬蟲抓取網頁的數量占互聯網所有網頁數量的比例,覆蓋率越高,等價于搜索引擎的召回率越高,用戶體驗越好。
索引網頁和互聯網網頁對比
抓取到本地的網頁,很有可能已經發生變化,或者被刪除,或者內容被更改,因為爬蟲抓取完一輪需要較長的時間周期,所以抓取到的網頁當中必然會有一部分是過期的數據,即不能在網頁變化后第一時間反應到網頁庫中。所以網頁庫中過期的數據越少,則網頁的時新性越好,這對用戶體驗的改善大有裨益。
如果時新性不好,搜索到的都是過期數據,或者網頁被刪除,用戶的內心感受可想而知。
互聯網盡管網頁繁多,但是每個網頁的差異性都很大,比如來自騰訊、網易新聞的網頁和某個作弊網頁相比,其重要性猶如天壤之別。如果搜索引擎抓取到的網頁大部分是比較重要的網頁,則可以說明在抓取網頁重要性方面做得比較好。這方面做的越好,則越說明搜索引擎的搜索精度越高。
通過以上 3 個標準的說明分析,可以將爬蟲研發的目標簡單描述如下:在資源有限的情況下,既然搜索引擎只能抓取互聯網現存網頁的一部分,那么就盡可能給選擇比較重要的那部分頁面來索引;對于已經抓取到的網頁,盡可能快的更新內容,使得索引網頁和互聯網對應頁面內容同步更新;在此基礎上,盡可能擴大抓取范圍,抓取到更多以前無法發現的網頁。
3 個“盡可能”基本說清楚了爬蟲系統為增強用戶體驗而奮斗的目標。
大型商業搜索引擎為了滿足 3 個質量標準,大都開發了多套針對性很強的爬蟲系統。以Google為例,至少包含兩套不同的爬蟲系統:一套被稱為Fresh Bot,主要考慮網頁的時新性,對于內容更新頻繁的網頁,目前可以達到以秒計的更新周期;另外一套被稱之為Deep Crawl Bot,主要針對更新不是那么頻繁的網頁抓取,以天為更新周期。
除此之外,Google投入了很大精力研發針對暗網的抓取系統,
非常感謝您有耐心的讀完商企云建站公司的這篇文章:"seo優化公司:爬蟲質量的評價標準",僅為提供更多信息供用戶參考使用或為學習交流的方便。我們公司不僅提供:網站建設、網站制作、seo網站優化、網站推廣、APP開發、快速排名、網頁設計、建網站等服務,而且利用互聯網營銷手法,多平臺,多樣化進行品牌內容鋪設,營造企業正面形象,誠摯為您服務,歡迎您的到來。