seo優化往大了講海納百川,往小點講也有很多重要元素。抓取和索引這兩件事就是SEO領域中簡單而又重要的觀念,熟悉了解它們之后便可以優化搜索引擎蜘蛛抓取、索引你的網站。
了解網絡蜘蛛
Google官方將它稱為Google Spider、Google Bot,我們便將其稱之為蜘蛛,想象一下互聯網便是一個又一個的蜘蛛網連在一起,而搜索引擎本身有屬于它的軟件,就像是蜘蛛一樣在巨大的網絡上爬行,并收集 資訊。
做 SEO工作,維持網路蜘蛛與網站之間良好的關系是非常重要的,你必須要了解各大搜尋引擎蜘蛛的效能以及規范,并盡量讓它能夠完整抓取你網站上的優質內容。
早些年,Bing的蜘蛛太大容量的網站內容會無法抓取,這是它本身的功能限制,你必須要把最好的內容往前方,如果容量太大的話,后邊的內容Bing是抓不到的。
理解抓取 ( Crawl ) 、索引 ( Index )
搜索引擎運作原理我們可以簡單說為:
抓取 ( Crawl) – > 演算、建立索引到搜索引擎上 ( Index ) – > 供查詢、使用
抓取 ( Crawl) 便是指搜索引擎捕捉你網站上的資料的行為,包括網站的關鍵字、內容、反向鏈接等等,刷取完畢之后便會通過索引蜘蛛在爬完你的資料之后,將所有內容進行演算、歸檔,并且收錄到搜索引擎中,這個建檔、收錄的過程被稱之為( Index )。
索引完成之后,用戶才能在搜索引擎中找到你的網站,簡單來講,先有抓取才會有索引,通過Google站長工具,我們可以看到網站被抓取、索引的情況。
抓取和索引是完全不同的兩件事,有可能你的頁面被Google正常抓取,卻沒有將頁面索引到搜索引擎上,這樣的情況一般來講就很有可能是你的網站有違規的行為,又或者排名太差,在搜索引擎上根本找不到自己的頁面。
抓取 ( Crawl ) 與索引 ( Index )的優化工作
為什么抓取 ( Crawl ) 需要優化?
抓取的優化功能就是要確定Google、Bing在抓取、并且是完整的抓取整站的資料,有可能因為某處的網站結構以及HTML語法的錯誤,導致它看不到你的網站,這是非常致命的一件事情。
當然,有時候你也不希望蜘蛛去抓取某些個網站,比如說有頁面未完成、還在測試階段,你不希望Google看到這個頁面,那就必須使用些特殊的語法,阻止蜘蛛抓到這些頁面的資料。
為什么索引 ( Index )需要優化?
測試索引 ( Index )的唯一辦法就是實際使用搜尋引擎去搜尋自己的網站。
先排除排名的情況外,先確保你的頁面都有正常的建立搜索引擎,并且某些頁面會影響用戶體驗,你并不希望被建立進搜索引擎,你就要使用meta robots來進行SEO工作。
怎么阻止搜索引擎抓取 ( Crawl ) 和索引 ( Index )頁面
meta robots以及robots.txt的工作分別是阻止Google 抓取、索引你的頁面,可是我們明明巴不得搜索引擎把整站的頁面全都給抓取、索引,為什么還要阻止搜索引擎呢?
這年頭已經不是單純SEO排名、流量高就有用的,為了能夠讓網站產生價值,制造轉換,所以使用體驗相對重要,如果你有些頁面會給用戶帶來不好的體驗,可以用這個辦法去阻止該頁面出現在Google搜索結果中。
Robots.txt可以阻止搜索引擎抓取你的資料,如果你使用了robots.txt來阻擋搜索引擎,那么搜索引擎將會略過你所阻擋的頁面,不去做抓取。
但meta robots 就不同了,他在索引層面阻止搜索引擎索引你的頁面,但Google還是有抓取你的網站資料的,但究竟為什么我們要這樣做?
關于Robots.txt的一些事情
大多數情況下,我們都不會使用Robots.txt來阻止搜索引擎抓取我們的網站,除非你確定這個頁面對SEO有負面影響,若你有頁面不希望出現在搜索引擎上的話,還是用Meta Robots控制索引就好,除非有以下的情況:
·未完成的頁面
網站頁面正在開發中,并且開發時間比較長,甚至還需要進行修改、索引,這時候被蜘蛛抓取、索引,可能會給用戶搜索帶來錯誤的信息,而且未完成的頁面也會影響用戶的使用體驗。
·測試頁面
新首頁、新頁面測試之類,這些一模一樣的頁面、域名會讓搜索引擎犯迷糊的。
·網站后臺、其他原因
注意-Google說它們是參考參考
了解meta robots以及robots.txt之后,你可以優化網站的抓取及索引狀況,阻止特定頁面跟被抓到或是被索引。
Google官方有明確的聲明,meta robots和robots.txt確實可以告訴Google你希望那些頁面不要被抓取以及索引,Google也會盡量尊重你的決定。
然而,Google官方不保證搜索引擎會完全服從meta robots和robots.txt,肉搜索引擎認為你的網站有很多很多反向鏈接、流量很高、內容很優質、是非常非常棒的網站,它也有可能執意要抓取、索引你的網站。