一、網站內部優化
Robot.txt使用方法詳細說明及robot.txt問題匯總
(1)為什么設置Robots.txt?
在做好seo使用的過程中,我們應該告知百度搜索引擎什么網頁頁面關鍵什么網頁頁面不重要,關鍵的網頁頁面讓蜘蛛開展抓取,不重要的網頁開展屏蔽掉能夠降低網絡服務器的壓力。
(2)一些普遍的難題和知識要點
蜘蛛在發覺一個網站的情況下,是抓取網址的Robots.txt文件(自然官方網上是這樣講的,有時還會發生不遵守的狀況);
提議每一個網址都需要設定Robots.txt文件,假如你覺得網站上全部內容全是關鍵的,你能創建一個空的robots.txt文件;
(3)在robots.txt文件中設定sitmap
你能在robots.txt中加上網址的地形圖,告知蜘蛛sitmap所屬的詳細地址。
(4)Robots.txt的次序
在蜘蛛協議書中,Disallow與Allow是有次序的,這是一個非常重要的難題,假如設定不正確可能會致使抓取不正確。
模塊蜘蛛程序流程會依據個配對完成的Allow或Disallow行明確是不是瀏覽某一URL,一個事例能讓你更清晰搞清楚:
User-agent:*2.Allow:/seojc/bbs3.Disallow:/seojc/這個情況下,蜘蛛/seojc/bbs目錄能夠正常的抓取,但/seojc/目錄的文件沒法抓取。根據這類方法能夠容許蜘蛛瀏覽特殊目錄里的一部分url。
大家互換下部位觀察一下。
User-agent:*2.Disallow:/根目錄下的文件夾/3.Allow:/seojc/bbs/seojc/目錄發生內行,嚴禁抓取目錄下的全部文件,那樣第二行的Allow就失效,由于行中早已嚴禁抓取seojc目錄下的全部文件,而bbs目錄恰好坐落于seowhy目錄下。因而配對失敗。
(5)Robots.txt路徑問題
在蜘蛛協議書中,Allow和Disallow后邊可以跟二種途徑方式,即連接、相對性連接。連接便是詳細的URL方式,而相對性連接只對于根目錄。這也是記牢。
(6)斜線難題
Disallow:/seojc表示嚴禁抓取seoic這一目錄下的全部文件,如:seojc.1.html、seojc/rmjc.php都不允許抓取;
Disallow:/seojc/表明嚴禁抓取seojc這一目錄下的文件,即容許抓取seojc.1.html,可是不允許抓取seojc/rmjc.php。