百度蜘蛛的抓取方式和異常原因
Baiduspider根據上述網站設置的協議對站點頁(yè)面進行抓取,但是不可(kě)能(néng)做到對所有(yǒu)站點一視同仁,會綜合考慮站點實際情況确定一個抓取配額,每天定量抓取站點内容,即我們常說的抓取頻次。那麽百度搜索引擎是根據什麽指标來确定對一個網站的抓取頻次的呢(ne),主要指标有(yǒu)四個:
1,網站更新(xīn)頻率:更新(xīn)快多(duō)來,更新(xīn)慢少來,直接影響Baiduspider的來訪頻率
2,網站更新(xīn)質(zhì)量:更新(xīn)頻率提高了,僅僅是吸引了Baiduspier的注意,Baiduspider對質(zhì)量是有(yǒu)嚴格要求的,如果網站每天更新(xīn)出的大量内容都被Baiduspider判定為(wèi)低質(zhì)頁(yè)面,依然沒有(yǒu)意義。
3,連通度:網站應該安(ān)全穩定、對Baiduspider保持暢通,經常給Baiduspider吃閉門羹可(kě)不是好事情
4,站點評價:百度搜索引擎對每個站點都會有(yǒu)一個評價,且這個評價會根據站點情況不斷變化,是百度搜索引擎對站點的一個基礎打分(fēn)(絕非外界所說的百度權重),是百度内部一個非常機密的數據。站點評級從不獨立使用(yòng),會配合其它因子和阈值一起共同影響對網站的抓取和排序。
抓取頻次間接決定着網站有(yǒu)多(duō)少頁(yè)面有(yǒu)可(kě)能(néng)被建庫收錄,如此重要的數值如果不符合站長(cháng)預期該如何調整呢(ne)?百度站長(cháng)平台提供了抓取頻次工(gōng)具(jù),并已完成多(duō)次升級。該工(gōng)具(jù)除了提供抓取統計數據外,還提供“頻次調整”功能(néng),站長(cháng)根據實際情況向百度站長(cháng)平台提出希望Baiduspider增加來訪或減少來訪的請求,工(gōng)具(jù)會根據站長(cháng)的意願和實際情況進行調整。
1,服務(wù)器連接異常:服務(wù)器連接異常會有(yǒu)兩種情況:一種是站點不穩定,Baiduspider嘗試連接您網站的服務(wù)器時出現暫時無法連接的情況;一種是Baiduspider一直無法連接上您網站的服務(wù)器。造成服務(wù)器連接異常的原因通常是您的網站服務(wù)器過大,超負荷運轉。也有(yǒu)可(kě)能(néng)是您的網站運行不正常,請檢查網站的web服務(wù)器(如apache、iis)是否安(ān)裝(zhuāng)且正常運行,并使用(yòng)浏覽器檢查主要頁(yè)面能(néng)否正常訪問。您的網站和主機還可(kě)能(néng)阻止了Baiduspider的訪問,您需要檢查網站和主機的防火牆。
2,網絡運營商(shāng)異常:網絡運營商(shāng)分(fēn)電(diàn)信和聯通兩種,Baiduspider通過電(diàn)信或網通無法訪問您的網站。如果出現這種情況,您需要與網絡服務(wù)運營商(shāng)進行聯系,或者購(gòu)買擁有(yǒu)雙線(xiàn)服務(wù)的空間或者購(gòu)買cdn服務(wù)。
3,DNS異常:當Baiduspider無法解析您網站的IP時,會出現DNS異常。可(kě)能(néng)是您的網站IP地址錯誤,或者域名(míng)服務(wù)商(shāng)把Baiduspider封禁。請使用(yòng)WHOIS或者host查詢自己網站IP地址是否正确且可(kě)解析,如果不正确或無法解析,請與域名(míng)注冊商(shāng)聯系,更新(xīn)您的IP地址。
4,IP封禁:IP封禁為(wèi):限制網絡的出口IP地址,禁止該IP段的使用(yòng)者進行内容訪問,在這裏特指封禁了BaiduspiderIP。當您的網站不希望Baiduspider訪問時,才需要該設置,如果您希望Baiduspider訪問您的網站,請檢查相關設置中(zhōng)是否誤添加了BaiduspiderIP。也有(yǒu)可(kě)能(néng)是您網站所在的空間服務(wù)商(shāng)把百度IP進行了封禁,這時您需要聯系服務(wù)商(shāng)更改設置。
5,UA封禁:UA即為(wèi)用(yòng)戶代理(lǐ)(User-Agent),服務(wù)器通過UA識别訪問者的身份。當網站針對指定UA的訪問,返回異常頁(yè)面(如403,500)或跳轉到其他(tā)頁(yè)面的情況,即為(wèi)UA封禁。當您的網站不希望Baiduspider訪問時,才需要該設置,如果您希望Baiduspider訪問您的網站,useragent相關的設置中(zhōng)是否有(yǒu)Baiduspider UA,并及時修改。
6,死鏈:頁(yè)面已經無效,無法對用(yòng)戶提供任何有(yǒu)價值信息的頁(yè)面就是死鏈接,包括協議死鏈和内容死鏈兩種形式:
協議死鏈:頁(yè)面的TCP協議狀态/HTTP協議狀态明确表示的死鏈,常見的如404、403、503狀态等。
内容死鏈:服務(wù)器返回狀态是正常的,但内容已經變更為(wèi)不存在、已删除或需要權限等與原内容無關的信息頁(yè)面。
對于死鏈,我們建議站點使用(yòng)協議死鏈,并通過百度站長(cháng)平台–死鏈工(gōng)具(jù)向百度提交,以便百度更快地發現死鏈,減少死鏈對用(yòng)戶以及搜索引擎造成的負面影響。
7,異常跳轉:将網絡請求重新(xīn)指向其他(tā)位置即為(wèi)跳轉。異常跳轉指的是以下幾種情況:
1)當前該頁(yè)面為(wèi)無效頁(yè)面(内容已删除、死鏈等),直接跳轉到前一目錄或者首頁(yè),百度建議站長(cháng)将該無效頁(yè)面的入口超鏈接删除掉
2)跳轉到出錯或者無效頁(yè)面
注意:對于長(cháng)時間跳轉到其他(tā)域名(míng)的情況,如網站更換域名(míng),百度建議使用(yòng)301跳轉協議進行設置。
8,其他(tā)異常:
1)針對百度refer的異常:網頁(yè)針對來自百度的refer返回不同于正常内容的行為(wèi)。
2)針對百度ua的異常:網頁(yè)對百度UA返回不同于頁(yè)面原内容的行為(wèi)。
3)JS跳轉異常:網頁(yè)加載了百度無法識别的JS跳轉代碼,使得用(yòng)戶通過搜索結果進入頁(yè)面後發生了跳轉的情況。
4)壓力過大引起的偶然封禁:百度會根據站點的規模、訪問量等信息,自動設定一個合理(lǐ)的抓取壓力。但是在異常情況下,如壓力控制失常時,服務(wù)器會根據自身負荷進行保護性的偶然封禁。這種情況下,請在返回碼中(zhōng)返回503(其含義是“Service Unavailable”),這樣Baiduspider會過段時間再來嘗試抓取這個鏈接,如果網站已空閑,則會被成功抓取。
- 上一篇:外層DIV随着内層DIV增高而自動增高
- 下一篇:網站SEO優化常見的幾個錯誤