添加時間:2016/10/21 16:06:52 編輯:奇億網(wǎng)站建設(shè)公司
記得互聯(lián)網(wǎng)剛進(jìn)入中國時,央視有一欄目是叫做互聯(lián)網(wǎng)生存大賽,就是把一檔子人關(guān)起來,只有互聯(lián)網(wǎng),看誰能通過它買到自己想要的東西生存下來。當(dāng)時覺得真不容易,這些人必定是高手。當(dāng)時就說這是未來的人生活的常態(tài),足不出戶就可以利用互聯(lián)網(wǎng)活下來,F(xiàn)在看來,其實(shí)更有趣的是把人們遠(yuǎn)離互聯(lián)網(wǎng),看他們能否活下來。
進(jìn)入主題,近段時間9月底與10月前 許多站長經(jīng)歷堪比過山車般的持起彼伏,在9月23日的時候,百度來了一波大更新,許多新站終于是跳出一大部分收錄。而正當(dāng)以為可以高興的迎接國慶的時候,一大波網(wǎng)站被百度進(jìn)行懲罰。百度的動作是越來越猜不透了。
百度大更新蜘蛛抓取痕跡
一大波被百度懲罰的網(wǎng)站正悄悄來襲
網(wǎng)站日志作為站長每日必看的東西,如果是簡單的查看網(wǎng)站蜘蛛的抓取,這些借助愛站的工具包就能看出網(wǎng)站是否受蜘蛛歡迎了,但是如果要對日志進(jìn)行詳細(xì)的分析,還是的老老實(shí)實(shí)的查看日志文件。而最近用愛站工具查看蜘蛛概要分析的時候,發(fā)現(xiàn)百度蜘蛛總停留時間幾乎為0,而百度蜘蛛訪問次數(shù)以及總抓取量卻正常,接下來我們一起研究下這個問題:
百度抓取總停留時間
每當(dāng)網(wǎng)站有啥病痛的時候,最著急的就是站長了,感覺這時候誰都靠不住,只能自己去琢磨了。這時候沒別的辦法,只能先去查看網(wǎng)絡(luò)日志。不看不知道,一看嚇一跳,發(fā)現(xiàn)返回的404錯誤多的幾乎能上天。
看到這里的時候,幾乎嚇了一跳,哪里跑出來的錯誤頁面,既然有幾萬條。等接著往下看的時候發(fā)現(xiàn)幾乎都是同一IP抓取的,到底是何方神圣,能集中的那么厲害。慢慢發(fā)現(xiàn)看的時候發(fā)現(xiàn)一些baidu的字眼,看到百度就好辦了,先看一下這個IP是不是百度爬蟲的,發(fā)現(xiàn)之后好像是百度云觀測的爬蟲。
然后往回想一下之前在百度站長平臺使用過網(wǎng)站體檢,發(fā)現(xiàn)體驗(yàn)度太低之后,去百度云觀測設(shè)置網(wǎng)站保護(hù),估計(jì)是因?yàn)檫@個原因。而返回這些錯誤的404頁面基本都是不存在的頁面,而結(jié)合百度云觀測可以知道,這應(yīng)該是百度云觀測的測試蜘蛛,測試網(wǎng)站的安全性,它模仿木馬的攻擊去抓取網(wǎng)站鏈接,返回404證明攻擊不成功。而大量的404返回會照成百度蜘蛛的誤判,我們知道蜘蛛兌404是很反感的,所以接觸一些之后就馬上回頭,照成這次的停留時間基本0。
好了,困擾在心頭的結(jié)終于打開了,各位別看好像很輕松的就解決了,其中的辛苦想必只有自己知道,而單純解決這個問題都耗費(fèi)了幾天時間,因?yàn)椴皇敲看螌W(wǎng)站操作過的事情都能像電影一樣過一遍。而這也正是有趣的地方,除了是有涉及違規(guī)的網(wǎng)站外,正常的網(wǎng)站出現(xiàn)問題如何解決是對一個站長的挑戰(zhàn),而如何處理這份挑戰(zhàn)就變的相當(dāng)?shù)挠腥ち恕?/span>