根據(jù)搜索引擎蜘蛛的特性來(lái)做SEO |
發(fā)布時(shí)間: 2012/9/23 15:48:46 |
想把SEO做好,一定要對(duì)搜索引擎的蜘蛛足夠了解,要了解蜘蛛,就要認(rèn)真對(duì)日志進(jìn)行分析,下面我愛(ài)騾就根據(jù)網(wǎng)站的日志試著對(duì)蜘蛛做簡(jiǎn)要的分析,下面的幾張截圖是之前分析的網(wǎng)站日志,我們主要就來(lái)看看百度蜘蛛和谷歌蜘蛛吧,其他SE果斷無(wú)視。
一、抓取的深度和廣度 從圖中可以看出,百度蜘蛛的訪問(wèn)次數(shù)和抓取量分別是98600和224896,谷歌蜘蛛的訪問(wèn)次數(shù)和抓取量分別是31157和172790,讓我們用小學(xué)數(shù)學(xué)老師教的算術(shù)來(lái)算一下平均每個(gè)蜘蛛訪問(wèn)的頁(yè)面數(shù),百度蜘蛛:224896/98600=2.28,谷歌蜘蛛:172790/31157=5.54,可以看出百度的抓取廣度要比谷歌優(yōu)越一些,而谷歌蜘蛛的抓取深度明顯要高于百度,百度每個(gè)蜘蛛平均才看兩個(gè)頁(yè)面,因此,很多數(shù)據(jù)量稍大點(diǎn)的網(wǎng)站經(jīng)常會(huì)出現(xiàn)這個(gè)情況,谷歌收錄比較多,而百度收錄非常少,針對(duì)這一點(diǎn),做百度收錄量的時(shí)候,如果數(shù)據(jù)量較大,內(nèi)頁(yè)的隨機(jī)文章調(diào)用這一塊一定要做好,至于如何隨機(jī),自己發(fā)揮吧。 二、錯(cuò)誤鏈接的抓取 上圖是隨便抽取的幾個(gè)蜘蛛返回404狀態(tài)碼的抓取頁(yè)面,從圖中的標(biāo)注可以看出,即使網(wǎng)站沒(méi)有死鏈,蜘蛛仍然會(huì)抓取一部分死鏈,百度蜘蛛喜歡抓取一半U(xiǎn)RL然后就被勾引到別的地方,而谷歌也有htm后綴抓成html的情況,不過(guò)相對(duì)來(lái)說(shuō),谷歌的抓取錯(cuò)誤還是非常少的,而百度就不少了,究其原因,估計(jì)只有兩家公司的工程師才清楚,我們也沒(méi)必要去關(guān)注這個(gè)原因。針對(duì)這一點(diǎn),無(wú)論你的站有沒(méi)有死鏈,盡量都去給加上404錯(cuò)誤頁(yè)面,因?yàn)椋还苣阌心居兴梨,蜘蛛都?huì)抓到。 三、對(duì)新站的抓取 根據(jù)以前觀察幾個(gè)新站日志的發(fā)現(xiàn),百度蜘蛛對(duì)一個(gè)新站一般第一天會(huì)瘋狂抓取,然后會(huì)沉寂一段時(shí)間,而谷歌比較老實(shí),喜歡按部就班一點(diǎn)一點(diǎn)來(lái),越來(lái)越多。上圖是我六月份上的一個(gè)新站的日志,6月15號(hào)那天掛上去后不到一小時(shí)百度收錄首頁(yè),并且瘋狂抓取5500次,第二天就開(kāi)始在爆發(fā)中沉默,而谷歌一開(kāi)始抓取的很少,慢慢越來(lái)越多(聲明:上圖日志的這10天,網(wǎng)站未做任何外鏈,因此不會(huì)受任何外在原因影響)。經(jīng)常看到很多人網(wǎng)站上線第一天看到百度大量抓取感覺(jué)很驚訝,覺(jué)得是自己網(wǎng)站權(quán)重高,然后第二天開(kāi)始,蜘蛛直接來(lái)個(gè)1800度調(diào)整,每天就稍微來(lái)看一下,然后就變得很郁悶,覺(jué)得是百度不喜歡自己的站了,其實(shí)不是這樣,這是百度蜘蛛的特性。 本文出自:億恩科技【prubsntakaful.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |