解析搜索引擎收錄網頁的四個階段 |
發(fā)布時間: 2013/5/2 11:20:52 |
標簽:服務器托管 虛擬主機 域名注冊 服務器租用 億恩科技
大家都知道作為一個SEO人員來說,要做的不僅是被搜索引擎抓取,還要被收錄,最重要的是還要有一個良好的排名,下文由專業(yè)提供服務器托管、服務器租用、虛擬主機、域名注冊等服務的億恩科技將為大家講解一下搜索引擎收錄網頁的四個階段。 網頁收錄第一階段:大小通吃 搜索引擎的網頁抓取都是采取「大小通吃」的策略,也就是把網頁中能發(fā)現(xiàn)的鏈接逐一加入到待抓取URL中,機械性的將新抓取的網頁中的URL提取出來,這種方式雖然比較古老,但效果很好,這就是為什么很多站長反應蜘蛛來訪問了,但沒有收錄的原因,這僅僅是第一階段。 網頁收錄第二階段:網頁評級 而第二階段則是對網頁的重要性進行評級,PageRank是一種著名的鏈接分析算法,可以用來衡量網頁的重要性,很自然的,站長可以用 PageRank的思路來對URL進行排序,這就是各位熱衷的「發(fā)外鏈」,據(jù)一位朋友了解,在中國「發(fā)外鏈」這個市場每年有上億元的規(guī)模 爬蟲的目的就是去下載網頁,但PageRank是個全局性算法,也就是當所有網頁有下載完成后,其計算結果才是可靠的。對于中小網站來講,服務器如果質量不好,如果在抓取過程中,只看到部分內容,在抓取階段是無法獲得可靠的PageRank得分。 網頁收錄第三階段:OCIP策略 OCIP策略更像是PageRank算法的改進。在算法開始之前,每個網頁都給予相同的「現(xiàn)金」,每當下載某個頁面A后,A將自己的「現(xiàn)金」平均分給頁面中包含的鏈接頁面,把自己的「現(xiàn)金」清空。這就是為什么導出的鏈接越少,權重會越高的原因之一。 而對于待抓取的網頁,會根據(jù)手頭擁有的現(xiàn)金多少排序,優(yōu)先下載現(xiàn)金最充裕的網頁,OCIP大致與PageRank思路一致,區(qū)別在于:PageRank每次要迭代計算,而OCIP則不需要,所以計算速度遠遠快于PageRank,適合實時計算使用。這可能就是為什么很多網頁會出現(xiàn)「秒收」的情況了。 網頁收錄第四階段:大站優(yōu)先策略 大站優(yōu)先的思路很直接,以網站為單位來衡量網頁的重要性,對于待抓取的URL隊列中的網頁,根據(jù)所述網站歸類,如果哪個網站等待下載的頁面最多,則 優(yōu)先下載這些鏈接。其本質思想是「傾向于優(yōu)先下載大型網站URL」。因為大型網站往往包含更多的頁面。鑒于大型網站往往是名站,其網頁質量一般較高,所以這個思路雖然簡單,但有一定依據(jù)。 實驗表明這個算法雖然簡單粗暴,但卻能收錄高質量網頁,很有效果。這也是為什么許多網站的內容被轉載后,大站卻能排到你前面的最重要原因之一。 網站優(yōu)化是一件需要有耐力的事情,我相信只要你有耐心堅持下去,一定會有一個不錯的收獲。同時,億恩科技建議大家要選擇一個好的服務器托管商,避免因為服務器的問題而造成您網站排名的降低。 本文出自:億恩科技【prubsntakaful.com】 |