SEO基礎(chǔ)篇:robots寫法 |
發(fā)布時間: 2012/9/14 12:34:38 |
那個解釋robots寫法的東西是什么?求解答 謝謝。相信很多新手剛接觸SEO時都會產(chǎn)生這樣的一些疑問如:什么是robots.txt文件?robots文件應(yīng)該什么寫?robots.txt文件在SEO優(yōu)化中有什么作用呢?.....
今天上海瀟然孤雁飛就和大家一些來溫習一下SEO基礎(chǔ)知識:robots.txt文件的寫法。 1. robots.txt的定義 robots.txt只是一個協(xié)議,而不是一個命令。robots.txt是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。 當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護的頁面。 百度官方建議,僅當您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請勿建立robots.txt文件。 2. robots.txt存放的位置 robots.txt必須放置在你網(wǎng)站空間的根目錄下,而且文件名必須全部小寫。 例如 路徑如下: http://www.xlfseo.com/robots.txt 3. robots.txt文件在SEO中作用 搜索引擎通過一種爬蟲spider程序(又稱搜索蜘蛛、robot、搜索機器人等),自動搜集互聯(lián)網(wǎng)上的網(wǎng)頁并獲取相關(guān)信息。 鑒于網(wǎng)絡(luò)安全與隱私的考慮,搜索引擎遵循robots.txt協(xié)議。通過根目錄中創(chuàng)建的純文本文件robots.txt,網(wǎng)站可以聲明不想被robots訪問的部分。每個網(wǎng)站都可以自主控制網(wǎng)站是否愿意被搜索引擎收錄,或者指定搜索引擎只收錄指定的內(nèi)容。當一個搜索引擎的爬蟲訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果該文件不存在,那么爬蟲就沿著鏈接抓取,如果存在,爬蟲就會按照該文件中的內(nèi)容來確定訪問的范圍。 我們在進行網(wǎng)站優(yōu)化的時候,如新站剛上線網(wǎng)站內(nèi)容暫末完善或者一些錯誤的文章,或機密的文件如會員信息,產(chǎn)品報價等,不想讓搜索引擎抓取,這就需要設(shè)置robots文件把一些內(nèi)容屏敝告訴搜索引擎不要抓取那些隱私。 4. robots.txt文件的寫法 語法:最簡單的 robots.txt 文件使用兩條規(guī)則: User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符 5. robots.txt書寫典型案例 1). 淘寶網(wǎng)屏蔽百度 2008年9月8日淘寶網(wǎng)正式向百度宣戰(zhàn):淘寶網(wǎng)將屏蔽百度的搜索引擎抓取,這是國內(nèi)首家大型商業(yè)網(wǎng)站公開宣稱屏蔽搜索引擎的信息抓取。淘寶網(wǎng)新聞發(fā)言人盧先生對《第一財經(jīng)日報》表示,淘寶是完全屏蔽百度,但只屏蔽谷歌很小一部分。“淘寶一直以來,都會對搜索引擎實施不同程度的屏蔽,以保護用戶信息、商品信息等商業(yè)數(shù)據(jù),對百度如此,對谷歌也一樣。”
淘寶網(wǎng)的 robots.txt文件書寫格式:
2. seowhy搜外 robots.txt文件書寫格式:
5. robots.txt書寫注意事項 1) robots文件中的內(nèi)容的大小寫不可更改,Disallow后面的冒號必須為英文狀態(tài)的。 2).你希望網(wǎng)站上所有的文件都需要被蜘蛛抓取,如果沒有添加robots.txt文件了, 搜索蜘蛛將默認能夠訪問網(wǎng)站上所有沒有被口令保護的頁面。 3).網(wǎng)站中的腳本程序、樣式表等文件即使被蜘蛛收錄,也不會增加網(wǎng)站的收錄率,還只會占用服務(wù)器存儲空間。因此必須在robots.txt文件里設(shè)置不要讓搜索蜘蛛索引腳本程序、樣式表等文件,具體哪些文件需要排除。 4).合理使用robots.txt文件還能避免訪問時出錯。比如,不能讓搜索者直接進入購物車頁面。因為沒有理由使購物車被收錄,所以你可以在robots.txt文件里設(shè)置來阻止搜索者直接進入購物車頁面。 5).如果你的網(wǎng)站是動態(tài)網(wǎng)頁,并且你為這些動態(tài)網(wǎng)頁創(chuàng)建了靜態(tài)副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里設(shè)置避免動態(tài)網(wǎng)頁被蜘蛛索引,以保證這些網(wǎng)頁不會被視為含重復內(nèi)容。 6).每當用戶試圖訪問某個不存在的URL時,服務(wù)器都會在日志中記錄404錯誤(無法找到文件)。每當搜索蜘蛛來尋找并不存在的robots.txt文件時,服務(wù)器也將在日志中記錄一條404錯誤,所以你應(yīng)該在網(wǎng)站中添加一個robots.txt。 6.robots.txt生成工具 一些新手SEO如果對于以上的內(nèi)容還有一些疑問,瀟然孤雁飛在為大家分享一款傻瓜化的生成Robots.txt工具,在線直接生成。
本文出自:億恩科技【prubsntakaful.com】 服務(wù)器租用/服務(wù)器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |