Robots.txt是存放在網(wǎng)站根目錄下的一個文件,通常情況下,搜索引擎會對所有的網(wǎng)站頁面進行抓取分析,如果一個網(wǎng)站管理員不想讓搜索引擎抓取一些頁面,比如網(wǎng)站管理后臺,網(wǎng)站次要目錄或者涉及到不愿被搜索引擎抓取公開的內(nèi)容等,則通過創(chuàng)建該文件來引導(dǎo)各大搜索引擎抓取。當搜索引擎抓取一個站點時,會首先檢查其根目錄下是否有robots.txt存在。如果存在,則會按照文件中所規(guī)定的抓取范圍,若不存在,則會按照正常的方法進行抓取。 首先是了解各大搜索引擎spider名稱。 Baiduspider[baidu] Scooter[altavista] ia_archiver[alexa] Googlebot[google] FAST-WebCrawler[alltheweb] MSNBOT[MSN] SEO中國的robots.txt的寫法: User-agent: * User-agent是指定搜索引擎robot的名字,即若針對baidu則會對應(yīng)的值是Baiduspider,google對應(yīng)的是Googlebot等。如果針對所有搜索引擎均有效,則保留為*值。 Disallow是規(guī)定讓搜索引擎忽略抓取的目錄。例如,http://www./dir為SEO中國的分類目錄地址,而其管理地址是對搜索引擎抓取沒有任何意義的目錄,則該例中,/dir/admin/為所有搜索引擎所禁止抓取。 Disallow書寫方法:默認從根目錄出發(fā),指定忽略的目錄,末尾加上/ 以上是針對網(wǎng)站目錄抓取情況進行處理,如何進行單個文件處理呢?采用Robots Meta方法。 和其他的meta,如description.keywords等相同,書寫到<head></head>之間 <head> 則規(guī)定了該頁的抓取方法:正常抓取,順序抓取。 與之對應(yīng)的是:"noindex,nofollow"。Robots則可以指定為各大單個搜索引擎spider名稱。另外,Googlebot還制定了archive用于規(guī)定網(wǎng)頁快照的保留與否。
article from: http://www./post/robots-txt.html
|
|