乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      【SEO必學(xué)】robots.txt作用和寫法

       自由撰寫者 2013-09-07

      一、robots.txt是什么?

        robots.txt是一個(gè)純文本文件,在這個(gè)文件中網(wǎng)站管理者可以聲明該網(wǎng)站中不想被搜索引擎訪問的部分,或者指定搜索引擎只收錄指定的內(nèi)容。

        當(dāng)一個(gè)搜索引擎(又稱搜索機(jī)器人或蜘蛛程序)訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,那么搜索機(jī)器人就沿著鏈接抓取。

      二、robots.txt的作用

        1、引導(dǎo)搜索引擎蜘蛛抓取指定欄目或內(nèi)容;

        2、網(wǎng)站改版或者URL重寫優(yōu)化時(shí)候屏蔽對(duì)搜索引擎不友好的鏈接;

        3、屏蔽死鏈接、404錯(cuò)誤頁面;

        4、屏蔽無內(nèi)容、無價(jià)值頁面;

        5、屏蔽重復(fù)頁面,如評(píng)論頁、搜索結(jié)果頁;

        6、屏蔽任何不想被收錄的頁面;

        7、引導(dǎo)蜘蛛抓取網(wǎng)站地圖;

      三、Robots的語法(三個(gè)語法和兩個(gè)通配符)

        三個(gè)語法如下:

        1、User-agent:(定義搜索引擎)

        示例:

         User-agent: *(定義所有搜索引擎)
         User-agent: Googlebot (定義谷歌,只允許谷歌蜘蛛爬?。?br>   User-agent: Baiduspider  (定義百度,只允許百度蜘蛛爬?。?/p>

         不同的搜索引擎的搜索機(jī)器人有不同的名稱,谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp。

        2、Disallow:(用來定義禁止蜘蛛爬取的頁面或目錄)

        示例:

          Disallow: /(禁止蜘蛛爬取網(wǎng)站的所有目錄 "/" 表示根目錄下)
          Disallow: /admin (禁止蜘蛛爬取admin目錄)
          Disallow: /abc.html (禁止蜘蛛爬去abc.html頁面)
          Disallow: /help.html (禁止蜘蛛爬去help.html頁面)

        3、Allow:(用來定義允許蜘蛛爬取的頁面或子目錄)

        示例:

          Allow: /admin/test/(允許蜘蛛爬取admin下的test目錄)
          Allow: /admin/abc.html(允許蜘蛛爬去admin目錄中的abc.html頁面)

        兩個(gè)通配符如下:

        4、匹配符 “$”

          $ 通配符:匹配URL結(jié)尾的字符

        5、通配符 “*”

          * 通配符:匹配0個(gè)或多個(gè)任意字符

      四、robots.txt 綜合示例

        1、禁止搜索引擎抓取特定目錄

        在這個(gè)例子中,該網(wǎng)站有三個(gè)目錄對(duì)搜索引擎的訪問做了限制,即搜索引擎不會(huì)訪問這三個(gè)目錄。

        User-agent: *
        Disallow: /admin/
        Disallow: /tmp/
        Disallow: /abc/

        2、禁止admin目錄,但允許抓取admin目錄下的seo子目錄

        User-agent: *
        Allow: /admin/seo/
        Disallow: /admin/

        3、禁止抓取/abc/目錄下的所有以".htm”為后綴的URL(包含子目錄)

        User-agent: *
        Disallow: /abc/*.htm$

        4、禁止抓取網(wǎng)站中所有的動(dòng)態(tài)頁面

        User-agent: *
        Disallow: /*?*

        屏蔽所有帶“?”的文件,這樣就屏蔽所有的動(dòng)態(tài)路徑。

        5、禁止百度蜘蛛抓取網(wǎng)站所有的圖片:

        User-agent: Baiduspider
        Disallow: /*.jpg$
        Disallow: /*.jpeg$
        Disallow: /*.gif$
        Disallow: /*.png$
        Disallow: /*.bmp$

        6、要在阻止網(wǎng)站頁面被抓取的同時(shí)仍然在這些頁面上顯示 AdSense 廣告

        User-agent: *
        Disallow: /folder1/

        User-agent: Mediapartners-Google
        Allow: /folder1/

        請(qǐng)禁止除 Mediapartners-Google 以外的所有漫游器。 這樣可使頁面不出現(xiàn)在搜索結(jié)果中,同時(shí)又能讓 Mediapartners-Google 漫游器分析頁面,從而確定要展示的廣告。 Mediapartners-Google 漫游器并不與其他 Google User-agent 共享網(wǎng)頁。

      五、注意事項(xiàng)

        1、robots.txt 文件必須放在網(wǎng)站的根目錄,不可以放在子目錄。

           以WEB開發(fā)者網(wǎng)站為例:比如通過 http://www./robots.txt 你就可以訪問 的robots.txt文件了。

        2、robots.txt 文件名命名必須小寫,記得在robot面加“s”。

        3、User-agent、Allow、Disallow的 “:” 后面有一個(gè)字符的空格。

        4、路徑后面加斜杠“/” 和不加斜杠的是有區(qū)別的

          Disallow: /help  
                 禁止蜘蛛訪問 /help.html、/helpabc.html、/help/index.html

          Disallow: /help/ 
          禁止蜘蛛訪問 /help/index.html。 但允許訪問 /help.html、/helpabc.html

        5、Disallow與Allow行的順序是有意義的:

          舉例說明:

          允許蜘蛛訪問 /admin/ 目錄下的seo文件夾

          User-agent: *
          Allow: /admin/seo/
          Disallow: /admin/

          如果Allow 和 Disallow 的順序調(diào)換一下:

          User-agent: *
          Disallow: /admin/
          Allow: /admin/seo/

          蜘蛛就無法訪問到 /admin/ 目錄下的 seo 文件夾,因?yàn)榈谝粋€(gè) Disallow: /admin/ 已匹配成功。

      六、關(guān)于Robots Meta

        Robots.txt文件主要是限制整個(gè)站點(diǎn)或者目錄的搜索引擎訪問情況,而Robots Meta標(biāo)簽則主要是針對(duì)一個(gè)個(gè)具體的頁面。和其他的META標(biāo)簽(如使用的語言、頁面的描述、關(guān)鍵詞等)一樣,Robots Meta標(biāo)簽也是放在頁面中,專門用來告訴搜索引擎ROBOTS如何抓取該頁的內(nèi)容。

        Robots Meta 標(biāo)簽中沒有大小寫之分,name="Robots" 表示所有的搜索引擎,可以針對(duì)某個(gè)具體搜索引擎(如google)寫為 name="Googlebot", content部分有四個(gè)指令選項(xiàng):index、noindex、follow、nofollow,指令間以 “,” 分隔。

        Index 指令告訴搜索機(jī)器人抓取該頁面;

        NoIndex命令:告訴搜索引擎不允許抓取這個(gè)頁面

        Follow 指令表示搜索機(jī)器人可以沿著該頁面上的鏈接繼續(xù)抓取下去;

        NoFollow命令:告訴搜索引擎不允許從此頁找到鏈接、拒絕其繼續(xù)訪問。

        Robots Meta 標(biāo)簽的缺省值是Index和Follow;

        根據(jù)以上的命令,我們就有了一下的四種組合:

        <meta name="robots" content="index,follow"/> 
        可以抓取本頁,而且可以順著本頁繼續(xù)索引別的鏈接

        <meta name="robots" content="noindex,follow"/> 
        不許抓取本頁,但是可以順著本頁抓取索引別的鏈接

        <neta name="robots" content="index,nofollow"/> 
        可以抓取本頁,但是不許順著本頁抓取索引別的鏈接

        <meta name="robots" content="noindex,nofollow"/> 
        不許抓取本頁,也不許順著本頁抓取索引別的鏈接。

        如果是 <meta name="robots" content="noindex,nofollow"/> 形式的話,可以寫成:
        <meta name="robots" content="none"/>

        如果是 <meta name="robots" content="index,follow"/> 形式的話,可以寫成:
        <meta name="robots" content="all"/>

      七、關(guān)于 rel="nofollow"

        將"nofollow"放在超鏈接中,告訴搜索引擎不要抓取特定的鏈接。

        如某博客上有垃圾評(píng)論:

        <a href="URL">灌水</a>

        以下操作,即進(jìn)行了 nofollow:

        <a href="URL" rel="nofollow" >灌水</a>

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多