互聯(lián)網(wǎng)新聞開放協(xié)議是百度新聞搜索制定的搜索引擎新聞源收錄標準,網(wǎng)站可將發(fā)布的新聞內(nèi)容制作成遵循此開放協(xié)議的XML格式的網(wǎng)頁(獨立于原有的新聞發(fā)布形式)供搜索引擎索引,將網(wǎng)站發(fā)布的新聞信息主動、及時地告知百度搜索引擎。
采用了互聯(lián)網(wǎng)新聞開放協(xié)議,就相當于網(wǎng)站的新聞被搜索引擎訂閱,通過百度——全球最大中文搜索引擎這個平臺,網(wǎng)民將有可能在更大范圍內(nèi)更高頻率地訪問網(wǎng)站的新聞,進而給網(wǎng)站帶來潛在的流量。
右圖為遵照互聯(lián)網(wǎng)新聞開放協(xié)議制作的XML格式的網(wǎng)頁,網(wǎng)頁上按照標準格式列出了網(wǎng)站發(fā)布的新聞的相關(guān)信息。
XML網(wǎng)頁示例:
XML標簽說明: 其中帶星號標記的為必選項,未帶星號標記為可選項。
*<document>——標記整個XML文件內(nèi)容的開始和結(jié)束。
*<webSite>——站點地址。
*<webMaster>——負責人員的Email。當有必要時,我們通過這個地址與您聯(lián)系。
*<updatePeri>——更新周期,單位為分鐘。搜索引擎將遵照此周期訪問該頁面,使頁面上的新聞更及時地出現(xiàn)在百度新聞中。
*<item>——標記每篇新聞信息的開始和結(jié)束。標記內(nèi)為單篇新聞信息,不包括新聞專題。
*<title>——新聞標題。
*<link>——新聞url地址,與單篇新聞一一對應;若分頁的新聞存在多個url,相當于多篇新聞。
<description>——新聞內(nèi)容簡介。
*<text>——完整的新聞正文(僅包含正文文字,不包含html標記、圖片鏈接等其它字符 )。此項的目的是使該篇新聞更多、更準地出現(xiàn)在搜索結(jié)果中。
*<image>——新聞正文內(nèi)相關(guān)圖片;采用絕對地址;若該篇新聞無相關(guān)圖片,可以為空;若含有多張圖片,重復使用該標簽。此項的目的是使該篇新聞的相關(guān)圖片展現(xiàn)在搜索結(jié)果中。
<headlineImg>——為有可能成為頭條的新聞制作的頭條圖,采用絕對地址。
<keywords>——反映新聞主題內(nèi)容的一個或多個關(guān)鍵詞,關(guān)鍵詞之間以空格隔開。此項僅作為參考,檢索結(jié)果不會完全依賴于此標簽中的內(nèi)容。
<category>——新聞分類, 可以遵循網(wǎng)站自身的分類體系,最好采用一級分類。
<author>——新聞作者,可以為機構(gòu)或個人 。
<source>——新聞來源,即原創(chuàng)媒體或其它機構(gòu) 。
*<pubDate>——新聞發(fā)布時間,請精確到分鐘;若您網(wǎng)站的發(fā)布時間未記錄小時分鐘,提供年月日即可。
推薦的時間格式:年月日小時分鐘秒
如:2005-11-09 10:37牋|牋2005/11/09 10:37:00牋|牋2005.11.09 10:37:00牋|
2005年11月09日10時37分00秒牋|牋Fri, 09 Nov 2005 10:37:00 GMT
開放協(xié)議使用
開始之前,您需要了解以下幾點:
無論您的網(wǎng)站已經(jīng)成為百度新聞源,還是尚未被百度新聞搜索收錄,您都可以使用此開放協(xié)議。
您使用開放協(xié)議提供的內(nèi)容應全部為符合下面《新聞源收錄標準》的新聞信息。
互聯(lián)網(wǎng)新聞開放協(xié)議只是原始新聞源收錄方式的一種協(xié)助和有益補充,而不是完全取代。
新聞源收錄標準:
百度希望新聞源多樣化,鼓勵原創(chuàng)新聞內(nèi)容,如果是具有大量有價值的新聞內(nèi)容并能及時更新的正規(guī)、合法媒體網(wǎng)站,且網(wǎng)站服務器穩(wěn)定、高速,就符合了百度收錄新聞源的基本原則。
百度新聞搜索收錄的內(nèi)容包括時政、娛樂、體育、財經(jīng)、科教文化、社會生活等各類新聞報道及媒體評論,數(shù)碼產(chǎn)品、房產(chǎn)、汽車等行情資訊及評測,各行業(yè)的動態(tài)及行情,組織機構(gòu)的工作動態(tài)等;是由專業(yè)人士撰寫或編輯的中文信息;不包括發(fā)布的個人信息、論壇、博客、廣告、幽默笑話、情感故事、情色、寫真、食譜、下載、多媒體等其它類型、其它語言互聯(lián)網(wǎng)信息。
您應對您提供的全部內(nèi)容承擔一切法律責任,保證您提供內(nèi)容的真實性、合法性,并不得侵犯任何第三方的權(quán)益。
下面就開始吧!
第一步:創(chuàng)建XML文件
請按遵照上面公布的開放協(xié)議內(nèi)容制作XML文件。
其它說明:
支持的編碼格式有GB2312、UTF-8、BIG5。
您可以將你網(wǎng)站某一時間段發(fā)布的全部新聞放在一個XML文件中,也可以分頻道或欄目放在多個XML文件中。
請保持每個XML文件處于按更新周期持續(xù)自動更新狀態(tài)。
每個XML文件至多存放最新發(fā)布的100條新聞,無需保存之前的新聞。
請將發(fā)布的新聞按照時間排序,即最新發(fā)布的新聞在最上端,否則可能有新聞被遺漏。
XML標簽內(nèi)容中的一些特殊字符必須轉(zhuǎn)換為XML定義的轉(zhuǎn)義字符,否則將發(fā)生錯誤導致搜索引擎不能獲取頁面上的新聞,具體參見下表。 字符轉(zhuǎn)義后的字符
HTML字符 字符編碼
和(and) & & &
單引號 ‘ ' ‘
雙引號 " " "
大于號 > > >
小于號 < < <
轉(zhuǎn)義字符中的"&"無需再轉(zhuǎn)。
第二步:驗證XML文件
下面的位置提供了幫助您驗證XML文件結(jié)構(gòu)的多種工具:(參見資料)
通過驗證的XML文件能夠使您提供的信息更加標準化,確保您發(fā)布的新聞信息不被搜索引擎遺漏。
第三步:提交XML網(wǎng)址
提交前請將XML文件上傳到您的網(wǎng)站服務器,將XML文件的URL地址及其它信息輸入下面對應的方框內(nèi)。搜索引擎將定向訪問該URL地址,當URL地址發(fā)生變化時需要重新提交。
百度新聞搜索將對你提交的數(shù)據(jù)進行測試和觀察一周,若您按照互聯(lián)網(wǎng)新聞開放協(xié)議的標準進行制作但存在問題,我們會根據(jù)XML頁面上提供的郵件地址與您聯(lián)系。
注意: 百度新聞搜索不保證一定能收錄您提交的全部內(nèi)容。
*站點名、地址為必填項。