Google的爬蟲
發布時間:2008-8-17 14:32:23 PDF瀏覽robots.txt 文件分析結果的含義是什麽?
Google爬蟲:針對 robots.txt 文件測試某個網址時,將顯示以下的幾種結果之壹:
- 允許— Googlebot 將會抓取該網址。
- 被攔截— Googlebot 將不會抓取該網址。
- 不在域中— 此網址與 robots.txt 文件不在同壹個域中,因此,您無法攔截它。
- 語法有誤— Googlebot 未將此網址識別為有效。
另外,您還可能看到以下信息:
- 檢測為目錄;具體文件可能有不同限制— 盡管此目錄可以被攔截或允許,但文件中可能還有其他更具體的規則,會攔截或允許目錄中的網址。因此,您最好再確認壹下這些內容。
如果 Googlebot 難以理解您 robots.txt 文件的某些部分,則可能會顯示以下解析結果之壹,您最好針對相關內容進行改正:
- 可以接受,但應為 Disallow— "Disallow"壹詞拼寫不正確。
- 可以接受,但應為 user-agent— "user-agent"壹詞拼寫不正確。
- 可以接受,不過正確的書寫格式應包含冒號(規則: 路徑)— "Allow"或"Disallow"和路徑之間未添加冒號。
- Googlebot 忽略的規則— - Googlebot 無法遵循此規則(例如,"Crawl-delay")。
- 未指定 user-agent— 某些規則未與 user-agent 關聯。
- 語法有誤— Googlebot 無法識別此行。
- robots.txt 文件可能無效— Googlebot 無法識別此文件的任何部分,因此,未將其識別為有效的 robots.txt 文件。
大家都知道現在的搜索引擎都是通過爬蟲來收錄網頁內容的,當然,妳也可以主動提交自己的網站,但接下來,還是會有各種各樣的爬蟲來光臨妳的網站。這無疑是壹件好事,因為爬蟲只想幫妳的網站提高流量。Google的爬蟲叫做googlebot,相信如果妳的網站統計能統計爬蟲的流量,壹定會見過不少 googlebot。當然,妳的站得被google關註才行。Google的目標是要將全世界的信息都收錄起來,可見作為Google的先鋒部隊,Googlebot壹定會不斷地加強,或者有壹天,它們真的會像Philipp寫的科幻短文那樣,會上門偷聽妳所說的話,或者把妳家的垃圾桶全搬走調查呢。不過不用怕,就算真有那麽壹天,也要快則等個十年八年,慢則幾十年後。
但是,如果有壹天,妳發現自己的網站裏的所有內容都被googlebot刪除掉了,妳會有怎樣的反應?我並不是說從Google索引裏刪掉,而真的從妳的服務器裏!下面就是這樣壹個離奇的例子。
在Digg上面找到的這個故事裏,Googlebot被懷疑是刪除掉整個網站的元兇!Josh Breackman在壹間負責壹個大型政府網站的CMS系統開發工作的公間工作。這個CMS開發項目主要是為了讓政府員工能創建或維護他們自己的網站上的不斷變化的內容。但由於之前他們已經有壹個網站,並且網站上面有豐富的內容,所以客戶要求在新的網站正式上線之前,將舊網站的內容重組並上傳到新網站裏。這是壹個需時較長的過程,在幾個月後,他們終於把所有的舊網站上的內容都轉移到新的CMS系統裏,並且把新網站正式放上線,公開瀏覽。
但就在網站正式上線的第六天,他們突然發現新網站上的所有內容都自己消失了!並且所有網頁都指向了默認的“請輸入內容”編輯頁!
很自然地,Josh被要求對這個事件進行徹查。在調查中,他發現了壹個外部的IP曾經進入系統,並且刪除了所有系統裏的內容!這個IP並不是屬於某些海外的黑客,或者目的是想破壞政府網站的信息,而是屬於googlebot.com的!也就是說,這個是壹個googlebot爬蟲!
那麽Googlebot為什麽會這麽做呢?它怎麽會偷偷地將壹個網站的內容全部刪掉了呢?難道Google與這個政府網站有過節?都不是。經過多番調查,Josh找到了原因。原來在轉移內容的過程中,有壹個用戶將內容從壹個網頁復制然後粘貼到另壹個網頁上,其中包括了“編輯”鏈接,而這個鏈接是可以編輯內容的。在正常情況下,這個鏈接是沒有問題的,因為外部的用戶即使點了這個鏈接,他還需要輸入有效的用戶名和密碼才能通過身份驗證,因此他不可能進行編輯。但是,這個CMS卻有壹個致命的漏洞,那就是它的認證系統並沒有包括像Googlebot這類爬蟲在內!也就是說,Googlebot可以輕松通過它的認證系統!
因為Googlebot沒有使用cookies,所以它可以輕松地繞過cookies驗證。它也不理會JS代碼,所以也不會像普通用戶那樣點擊了“ 編輯”鏈接後被自動轉向到正常的未登錄提示頁上。因此,它大搖大擺地順著網頁上的鏈接把整個網站逛遍了,其中當然包括了標題為“刪除網頁”的網頁!
整個事件的起因是這個CMS系統存在致命的漏洞,並且更倒黴的是,它剛好碰上了Google的爬蟲。
標簽:Googlebot CMS 爬蟲 相關文章:Copyright © 2008 北京亦樂互動科技有限公司
本網站出處信息及版權均屬於北京亦樂互動科技有限公司所有,未經協議授權,禁止下載使用。
客戶聯系熱線:010-58777904/7966-601
![]()
