“這基本上是一次DDoS攻擊。”
幾天前,烏克蘭一家專注于人體3D模型的網站Trilegangers突然崩了,這讓整個團隊以及老板都有些措手不及。起初,該公司CEO Oleksandr Tomchuk只是收到一則警報,進而發現公司的電子商務網站已完全癱瘓了。
一經排查,殊不知,該團隊發現,罪魁禍首竟然是——OpenAI此前研發的一款機器人GPTbot。
7人花了十余年時間構建的網站,差一點毀于一旦
據悉,Trilegangers是一個銷售3D掃描數據的網站,這家擁有七名員工的公司花了十多年時間,建立了所謂的網絡上最大的“人體數字替身”數據庫,即從真實人體模型掃描而來的3D圖像文件。
Triplegangers提供從手、頭發、皮膚到完整身體模型的3D對象文件和照片,一應俱全。其處理的數據涵蓋多個類別,如“臉部”、“全身”、“帶姿勢的全身”、“全身情侶”、“手部”、“手部雕像”等,網站展示的內容正是其業務核心所在。
具體來看,以“臉部”數據為例,這一類別中有1509人的數據,每個人注冊了大約20種不同的面部表情。在其他類別中,每個產品至少有三張圖像,因此總數據據說有數十萬個點。
這一點也得到CEO Oleksandr Tomchuk的證實,其表示,“我們有超過65000種產品,每種產品都有一頁內容介紹,每頁至少有三張照片?!?/p>
Trilegangers所做的業務就是面向3D藝術家、視頻游戲開發者,以及任何需要數字化再現真實人類特征的人群銷售這些數據。
然而,Oleksandr Tomchuk稱,不久前OpenAI GPTBot發送了“數萬”個服務器請求,試圖下載全部內容,數十萬張照片及其詳細描述。
這有一種,但凡Trilegangers有的,OpenAI都要的感覺,可是這些內容實則為付費產品?!癘penAI使用600個IP來抓取數據,我們仍在分析上周的日志,也許更多,”該團隊在談到機器人試圖訪問其網站的IP地址時說道。
“他們的爬蟲程序正在摧毀我們的網站!”Oleksandr Tomchuk說,“這基本上是一次DDoS攻擊?!?/p>
那么GPTbot究竟是什么?
不難回憶起來,GPTbot是OpenAI在2023年8月推出的一款網絡爬蟲機器人,用于抓取互聯網數據,為訓練和改進大模型(如ChatGPT)提供素材。
它會自動訪問公開可用的網站,收集文本數據來增強模型能力。
OpenAI此前表示,GPTBot會嚴格遵守任何付費墻的規則,不會抓取需要付費的信息,并且也不會收集能追蹤到個人身份的數據。即遵循網站的robots.txt文件中明確標示的規則。如果網站配置了禁止GPTBot抓取的標簽,它理論上會停止訪問該網站。
而robots.txt是一個用于網站管理的文本文件,它告訴搜索引擎爬蟲(如Googlebot、Bingbot或GPTBot)哪些網頁可以或不可以被抓取。這是一種被廣泛接受的網絡標準,稱為機器人排除協議(Robots Exclusion Protocol,REP)。
簡單來看,如果你不想讓GPTBot訪問你網站的任何內容,可以將以下代碼添加到目錄中robots.txt里面:
User-agent:GPTBot
Disallow:/
如果你想要允許訪問網站上的某些內容(例如特定目錄或文件),可以用以下代碼對robots.txt進行以下更改:
User-agent:GPTBot
Allow:/directory-1/
Disallow:/directory-2/
除此之外,OpenAI還公布了OpenAI使用的爬蟲IP地址,也可以根據IP地址來拒絕訪問。
OpenAI公開了以上這些方式,并聲稱會遵守規則,顯得誠意滿滿。
然而,令人無奈的是,一切的前提是得正確配置好“robots.txt”文件,才可以盡可能地避免被爬蟲。
這一次Trilegangers就落到了“robots.txt”的坑中。雖然其在官網“使用條款”的第5條行為準則中清清楚楚地寫著:
未經TG明確事先書面同意,不得使用任何機器人、爬蟲、網站搜索/檢索應用程序或其他手動或自動設備來檢索、索引、抓取、挖掘數據或以其他方式收集網站內容,也不得復制或繞過網站的導航結構或展示方式。盡管有上述限制,在遵守我們網站根目錄中robots.txt文件中發布的任何指示的前提下,TG授予公共搜索引擎的運營者權限,允許其使用爬蟲從我們的網站復制材料,但僅限于為創建這些材料的公開可用、可搜索索引的唯一目的(且僅限必要范圍內),不得緩存或存檔這些材料。TG保留隨時和不經通知撤銷此權限的權利,無論是一般性撤銷還是針對特定情況。
未經TG許可,禁止執行以下行為:
1.將本網站上展示的任何內容或圖像用于人工智能或機器學習(“AI/ML”)研究或研究;
2.提取、復制、分發或向任何第三方提供本網站展示的任何內容或圖像,用于AI/ML算法的訓練、測試或開發;
3.參與任何涉及利用本網站內容或圖像的AI/ML相關活動,包括但不限于數據集編制、模式識別、神經網絡訓練或任何形式的計算分析。
任何試圖在未經TG有效許可的情況下將本網站內容或圖像用于AI/ML目的的行為,均被視為違反本網站條款及我們的供應條款與條件,可能導致法律訴訟,并尋求適用法律下的一切補救措施。
但如今看來,僅憑這一點的聲明毫無作用,GPTBot還是爬取到了其網站的內容,還讓網站整個宕機了。
對此,據Techcrunch報道,此次Trilegangers并沒有正確使用robot.txt,其中的標簽沒有明確告訴OpenAI的機器人GPTBot不要爬取該網站內容。這就意味著OpenAI和其他公司就會認為他們可以隨心所欲地抓取數據。
更令人氣憤的是,即使Trilegangers告訴了GPTBot不要抓取自家網站的內容,誰能料到,OpenAI還有ChatGPT-User和OAI-SearchBot機器人用來做爬蟲工具。
還值得注意的是,即使更新了網站的robots.txt,也不要掉以輕心,因為OpenAI的系統可能需要大約24小時才能才能識別更新的robot.txt文件。
https://platform.openai.com/docs/bots
正所謂爬蟲的工具千千萬,企業有時根本防不勝防。
“如果爬取的數據少一點,或許都發現不了”
就像這一次,如果不是OpenAI的GPTBot爬取的數據過于龐大,也許Trilegangers可能還發現不了。Tomchuk在接受外媒Techcrunch采訪時表示,「如果爬蟲更加“溫和”地抓取,他可能永遠都不會發現?!?/p>
“這令人害怕,因為這些公司似乎鉆了一個漏洞,聲稱‘你可以通過更新帶有我們標簽的robots.txt文件選擇退出抓取’,”Tomchuk說,但這實際上把責任推給了網站所有者,讓他們必須了解如何屏蔽這些爬蟲。
更可怕的是,Tomchuk稱他們連GPTBot究竟是從何時開始抓取的都不知道,更不要說OpenAI具體抓取了哪些內容。
這也讓Tomchuk有些擔心,“我們的業務對權利要求非常嚴格,因為我們掃描的是實際的人體,按照歐洲的GDPR等法律,他們不能隨便拿網絡上的任何照片使用?!?/p>
事件發生后,Triplegangers的網站不僅因OpenAI的爬蟲被迫下線,CEO Tomchuk還預計將收到一份因爬蟲導致的高CPU消耗和大量下載活動而產生的高額AWS賬單。
同時,Tomchuk稱他也沒找到可以聯系OpenAI的方法,也無法讓他們刪除這些素材。為此,Tomchuk無奈之下選擇用Trilegangers官方Twitter賬號發了一條致OpenAl、Microsoft、Meta、Google和其他使用爬蟲程序的公司的官方聲明:
除用于搜索目的的頁面索引外,嚴禁在我們的網站上使用爬蟲程序。未經有效許可,產禁將我們網站上的任何公開內容用于AI或ML應用程序。
截至目前,Triplegangers配置好了正確的robots.txt文件,并創建了一個Cloudflare賬戶,用于阻止GPTBot以及他發現的其他爬蟲,例如Barkrowler(一個SEO爬蟲)和Bytespider(TikTok的爬蟲)。
引發爭議的數據爬取
Triplegangers的經歷引發了廣泛關注,其公開此事后,不少其他網站運營者紛紛表示也曾遭遇類似情況。
markerz:
我的其中一個網站曾被Meta的AI爬蟲Meta-ExternalAgent完全摧毀。這個爬蟲似乎有些“天真”,沒有像Google Bot那樣進行性能回退(performance back-off)。它不斷地重復請求內容,直到我的服務器崩潰,然后短暫停止一分鐘,再次發起更多請求。
我的解決方法是添加了一條Cloudflare規則,直接屏蔽該User-Agent的請求。我還為鏈接增加了更多nofollow規則,并更新了robots.txt文件,但這些規則僅僅是建議,某些爬蟲似乎會忽略它們。Cloudflare還有一個功能可以屏蔽已知的AI爬蟲,甚至懷疑是AI爬蟲的請求:https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click/。盡管我不喜歡Cloudflare的集中化,但這個功能確實非常方便。
griomnib:
我從事網站開發已經數十年,同時也從事過爬取、索引和分析數百萬個網站的工作。只需遵循一個黃金法則:永遠不要以比你希望別人對待你的網站更激進的方式加載其他網站。
這并不難做到,但這些AI公司使用的爬蟲既低效又令人厭惡。
作為一個網站所有者,這種行為讓我覺得他們對網絡的基本禮儀毫無尊重。而作為一名從事分布式數據采集的工程師,我更是被這些爬蟲的糟糕和低效深深冒犯了。
至此,Tomchuk也分享了他想把這一經歷公開的原因,他希望其他小型在線企業了解,發現AI爬蟲是否在抓取網站的版權內容的唯一方法就是主動檢查日志。他并不是唯一一個受爬蟲“侵害”的人,也絕非最后一個。
Tomchuk警告道:“大多數網站甚至不知道自己被這些爬蟲抓取了。現在我們不得不每天監控日志活動,以發現這些爬蟲?!?/p>
本文來源:36氪
文章轉載于其他網絡,如有侵權請聯系我們及時刪除!