精品国产一区二区三区四区色欲,日韩精品一区二区三区四区蜜桃,国产精品扒开腿做爽爽爽A片软件

　　“這基本上是一次DDoS攻擊?！?/p>

　　幾天前，烏克蘭一家專注于人體3D模型的網站Trilegangers突然崩了，這讓整個團隊以及老板都有些措手不及。起初，該公司CEO Oleksandr Tomchuk只是收到一則警報，進而發現公司的電子商務網站已完全癱瘓了。

　　一經排查，殊不知，該團隊發現，罪魁禍首竟然是——OpenAI此前研發的一款機器人GPTbot。

　　7人花了十余年時間構建的網站，差一點毀于一旦

　　據悉，Trilegangers是一個銷售3D掃描數據的網站，這家擁有七名員工的公司花了十多年時間，建立了所謂的網絡上最大的“人體數字替身”數據庫，即從真實人體模型掃描而來的3D圖像文件。

　　Triplegangers提供從手、頭發、皮膚到完整身體模型的3D對象文件和照片，一應俱全。其處理的數據涵蓋多個類別，如“臉部”、“全身”、“帶姿勢的全身”、“全身情侶”、“手部”、“手部雕像”等，網站展示的內容正是其業務核心所在。

　　具體來看，以“臉部”數據為例，這一類別中有1509人的數據，每個人注冊了大約20種不同的面部表情。在其他類別中，每個產品至少有三張圖像，因此總數據據說有數十萬個點。

　　這一點也得到CEO Oleksandr Tomchuk的證實，其表示，“我們有超過65000種產品，每種產品都有一頁內容介紹，每頁至少有三張照片?！?/p>

Trilegangers所做的業務就是面向3D藝術家、視頻游戲開發者，以及任何需要數字化再現真實人類特征的人群銷售這些數據。

　　然而，Oleksandr Tomchuk稱，不久前OpenAI GPTBot發送了“數萬”個服務器請求，試圖下載全部內容，數十萬張照片及其詳細描述。

　　這有一種，但凡Trilegangers有的，OpenAI都要的感覺，可是這些內容實則為付費產品?！癘penAI使用600個IP來抓取數據，我們仍在分析上周的日志，也許更多，”該團隊在談到機器人試圖訪問其網站的IP地址時說道。

　　“他們的爬蟲程序正在摧毀我們的網站！”Oleksandr Tomchuk說，“這基本上是一次DDoS攻擊?！?/p>

那么GPTbot究竟是什么？

　　不難回憶起來，GPTbot是OpenAI在2023年8月推出的一款網絡爬蟲機器人，用于抓取互聯網數據，為訓練和改進大模型（如ChatGPT）提供素材。

　　它會自動訪問公開可用的網站，收集文本數據來增強模型能力。

　　OpenAI此前表示，GPTBot會嚴格遵守任何付費墻的規則，不會抓取需要付費的信息，并且也不會收集能追蹤到個人身份的數據。即遵循網站的robots.txt文件中明確標示的規則。如果網站配置了禁止GPTBot抓取的標簽，它理論上會停止訪問該網站。

　　而robots.txt是一個用于網站管理的文本文件，它告訴搜索引擎爬蟲（如Googlebot、Bingbot或GPTBot）哪些網頁可以或不可以被抓取。這是一種被廣泛接受的網絡標準，稱為機器人排除協議（Robots Exclusion Protocol,REP）。

　　簡單來看，如果你不想讓GPTBot訪問你網站的任何內容，可以將以下代碼添加到目錄中robots.txt里面：

　　User-agent:GPTBot

　　Disallow:/

　　如果你想要允許訪問網站上的某些內容（例如特定目錄或文件），可以用以下代碼對robots.txt進行以下更改：

　　User-agent:GPTBot

　　Allow:/directory-1/

　　Disallow:/directory-2/

　　除此之外，OpenAI還公布了OpenAI使用的爬蟲IP地址，也可以根據IP地址來拒絕訪問。

　　OpenAI公開了以上這些方式，并聲稱會遵守規則，顯得誠意滿滿。

　　然而，令人無奈的是，一切的前提是得正確配置好“robots.txt”文件，才可以盡可能地避免被爬蟲。

　　這一次Trilegangers就落到了“robots.txt”的坑中。雖然其在官網“使用條款”的第5條行為準則中清清楚楚地寫著：

　　未經TG明確事先書面同意，不得使用任何機器人、爬蟲、網站搜索/檢索應用程序或其他手動或自動設備來檢索、索引、抓取、挖掘數據或以其他方式收集網站內容，也不得復制或繞過網站的導航結構或展示方式。盡管有上述限制，在遵守我們網站根目錄中robots.txt文件中發布的任何指示的前提下，TG授予公共搜索引擎的運營者權限，允許其使用爬蟲從我們的網站復制材料，但僅限于為創建這些材料的公開可用、可搜索索引的唯一目的（且僅限必要范圍內），不得緩存或存檔這些材料。TG保留隨時和不經通知撤銷此權限的權利，無論是一般性撤銷還是針對特定情況。

　　未經TG許可，禁止執行以下行為：

　　1.將本網站上展示的任何內容或圖像用于人工智能或機器學習（“AI/ML”）研究或研究；

　　2.提取、復制、分發或向任何第三方提供本網站展示的任何內容或圖像，用于AI/ML算法的訓練、測試或開發；

　　3.參與任何涉及利用本網站內容或圖像的AI/ML相關活動，包括但不限于數據集編制、模式識別、神經網絡訓練或任何形式的計算分析。

　　任何試圖在未經TG有效許可的情況下將本網站內容或圖像用于AI/ML目的的行為，均被視為違反本網站條款及我們的供應條款與條件，可能導致法律訴訟，并尋求適用法律下的一切補救措施。

　　但如今看來，僅憑這一點的聲明毫無作用，GPTBot還是爬取到了其網站的內容，還讓網站整個宕機了。

　　對此，據Techcrunch報道，此次Trilegangers并沒有正確使用robot.txt，其中的標簽沒有明確告訴OpenAI的機器人GPTBot不要爬取該網站內容。這就意味著OpenAI和其他公司就會認為他們可以隨心所欲地抓取數據。

　　更令人氣憤的是，即使Trilegangers告訴了GPTBot不要抓取自家網站的內容，誰能料到，OpenAI還有ChatGPT-User和OAI-SearchBot機器人用來做爬蟲工具。

　　還值得注意的是，即使更新了網站的robots.txt，也不要掉以輕心，因為OpenAI的系統可能需要大約24小時才能才能識別更新的robot.txt文件。

https://platform.openai.com/docs/bots

　　正所謂爬蟲的工具千千萬，企業有時根本防不勝防。

　　“如果爬取的數據少一點，或許都發現不了”

　　就像這一次，如果不是OpenAI的GPTBot爬取的數據過于龐大，也許Trilegangers可能還發現不了。Tomchuk在接受外媒Techcrunch采訪時表示，「如果爬蟲更加“溫和”地抓取，他可能永遠都不會發現?！?/p>

　　“這令人害怕，因為這些公司似乎鉆了一個漏洞，聲稱‘你可以通過更新帶有我們標簽的robots.txt文件選擇退出抓取’，”Tomchuk說，但這實際上把責任推給了網站所有者，讓他們必須了解如何屏蔽這些爬蟲。

　　更可怕的是，Tomchuk稱他們連GPTBot究竟是從何時開始抓取的都不知道，更不要說OpenAI具體抓取了哪些內容。

　　這也讓Tomchuk有些擔心，“我們的業務對權利要求非常嚴格，因為我們掃描的是實際的人體，按照歐洲的GDPR等法律，他們不能隨便拿網絡上的任何照片使用。”

　　事件發生后，Triplegangers的網站不僅因OpenAI的爬蟲被迫下線，CEO Tomchuk還預計將收到一份因爬蟲導致的高CPU消耗和大量下載活動而產生的高額AWS賬單。

　　同時，Tomchuk稱他也沒找到可以聯系OpenAI的方法，也無法讓他們刪除這些素材。為此，Tomchuk無奈之下選擇用Trilegangers官方Twitter賬號發了一條致OpenAl、Microsoft、Meta、Google和其他使用爬蟲程序的公司的官方聲明：

　　除用于搜索目的的頁面索引外，嚴禁在我們的網站上使用爬蟲程序。未經有效許可，產禁將我們網站上的任何公開內容用于AI或ML應用程序。

　　截至目前，Triplegangers配置好了正確的robots.txt文件，并創建了一個Cloudflare賬戶，用于阻止GPTBot以及他發現的其他爬蟲，例如Barkrowler（一個SEO爬蟲）和Bytespider（TikTok的爬蟲）。

　　引發爭議的數據爬取

　　Triplegangers的經歷引發了廣泛關注，其公開此事后，不少其他網站運營者紛紛表示也曾遭遇類似情況。

　　 markerz：

　　我的其中一個網站曾被Meta的AI爬蟲Meta-ExternalAgent完全摧毀。這個爬蟲似乎有些“天真”，沒有像Google Bot那樣進行性能回退（performance back-off）。它不斷地重復請求內容，直到我的服務器崩潰，然后短暫停止一分鐘，再次發起更多請求。

　　我的解決方法是添加了一條Cloudflare規則，直接屏蔽該User-Agent的請求。我還為鏈接增加了更多nofollow規則，并更新了robots.txt文件，但這些規則僅僅是建議，某些爬蟲似乎會忽略它們。Cloudflare還有一個功能可以屏蔽已知的AI爬蟲，甚至懷疑是AI爬蟲的請求：https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click/。盡管我不喜歡Cloudflare的集中化，但這個功能確實非常方便。