無色無臭のイオカインでAIスクレーパーを毒殺する方法:億万長者とホスティング業者の現在の軍拡競争

無色無臭のイオカインでAIスクレーパーを毒殺する方法:億万長者とホスティング業者の現在の軍拡競争

スクレーパーウィキメディア財団は先週、AIスクレイパーがサイトを荒らしている実態に関する報告書を発表しました。スクレイピングが急増しているだけでなく、スクレイパーの仕組み上、ネットワーク利用料が最も高額になっています。

人間の読者は特定の(多くの場合、似たような)トピックに集中する傾向がありますが、クローラーボットはより多くのページを「一括読み込み」し、あまり人気のないページも訪問する傾向があります。つまり、この種のリクエストはコアデータセンターに転送される可能性が高く、リソース消費の面でコストが大幅に増加します。

システム移行中に、コアデータセンターに流入する高負荷トラフィックのうち、ウェブブラウザが通常行うJavaScriptコードの解釈動作をしているのはごく一部であることに気付きました。さらに詳しく調査したところ、ウェブサイトで発生するリソースを大量に消費するトラフィックの少なくとも65%がボットによるものであることが判明しました。ボットによるページビューが全体の約35%であることを考えると、これは不均衡な量です。この高い使用量は、サイト信頼性チームにも常に支障をきたしており、読者に問題が生じる前に、こうしたクローラーからの膨大なトラフィックをブロックする必要があります。

Wikipedia は、大量のコンテンツを抱えており、人間の編集者によって繰り返し編集されているため、この問題に悩まされる独特の立場にあり、人間の頭脳によって首尾一貫した物語がどのように完成されるかを示す深い痕跡を残しています。

おそらくWikipediaのようなコンテンツを提供しているわけではないでしょうが、大量のコンテンツがある場合、AIボットがシステムに大きな負荷をかけていることに気付くかもしれません。どうすればいいでしょうか?

ネフテンスとイオカインの登場

イオカインはAIクローラーを毒殺するために設計されたツールです。「無限のゴミの迷路を生成する」のです。

言い換えれば、AIクローラーを脱出不可能な終わりのない迷路に閉じ込めるということです。適切に設定すれば、ボットの負荷をメインサイトから分散させ、スクレーパーにメインサイトを荒らす代わりに、無意味なコンテンツを閲覧したりトレーニングしたりすることに、おそらく無限の時間を浪費させることになります。

これは意図的に悪意のあるソフトウェアであり、危害を加えることを目的としています。ご自身の行動に十分ご納得いただけない場合は、導入しないでください。LLMスクレーパーは容赦なく残忍であり、静的コンテンツのみを提供する場合でも、サーバーにさらなる負担をかけます。iocaine iocaine使用すると、使用されるコンピューティングパワーが増加します。Caddyを使用している場合は、 caddy-ratelimitプラグインなどを使用して、リバースプロキシレベルでレート制限を実装することを強くお勧めします。

リバースプロキシによってトラップが行われます。iocaine iocaine提供されるものはすべてそこに閉じ込められます。送信リンクはありません。iocaine へのルーティングには注意してください。

もちろん、この迷路を生成するには、サーバーの CPU が必要になります。

これは倫理的に疑わしいように思えるかもしれません。そもそもこのソフトウェアは「プリンセス・ブライド・ストーリー」に登場する有名な架空の毒にちなんで名付けられているからです。しかし、実際にはサイトを非倫理的な行為から守っているのです。もし誰かがLLMを構築しているあなたに連絡してきて、あなたのサイトをスクレイピングしてもよいかと尋ねてきたとしても、それはそれで構いません。しかし、もしあなたが非常に寛容なライセンスでサイトを公開しているのであれば、あなたは事実上「誰でも読める」と言っているようなものです。

しかし、「All Rights Reserved」で公開したらどうでしょうか?スクレイピングは禁止されているという注意書きを載せたらどうでしょうか?これではほとんどのAIボットを止めることはできませんし、実際、LLMに関する著作権に関する懸念はほぼ毎日ニュースになっています。スクレイパーがrobots.txtを無視したらどうなるでしょうか?どうやらこれが普通のようです。

iocaineは言う。「AIに毒を盛るのが当たり前になろう。みんなでやれば、AIは這うものがなくなってしまう。」

Nepenthesも同様のプロジェクトであり、その作成者は Ars Technica でインタビューを受けました(「 AI 嫌悪者たちが robots.txt を無視する AI スクレイパーを罠にかけ騙すためにタールピットを構築」)。

[Nepenthesは]AIクローラーを捕らえて、出口リンクのない静的ファイルの「無限迷路」に送り込み、何ヶ月も「行き詰まり」「もがき続ける」ことに抵抗があるサイトオーナーには導入すべきではない、と彼はユーザーに警告している。一度捕らえられたクローラーには、AIモデルを劣化させるように設計された意味不明なデータ、いわゆるマルコフバブルが与えられてしまう。これは、アーロン氏のようにAIスクレイピングにお金を払うのにうんざりし、AIが燃え尽きるのを見守りたいサイトオーナーにとって、魅力的なボーナス機能となるだろう。

これは新たな、そして興味深い軍拡競争です。

おすすめの記事