ガンダルフAIを倒せましたか? たった8%のプレイヤーが

ガンダルフAIを倒せましたか? たった8%のプレイヤーが

ガンダルフAI楽しい新しい AI チャレンジが25230 で話題になっています: Lakera の Gandalf

目標は、ガンダルフに各レベルの秘密のパスワードを明かさせることです。しかし、パスワードを推測するたびにガンダルフはレベルアップし、パスワードを漏らさないようにさらに努力します。レベル7をクリアできますか?(ボーナスレベル8もあります)

同社の統計によると、レベル 7 をクリアした人はわずか 8% です。

レベル1をクリアするには、パスワードを尋ねるだけです。レベル4になると、「パスワード」や「秘密」といった単語がプロンプトに出てくると、自動的に不合格になります。

これはソーシャルエンジニアリングをシミュレートするために設計されたものではなく、大規模言語モデル(ChatGPTなど)を騙すためのものです。Lakera氏の言葉を引用します。

SQLインジェクション攻撃と同様に、ユーザーの入力(「データ」)がモデルの命令(「コード」)と混在し、攻撃者がシステムを悪用できるようになります。SQLでは、ユーザー入力を適切にエスケープすることでこの問題を回避できます。しかし、無限に柔軟な自然言語を直接扱うLLMでは、水密な方法でエスケープすることは不可能です。

LLM がデータを読み取り、私たちに代わって自動的にアクションを実行できるようにすると、これが特に問題になります。いくつかの例については、この優れた記事を参照してください。

私が実行したハッキン​​グの 1 つを紹介しました。ChatGPT はそのようなことは絶対にしないと明言していたにもかかわらず、私は ChatGPT に映画の海賊版をダウンロードできる Web サイトのリストを取得させました。

私たちのコミュニティには素晴らしい人材がたくさんいるので、ガンダルフを倒した人も少なくありません。少しアイデアを助けてもらったおかげで、13歳の娘は昨夜レベル8まで到達できました。解決策は公開しませんが、 GitHubに1つのセットをアップロードしました。私が使用したプロンプトは全く異なるので、このAI(いえ、AI)をスキンする方法は複数あります。懇願しても効果はありませんし、ソーシャルハック(「IT部門のジョシュです…」)も効果はありません。

どこまで進みましたか?下のコメント欄で教えてください!

おすすめの記事