ハッター賞を勝ち取る時間はないから、私のアイデアで50万ユーロをゲットしてみませんか?

ハッター賞を勝ち取る時間はないから、私のアイデアで50万ユーロをゲットしてみませんか?

データ圧縮これから、ダニング=クルーガー効果の優れた例、つまり素晴らしい戦利品の束を皆さんにお見せします。

まずは賞金の話から始めましょう。2006年、マーカス・ハッター氏はハッター賞( Wikipediaホームページ)という圧縮コンテストを創設しました。参加者は1GBのファイルをいかに小さく圧縮するかを競い、圧縮効率が1%向上するごとに賞金が1%増加します。直近の優勝者は、ファイルを112,578,322バイトから110,793,128バイトに圧縮し、賞金7,950ユーロを獲得しました。

もちろん、これは単なる gzip -9 や再帰的な gzipではありません。Hutter氏は、この種の圧縮研究がAI研究に具体的な貢献をすると考えています。「圧縮がうまくいけば、予測もうまくいく」と主張するからです。

では勝つためには何が必要でしょうか?

ファイルをある程度圧縮するプログラムを書くには、最低限のプログラミングスキルが必要です。しかし、コンテストで優勝するには、まず既存のデータ圧縮に関する最も重要なアイデア、概念、そして基本的なアルゴリズムを理解し、さらにそれらを改良、適応、そして組み合わせることで構築される最先端の圧縮技術を理解する必要があります。もしかしたら、あなた自身が素晴らしい新しいアイデアを持っていたとしても、既存のアイデアと組み合わせなければ、優勝のチャンスはないでしょう。

FAQ には優れたリンクがいくつかあります。

ダニング=クルーガー効果

ダニング=クルーガー効果とは、「特定の分野で能力が限られている人が自分の能力を過大評価する認知バイアス」です。

私の場合、プログラマーとしてはそこそこ腕があり、長年コンピュータサイエンスに関する書籍をたくさん読んできました。しかし、コンピューターサイエンスやその他の科学分野の学位は持っておらず、データ圧縮のコードを書いたこともありません。ですから、当然ながら、何かアイデアが浮かんだ瞬間、それは革命的なものだと考えてしまいます。

この種のDK効果は世界中で非常に一般的です。有名な例としては、スタン・ポンズとマーティン・フライシュマンの常温核融合研究が挙げられます。二人は優秀な、おそらくは天才的な電気化学者でしたが、核融合に関しては全くの無知でした。実際の物理学者たちは彼らの研究をほとんど時間をかけて調べませんでした。なぜなら、彼らの間違いはすぐに明らかだったからです。

私のアイデア

私の場合、DKゾーンに入りつつあることを認識しています。ハッター賞へのアプローチ方法をご紹介します。

まず、圧縮ツールは特定の用途に合わせて設計できることを指摘しておきます。コンテストで使用されたWikipediaの抜粋では素晴らしいパフォーマンスを発揮しますが、一般的なテキストでは効果が薄い場合があります。

究極の解決策は、データを分析し、どのパターンが最も多く繰り返されているかを完璧に計算することです。つまり、「ここに200文字のパターンがあり、それが20回出現します。これを、全く出現しないこの記号に置き換えましょう」とすれば良いのです。置き換え後の記号は、1バイト、2バイトなど、現在のテキストに含まれていないものなら何でも構いません。

まず、最も長い繰り返し部分文字列を見つけるところから始めましょう。これには既にアルゴリズムが存在します。Copilot や ChatGPT を使えば、この処理を自動的に実行できるコードを作成できます。例えば、(正確な数字は分かりませんが)最も長い繰り返し部分文字列が 800 文字だとしましょう。そうすると、800 文字の繰り返し部分文字列、799 文字の繰り返し部分文字列、といった具合に、どんどん長い繰り返し部分文字列のデータベースを構築できることになります。

次に、組み合わせを分析して、どの文字列を置き換えても他の部分文字列に影響を与えないかを判断します。つまり、800文字の文字列が3回繰り返される場合、最終的に必要なのは800文字(解凍辞書のエントリ)と1文字の記号だけです。もし3回繰り返される場合、2400文字が803文字に置き換えられます。その後、さらに処理を進めます。

もちろん、難しいのは、50 回繰り返される 50 文字の部分文字列が、1 回繰り返される 500 文字の部分文字列内に存在する可能性があるなど、置換のたびにデータベースを常に再計算する必要があることです。

他にもいろいろ複雑な事情があると思いますが…まあ、私はダニング=クルーガー効果の候補者だと認めますあなたは正真正銘のコンピューター科学者かもしれませんね。

おすすめの記事