イーロン・マスクは、リーク元を特定するために、簡単に破られるような、稚拙な方法を使った。プロならどうやっただろうか?

直近のNFLドラフトで、ダラス・カウボーイズのオーナー、ジェリー・ジョーンズは、チームが望んでいた指名権を獲得できたことを非常に喜んでいました。ある選手について報道陣に問われると、彼は誇らしげにチームの機密ドラフト順位表を掲げ、自分たちの賢明さをアピールしました。スタッフは愕然とし、これ以上戦略を明かさないよう、ジョーンズにその表を下ろすよう合図しました。
ある種の人間、主に自己中心的な大言壮語家が、自分の賢さを人に見せびらかすことに抗えない。静かに勝利を収めて報酬を得るだけでは不十分だ。彼らは勝利そのものと、自分の知性で皆を圧倒するという自己満足を求める。「君を倒しただけでなく、こうやってやったんだ。君はAを試したけど、君ならきっとできるって分かっていたから、Bも試した。そして、C、D、Eも用意しておいた…」
こうした自慢話は、ほとんどの場合、誤った戦略だ。また、自慢屋のあらゆる心理的弱点を露呈することもあるが、根本的な問題は、一度手口を明かせば、すぐにバレてしまうことだ。諜報の世界では、クーデターや勝利は決して祝われることはない。重要な秘密を手に入れたスパイ組織が、いかに巧妙かを暴露する暴露本を出版することはない。CIAが外国大使館に盗聴器を仕掛けたとしても、大統領は次の首脳会談でその国の指導者の脇腹を軽く突いて「実は、私たちはあなたの大使館に潜入したんですよ。私たちがどれだけ知っているか、信じられないでしょう!」などと言うことはないだろう。
実に興味深い話ですね。一見同一のメールを全員に送信したように見えましたが、実際にはそれぞれのメールに文間に1つまたは2つのスペースが挿入されており、リーク元を特定できるバイナリ署名となっていました。
— イーロン・マスク(@elonmusk) 2022年10月9日
混乱を招くテキスト
文書の作成者を特定するには、退屈で「面白みのない」方法がたくさんあります。例えば、 BTKキラーは警察にフロッピーディスクを送り、嘲笑したことで犯人の身元を特定しました。そのフロッピーディスクには、彼の勤務先とファーストネームの両方がメタデータに記載されたWord文書が含まれていました。
しかし、上記のツイートで述べたように、マスク氏はリーク元を特定するために「興味深い」手法を用いたと豪語している。ここで問題なのはテキストそのものであってメタデータではない。また、文書の作成者だけでなく、誰が配布したかを特定しているのだ。
マスク氏にこのことをお伝えするのは気が引けますが、彼が自慢するこの技術は、彼が生まれるずっと前から存在していました。コンピューターよりも、タイプライターよりも前のことです。
そして、彼がここで行った方法は賢明とは言えません。実際、彼はもっと賢明な方法を知らないようです。
この考え方はあまりにも古く、歴史上のどのような例を検索すればいいのか見つけるのが難しいです。基本的な考え方は、次のようなテキストがあることです。
ロレム・イプサム・ドルー・シット・アメット、コンセクテトゥール・アディピシング・エリート、セド・ド・エイウスモッド・テンポラ・インシディダント・ユー・レイバーとドローレ・マグナ・アリクア。必要最小限の費用で、必要な作業をすべて行って、結果を得ることができます。 Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eufugiat nulla pariatur.例外的に、公的な立場に立つことはできませんが、責任を負う義務はありません。
ロレム・イプサム・ドルー・シット・アメット、コンセクテトゥール・アディピシング・エリート、セド・ド・エイウスモッド・テンポラ・インシディダント・ユー・レイバーとドローレ・マグナ・アリクア。必要最小限の費用で、必要な作業をすべて行って、結果を得ることができます。 Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eufugiat nulla pariatur.例外的に、公的な立場に立つことはできませんが、責任を負う義務はありません。
これら2つの段落は、最初の段落の最初の文の後に余分なスペースがあることを除けば全く同じです。人間は、注意深く探さない限り、読むときにそのスペースに気づきません。例えば、これが20段落あると想像してみてください。100人にコピーを送りたいのですが、そのうち誰かがそれを共有しているかどうかを確認したいとします。そこで、テキストを読み進めて、少し手を加えます。ピリオドをあちこち動かしたり、「誤って」コンマをセミコロンに変えたりします。他にも多くの方法があり、これを実現するためにタイプセッティングは必要ありません。ペンと紙で行うことができます。
全く同じコピーが100個あるのではなく、区別が困難な100種類の異なるコピーがあります。流出したコピーを野放しで見つけたら、「ああ、14番目の文にカンマが抜けているコピーを手に入れたのはビル・ゲイツだったんだ」と簡単に言えるでしょう。
もちろん、マスクが口を滑らせた今、スペースXの従業員全員がこの手法が使われていることを知ることになるだろう。情報源と手法について、イーロン。
マスクはプロではない
この指紋認証を破る方法はいくつかあるが、これはマスクのチームがいかに素人であるかを示している。
最も分かりやすい方法は、「すべて選択」してコピー&ペーストし、Microsoft Wordなどのフォーマット変換機能のあるプログラムに貼り付けることです。スペースや句読点を統一し、文法やスペルミスなどを修正します。こうすることで、その「クリーン」なコピーが漏洩しても、指紋認証は不可能になります。OCRを使うこともできます。
ここでマスク氏が利益を得たのは、リークした人物が知識不足だったからに違いない。もし知識不足だったら、マスク氏は無力だっただろう。
もっと良い手法を使うことができたはずです。例えば、ホモグリフを使うことができます。次の例( StackExchangeより)を考えてみましょう。
機密の、機密の、機密の、機密の
5つの単語は同じように見えますが、実は違います。4番目の文字の「d」が違うことは、(私が注意を喚起しているので)目で見て分かります。ただ読んでいるだけでは、その違いに気づくことはまずないでしょう。仮に気づいたとしても、誰もがPDFに不具合があることに気づいたことがあるのではないでしょうか? レーダーが働いていなければ、簡単に、あるいは無意識のうちに、それを無視してしまうでしょう。
しかし、これらの「機密」単語はすべて異なっており、この 16 進ダンプからそれがわかります。
$ for word in cοnfidential confidential confidential confiԁential confidentialᎥal ; do echo -n $word | hexdump -C ; done 00000000 西暦63年、紀元前6世紀、紀元後6世紀、66年、69年、64年、65年 6e 74 69 61 6c |c..機密| 0000000d 00000000 63 6f 6e 66 69 64 65 6e 74 69 61 6c |機密| 0000000c 00000000 63 6f 6e 66 e1 8e a5 64 65 6e 74 69 61 6c |機密...| 0000000e 00000000 63 6f 6e 66 69 d4 81 65 6e 74 69 61 6c |機密| 0000000d 00000000 63 6f 6e 66 69 64 65 6e 74 e1 8e a5 61 6c |自信のある...al| 0000000e
フォント自体も重要です。CourierとArialは一目見れば分かりますが、もし作者が似たようなフォントを複数使い分け、微妙に変化させていたとしたらどうでしょうか?
指紋採取に絶対確実な方法はあるのでしょうか?
はい…そしていいえ。
テキストの内容を変更できれば、フィンガープリンティングは絶対確実です。例えば、同義語の一部を変更したり(例えば、ある文書では「big」、別の文書では「large」を使用するなど)、重要でないデータを改変したり(例えば、ある報告書では「1.03948」という数値を引用し、別の報告書では「1.03949」という数値を引用するなど)、といったことが可能です。そうすれば、たとえ誰かがメッセージ全体を再入力したとしても、フィンガープリンティングは成功します。
それができない場合、フォントや表示方法の選択といったメタデータに常に頼ることになります。リーク者がメタデータを削除できれば、フィンガープリンティングを回避できます。とはいえ、何かをリークする際の価値の多くはメタデータにあります。ホワイトハウスのレターヘッドに政府のグラフや数字が入った文書があれば、私が見て忠実に書き直したという私の言葉(言葉遊びではありません)を信じなければならないWord文書よりも、より本物らしく見えるでしょう。
漏洩者が文書のコピーを2つ(例えば、自分のコピーと友人のコピー)入手できれば、フィンガープリンティングが使用されているかどうかを特定するのは簡単です。両方のファイルのSHAチェックサムを実行するだけで、結果が異なっている場合はその理由を調べる必要があります。
これは軍拡競争であり、マスク氏は二つの過ちを犯した。まず指紋認証を利用していることを明らかにし、次に、そのかなり劣悪なバージョンを使っていたことを明らかにしたのだ。