Llama3のようなLLMを自宅でセルフホストChatGPTで運用したいですか?Macは最良かつ最も安価な選択肢かもしれません

Llama3のようなLLMを自宅でセルフホストChatGPTで運用したいですか?Macは最良かつ最も安価な選択肢かもしれません

アップルAI自宅で大規模な言語モデルを実行してみませんか?「2400ワットの電源ユニットにNVIDIA GPUを束ねる」という標準的な方法に代わる、興味深いアーキテクチャがあることがわかりました。ここではLLMの学習ではなく、LLMの実行について説明します。

セルフホスト型 GPT?

本稿執筆時点で、(私たちが知る限り)世界最高のLLMはOpenAIのChatGPTです。これは数兆個のパラメータで学習されたモデルです。最高のものを求めるなら、OpenAIのサービスに登録して料金を支払う必要があります。

LLMをダウンロードして自宅で実行することも可能です。数十億ドルもの資金がない限り、OpenAIほど優れているわけではありませんが、それでもかなり優秀で、希望すれば検閲なしでも利用できます(核爆弾の作り方を聞けば、きっと助けてくれるでしょう)。

一例として、Metaがリリースした有名なLlama3モデルが挙げられます。このモデルは70億または700億のパラメータを持ちます。私が見た中で最大のモデルは、120億のパラメータを持つGoliath-120モデルです。

でも、問題はそこなんです…これらの大規模なモデルは、全てGPUに載せた場合にのみ、本当にうまく動作します。CPUでも動作しますが、コンテキストを増やして動作させていくと…まあまあ…動作し始めます。

の…

(一時停止)

遅い…

まるで300ボーモデムの向こう側にいる人とチャットしているような感じです。いや、もっとひどい状況です。もちろん、時には問題ないこともありますが、何かを繰り返し作業している場合、これは深刻な制限となります。

LLM全体をGPUに収めることができれば、驚異的な速度を実現できます。しかし、Goliath-120は80GB以上のメモリを必要とします。

Nvidia カードを積み重ねる場合、カード自体が 10,000 ドル以上するか、複数の 3090 または 4090 に加えて、間隔を空けるための大型のマザーボード、冷却装置、巨大な PSU が必要になります...

あるいはMacを買うだけでもいい

Macではアーキテクチャが少し異なります。CPUとGPUはどちらも同じ高速メモリを共有しており、800GB/秒で動作します。これはDDR5(64GB/秒)やDDR6(134GB/秒)の速度をはるかに超えるものです。そのため、64GBのメモリを搭載したMacを購入した場合、そのメモリをシステムCPU処理またはGPUメモリのどちらにも使用できます。

Mac では初期状態では RAM の 75% が GPU に最大限使用されますが、これは調整可能です。

私の 64GB M1 Max は、40GB 以上の GPU VRAM を必要とするモデルを問題なく実行します。

今のお気に入りのモデルは、Ollamaで動作させているtaozhiyuai/llama-3-uncensored-lumi-tess-gradient:70b_i1_q4_k_mです。42GBモデルですが、レスポンスはほぼ瞬時です。(核爆弾を動作させようとしているわけではありませんが、検閲モデルは大嫌いです。)

さて、本当にハイエンドなマシンを見てみましょう。goliath-120B を動作させたいとしましょう。最大バージョンだと約90GBになります。Nvidia 4090 は約1800ドル(Amazonで見た価格です)です。これでVRAMは24GBになります。しかし、90GB必要なので…4枚で8000ドルになります。さらに、大容量のマザーボード、高速CPU、システムRAM、ケース、ストレージも必要になります…全部合わせると11000ドルになります。

一方、M2 Ultra チップ (24 コア CPU、60 コア GPU)、192 GB のシステム RAM、2 TB のストレージを搭載した Mac Studio を 6,000 ドル弱で購入できます。

ちょっと衝撃的ですよね?

Nvidia カードの RAM 容量がまだ比較的少ないことを考慮すると、Mac が高速 RAM を CPU または GPU として使用できることは、この分野では画期的なことです。

私は現在、このように構成された M2 Ultra を入手中であり、入手したらそのパフォーマンスについて報告する予定です。

おすすめの記事