ついに1000万トークンを把握!人間の一生分の情報を理解してくれるオープンウェイトLLM Llama4登場

2025年4月6日 06:35

朝起きたら突然、Llama4が超絶進化して登場していた。
中でも、シングルGPUで動作するLlama4 Scoutは1000万トークンのコンテキストウィンドウを装備。しかもシングルGPUで動作可能。アクティブパラメータはわずか17B(トータル109B)

1000万トークンって、単行本100冊分だぞ。
単行本100冊の知識が常に頭にある知性ってやばくないか。
ワイだって相当本を読んできた方だが100冊分の知識を澱みなく把握するのは不可能。

さらにLlama4 Maverickは、挨拶がわりに100万コンテキストでしかもシングルGPU(多分VRAM 80GBくらいの)で動作可能。こちらもアクティブパラメータ数は17Bでトータル400B。量子化やメモリオフロードがしやすい構成だ。

Scoutは16エキスパート、Marverickは128エキスパートとなっていて、Maverickの方が知識は多い。コーディングでClaude3.7と張り合うレベルと喧伝されているが、まだパーミッションが来てないので試せていない。本当なら大事件。

しかもどちらもマルチモーダルモデルで、画像からの推論も可能。ビビる。
とりあえず継之助がアップを始めた。

一両日中にはMacStudio 512GBで動くMLX版やGGUF版が出回るだろう。

とにかくショッキングとしか言いようがない。
熱い週末だ。

そんなこと書いてるうちに来たぜ!
待て!続報

もうMLXやってる人居た

First results are in. Llama 4 Maverick 17B active / 400B total is blazing fast with MLX on an M3 Ultra.

Here is the 4-bit model generating 1100 tokens at 50 tok/sec: pic.twitter.com/ekJ4607KI0
— Awni Hannun (@awnihannun) April 6, 2025

ollamaも対応

.@ollama is playing with @AIatMeta Llama 4 Scout!

🤯 a perfect opportunity to test Ollama's giant super computer ✈️✈️✈️ pic.twitter.com/cSZX1SnkL2
— ollama (@ollama) April 5, 2025

24時間もかかんなかったな
ただし、デフォルトでは日本語非対応

事前学習では日本語も学んでいるがインストラクションでは学んでないのかな

(4/8 追記)
A100 80GBx8でLlama4を動かしてみた。
FreeAIの機材を使ったので、詳細は以下

4/19追記

しかし、この後色々Llama4を動かしてみたりしたのだが、全然額面通りの性能が出なくて挫折してしまった。Llama4は紛い物、というのはもはやコンセンサスらしく、マック・ザッカーバーグがどう切り返してくるか見もの。

now would be a great time to reveal SoTA eval decontamination work that went into building Llama4... pic.twitter.com/kcSHimDZWH
— Susan Zhang (@suchenzang) April 7, 2025