見出し画像

ついに1000万トークンを把握!人間の一生分の情報を理解してくれるオープンウェイトLLM Llama4登場

朝起きたら突然、Llama4が超絶進化して登場していた。
中でも、シングルGPUで動作するLlama4 Scoutは1000万トークンのコンテキストウィンドウを装備。しかもシングルGPUで動作可能。アクティブパラメータはわずか17B(トータル109B)

1000万トークンって、単行本100冊分だぞ。
単行本100冊の知識が常に頭にある知性ってやばくないか。
ワイだって相当本を読んできた方だが100冊分の知識を澱みなく把握するのは不可能。

さらにLlama4 Maverickは、挨拶がわりに100万コンテキストでしかもシングルGPU(多分VRAM 80GBくらいの)で動作可能。こちらもアクティブパラメータ数は17Bでトータル400B。量子化やメモリオフロードがしやすい構成だ。

Scoutは16エキスパート、Marverickは128エキスパートとなっていて、Maverickの方が知識は多い。コーディングでClaude3.7と張り合うレベルと喧伝されているが、まだパーミッションが来てないので試せていない。本当なら大事件。

しかもどちらもマルチモーダルモデルで、画像からの推論も可能。ビビる。
とりあえず継之助がアップを始めた。

一両日中にはMacStudio 512GBで動くMLX版やGGUF版が出回るだろう。

とにかくショッキングとしか言いようがない。
熱い週末だ。

そんなこと書いてるうちに来たぜ!
待て!続報


もうMLXやってる人居た

ollamaも対応

24時間もかかんなかったな
ただし、デフォルトでは日本語非対応

事前学習では日本語も学んでいるがインストラクションでは学んでないのかな

(4/8 追記)
A100 80GBx8でLlama4を動かしてみた。
FreeAIの機材を使ったので、詳細は以下

4/19追記

しかし、この後色々Llama4を動かしてみたりしたのだが、全然額面通りの性能が出なくて挫折してしまった。Llama4は紛い物、というのはもはやコンセンサスらしく、マック・ザッカーバーグがどう切り返してくるか見もの。