CPUãŒå¾—æ„ãªã“ã¨ã‚’CPUã«ã¾ã‹ã›ã¦å°‘ãªã„VRAMã§ã‚‚å¤§ãã‚ã®LLMã‚’é€Ÿãå‹•ã‹ã™

Redditã«ã€ŒVRAMè¶³ã‚Šãªã„ã¨ãä¸€éƒ¨ã®ãƒ¬ã‚¤ãƒ¤ãƒ¼ã‚’CPUã«ä»»ã›ã‚‹ã‚“ã§ã¯ãªãã€ãƒ¬ã‚¤ãƒ¤ãƒ¼å…¨éƒ¨ã‚’GPUã«è¼‰ã›ã¦ãƒ¬ã‚¤ãƒ¤ãƒ¼å†…éƒ¨ã®FFNã ã‘CPUã«æŒã£ã¦ã„ã£ãŸã‚‰é€Ÿããªã£ãŸã€ãªã‚“ã§ã“ã‚ŒãŒæ¨™æº–ã˜ã‚ƒãªã„ã‚“ã ã€ã¨ã„ã†ã®ãŒã‚ã£ãŸã®ã§ã€ãŠã†ã¡ã®RTX 4060 Ti 16GBã§è©¦ã—ã¦ã¿ãŸã‚‰å¾®å¦™ã«é€Ÿããªã‚Šã¾ã—ãŸã€‚
https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7/dont_offload_gguf_layers_offload_tensors_200_gen/

Qwen3 30B A3Bã§è©¦ã—ã¦ã¿ã‚‹

ã“ã†ã„ã£ãŸæŒ‡å®šãŒOllamaã‚„LM Studioã§ã¯ã§ããªã„ã®ã§ã€ä»Šå›žã¯KoboldCPPã¨ã„ã†ã®ã§è©¦ã—ã¦ã¾ã™ã€‚
https://github.com/LostRuins/koboldcpp

KoboldCPPã§ã¯å®Ÿç”¨ãŒåŽ³ã—ã„ã®ã§ã€llama.cppã§è©¦ã™ã»ã†ãŒã‚ˆã•ãã†ã€‚

ã¨ã‚Šã‚ãˆãšã€LM Studioã§Qwen3 30B A3Bã®q3_k_xlã‚’å‹•ã‹ã—ãŸã¨ãã¯15.58tok/sec

48ä¸38ãƒ¬ã‚¤ãƒ¤ãƒ¼ã‚’GPUã«å‰²ã‚Šå½“ã¦ã¦ã„ã¾ã™ã€‚

ã¨ã„ã†ã“ã¨ã§ã€koboldcppã®å®Ÿè¡Œã€‚ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã—ãŸå®Ÿè¡Œãƒ•ã‚¡ã‚¤ãƒ«ã«--overridetensorsã¨--modelã¨--gpulayersã‚’æŒ‡å®šã—ã¦èµ·å‹•ã—ã¾ã™ã€‚

koboldcpp.exe --overridetensors "blk\.([0-9]*[05])\.ffn_.*_exps\.=CPU" --model "D:\dev\gguf\unsloth\Qwen3-30B-A3B-GGUF\Qwen3-30B-A3B-UD-Q3_K_XL.gguf" --gpulayers 48

--overridetensors "blk\.([0-9]*[05])\.ffn_.*_exps\.=CPU"ã¨ã„ã†æŒ‡å®šãŒè‚ã§ã™ãã€‚

0ã¨5ã§çµ‚ã‚ã‚‹ffnå†…ã®å±¤ãŒCPUã«ä¹—ã‚Šã¾ã™ã€‚

ä»Šå›žã¯Redditã«æ›¸ã„ã¦ã‚ã£ãŸæŒ‡å®šã‚’ä½¿ã£ã¦ã„ã‚‹ã®ã ã‘ã©ã€å±¤ã®åå‰ã‚’ç¢ºèªã—ãŸã„ã¨ãã¯æ£è¦è¡¨ç¾ã§.*ã‚’æŒ‡å®šã™ã‚Œã°å…¨éƒ¨CPUã«ä¹—ã‚‹ã®ã§ç¢ºèªã§ããã†ã€‚

http://localhost:5001ã«ã‚¢ã‚¯ã‚»ã‚¹ã—ã¦ã€Œbertã¨gptã®é•ã„ã¯ã€ã¨èžã„ã¦ã¿ã¾ã™ã€‚

17.55tok/secï¼12%é€Ÿããªã‚Šã¾ã—ãŸãã€‚

ãƒ¡ãƒ¢ãƒªæ¶ˆè²»ã¯ã“ã®ãã‚‰ã„ã€‚

è½ã¨ã—ãŸã¨ãã«2.2GBä½¿ã£ã¦ã„ãŸã®ã§ã€11.4GBã»ã©æ¶ˆè²»ã—ã¦ã¾ã™ã€‚ã“ã‚Œã¯LM Studioã§36ãƒ¬ã‚¤ãƒ¤ãƒ¼èªã¿è¾¼ã‚“ã ã¨ãã¨åŒã˜ã€‚

Llama4 Scoutã®Q2_Kã‚’LM Studioã§16ãƒ¬ã‚¤ãƒ¤ãƒ¼ã‚’GPUã«ã‚ªãƒ•ãƒãƒ¼ãƒ‰ã—ãŸå ´åˆã¨KoboldCPPã§--overridetensors "blk\.([0-9]*[0124578])\.ffn_.*_exps\.=CPU"ã¨ã—ã¦FFNã ã‘2/3ã»ã©CPUã«æ®‹ã—ãŸå ´åˆã§ã¯ã€4.1tok/secã ã£ãŸã®ãŒ4.9tok/secã¨20%é€Ÿããªã‚Šã¾ã—ãŸã€‚

ãŸã ã€æ€ã£ãŸã‚ˆã‚ŠåŠ¹æžœãŒã§ã¦ãªã„ã®ã¯ã€ã†ã¡ã®CPUãŒã¡ã‚‡ã£ã¨å¼±ã„ã‹ã‚‰ã§ã¯ãªã„ã‹ã¨ã€‚å¼·ã„CPUãªã‚‰ã‚‚ã£ã¨åŠ¹æžœãŒå‡ºã‚‹ã¨æ€ã„ã¾ã™ã€‚
Qwen3 32Bã§è©¦ã—ãŸã‚‰æ€§èƒ½å‘ä¸Šã§ããªã‹ã£ãŸã‘ã©ã€CPUãŒå¼·ã‘ã‚Œã°ãã‚Œãªã‚Šã«åŠ¹æžœãŒå‡ºãã†ã€‚

ä½•ã‚’ã‚„ã£ã¦ã„ã‚‹ã®ã‹

ã§ã¯ä½•ã‚’ã‚„ã£ã¦ã„ã‚‹ã®ã‹è¦‹ã‚‹ãŸã‚ã«LLMã®åŸºæœ¬æ§‹é€ ã‚’ç¢ºèªã—ã¦ã¿ã¾ã—ã‚‡ã†ã€‚

ã„ã¾ã®LLMã¯ãƒˆãƒ©ãƒ³ã‚¹ãƒ•ã‚©ãƒ¼ãƒžã¨ã„ã†æ§‹é€ ã‚’ãƒ™ãƒ¼ã‚¹ã«ã—ã¦ã€ã ã„ãŸã„ã“ã‚“ãªæ„Ÿã˜ã«ãªã£ã¦ã‚‹ã€‚ä½ç½®ã‚¨ãƒ³ã‚³ãƒ¼ãƒ‡ã‚£ãƒ³ã‚°(Posional Encoding)ã‹ã‚‰Feed Forwardã¾ã§ã§ä¸€å±¤ã§ã€ ãã‚ŒãŒQwen 30B A3Bãªã‚‰48å±¤ã€Qwen 32Bãªã‚‰64å±¤ã¨ã„ã†é¢¨ã«ãªã£ã¦ã‚‹ã€‚

ã§ã€LM Studioã‚’ã¯ã˜ã‚ã€LLMã®å®Ÿè¡Œç³»ã®è¨å®šã§ã¯ã€å±¤å˜ä½ã§GPUã«ã©ã‚Œã ã‘ä¹—ã›ã‚‹ã‹ã€é€†ã«CPUã«ã©ã‚Œã ã‘æ®‹ã™ã‹ã¨ã„ã†ã®ã‚’è¨å®šã™ã‚‹ã‚ˆã†ã«ãªã£ã¦ã‚‹ã€‚
ã§ã‚‚ã€å±¤å…¨ä½“ã§æ±ºã‚ã‚‹ã‚“ã˜ã‚ƒãªãã¦ã€å±¤ã®ãªã‹ã®å½¹å‰²ã«ã‚ˆã£ã¦CPUã§ã‚‚åŠ¹çŽ‡åŒ–ã§ãã‚‹ã‹ã€GPUã˜ã‚ƒãªã„ã¨ã ã‚ã‹ã£ã¦æ±ºã¾ã‚‹ã‚“ã§ã€CPUã§ã‚‚åŠ¹çŽ‡åŒ–ã§ãã‚‹ã¨ã“ã‚ã¯CPUã«æ®‹ã—ã¦ã€GPUã®ãƒ¡ãƒªãƒƒãƒˆã‚ã‚‹ã¨ã“ã‚ã¯ãªã‚‹ã¹ãGPUã«ä¹—ã›ãŸã»ã†ãŒã„ã„ã‚“ã§ã¯ã€ã£ã¦è©±ã§ã™ãã€‚

ãªãœãã‚ŒãŒã„ã„ã®ã‹

ã˜ã‚ƒã‚ãªãœãã‚ŒãŒã„ã„ã®ã‹ã€ã£ã¦è¦‹ã‚‹ã®ã«ã¯ã€å®Ÿéš›ã®ã‚³ãƒ¼ãƒ‰è¦‹ã‚‹ã®ãŒã„ã„ã¨æ€ã„ã¾ã™ã€‚

ã¨ã„ã†ã“ã¨ã§ã€llama2.cã‚’Javaã§æ›¸ãç›´ã—ãŸã‚„ã¤ã‚’ãƒ™ãƒ¼ã‚¹ã«ã€‚
https://gist.github.com/kishida/05656bfcbe840f269784f7dbbee5928e

LLMã®å‡¦ç†ã‚’è¦‹ã‚‹ã®ã¯forwardãƒ¡ã‚½ãƒƒãƒ‰ã€‚
https://gist.github.com/kishida/05656bfcbe840f269784f7dbbee5928e#file-llama-java-L300

ã¾ãšå¾Œæ®µã«ãªã‚‹FeedForwardã‚’è¦‹ã¦ã¿ã¾ã™ã€‚ä»Šå›žCPUã«ä¹—ã›ã‚ˆã†ã¨ã„ã†ã®ã¯ã“ã®éƒ¨åˆ†ã§ã™ã€‚

rmsnorm(s.xb, x, w.rms_ffn_weight[l], dim);

// Now for FFN in PyTorch we have: self.w2(F.silu(self.w1(x)) * self.w3(x))
// first calculate self.w1(x) and self.w3(x)
matmul(s.hb, s.xb, w.w1[l], dim, hidden_dim);
matmul(s.hb2, s.xb, w.w3[l], dim, hidden_dim);

// SwiGLU non-linearity
for (int i = 0; i < hidden_dim; i++) {
  // çœç•¥
}

// final matmul to get the output of the ffn
matmul(s.xb, s.hb, w.w2[l], hidden_dim, dim);

SwiGLUã®ã¨ã“ã‚ã¯çœç•¥ã—ã¦ã¾ã™ãŒ1é‡ãƒ«ãƒ¼ãƒ—ã§ã™ã€‚rmsnormã‚‚1é‡ãƒ«ãƒ¼ãƒ—ã«ãªã£ã¦ã¾ã™ã€‚1é‡ãƒ«ãƒ¼ãƒ—ã¯åŸºæœ¬çš„ã«æ™‚é–“ãŒã‹ã‹ã‚‰ãªã„ã®ã§ã€é«˜é€ŸåŒ–ã®å¿…è¦æ€§ã‚‚è–„ã„ã§ã™ã€‚ ã‚ã¨ã¯matmulã§ã™ã€‚FFNã®å‡¦ç†æ™‚é–“ã¯matmuléƒ¨åˆ†ã«ã‹ã‹ã‚Šã¾ã™ã€‚

ãã®matmulã¯ã“ã‚“ãªæ„Ÿã˜ã€‚

static void matmul(float[] xout, float[] x, FloatBuffer ws, int n, int d) {
    MemorySegment w = MemorySegment.ofBuffer(ws);
    IntStream.range(0, d).parallel().forEach(i -> {
        FloatVector val = FloatVector.zero(SPECIES);
        for (int j = 0; j < n; j+=SIMD_SIZE) {
            FloatVector a = FloatVector.fromMemorySegment(
               SPECIES, w, (i * n + j + SIMD_SIZE) * FLOAT_SIZE, ByteOrder.LITTLE_ENDIAN);
            FloatVector b = FloatVector.fromArray(SPECIES, x, j + 0*SIMD_SIZE);
            val = a.fma(b, val);
        }
        xout[i] = val.reduceLanes(VectorOperators.ADD);
    });
}

ç´°ã‹ã„ã¨ã“ã‚ã¯ç½®ã„ã¦ãŠã„ã¦ã€IntStreamã§parallelã¨ã—ã¦ãƒžãƒ«ãƒã‚¹ãƒ¬ãƒƒãƒ‰åŒ–ã—ã¦ã‚‹ã¨ã“ã‚ã¨ã€ãã®ä¸ã«ãƒ«ãƒ¼ãƒ—ãŒã‚ã£ã¦FloatVectorã‚’ä½¿ã£ã¦AVXãªã©SIMDå‘½ä»¤ã‚’ä½¿ã†ã‚ˆã†ã«ã—ã¦ã‚‹ã“ã¨ã ã‘è¦‹ã¦ãã ã•ã„ã€‚

ã¤ã¾ã‚Šã€ã‚¹ãƒ¬ãƒƒãƒ‰ã‚’å‹•ã‹ã™ã‚³ã‚¢æ•°ãŒãã‚Œãªã‚Šã«ã‚ã£ã¦AVXã®ã‚ˆã†ã«1å‘½ä»¤ã§è¤‡æ•°ã®ãƒ‡ãƒ¼ã‚¿ã‚’å‡¦ç†ã§ãã‚Œã°ã€CPUã§ã‚‚é€Ÿãå‡¦ç†ãŒã§ãã¾ã™ã€‚

ä¸€æ–¹ã§ãƒžãƒ«ãƒãƒ˜ãƒƒãƒ‰ã‚¢ãƒ†ãƒ³ã‚·ãƒ§ãƒ³ã¯ã“ã‚“ãªæ„Ÿã˜ã§ã™ãã€‚

// multihead attention. iterate over all heads
final var fl = l;
IntStream.range(0, p.n_heads).parallel().forEach(h -> {
    int qpos = h * head_size;
    int kvpos = h / kv_mul * head_size;
    float[] att = s.att[h];
    for (int t = 0; t <= pos; t++) {
        float score = 0;
        FloatVector val = FloatVector.zero(SPECIES);
        for (int i = 0; i < head_size; i+=SIMD_SIZE) {
            FloatVector a = FloatVector.fromArray(SPECIES, s.q, qpos + i);
            FloatVector b = FloatVector.fromArray(SPECIES, s.key_cache[fl][t], kvpos + i);
            val = a.fma(b, val);
        }
        score = val.reduceLanes(VectorOperators.ADD);
        score /= head_aqrt;
        // save the score to the attention buffer
        att[t] = score;
    }
    ãƒ»ãƒ»ãƒ»

IntStreamã®parallelã§ãƒžãƒ«ãƒã‚¹ãƒ¬ãƒƒãƒ‰åŒ–ã—ã¦ã€å†…éƒ¨ã«FloatVectorã‚’ä½¿ã£ãŸãƒ«ãƒ¼ãƒ—ãŒã‚ã‚‹ã®ã¯matmulã¨ä¼¼ã¦ã‚‹ã®ã ã‘ã©ã€FloatVectorã‚’ä½¿ã£ãŸãƒ«ãƒ¼ãƒ—ãŒãƒ«ãƒ¼ãƒ—ã§å›²ã¾ã‚Œã¦ã€å…¨ä½“ã§3é‡ãƒ«ãƒ¼ãƒ—ã«ãªã£ã¦ã¾ã™ã€‚

ãã—ã¦ã€çœŸã‚“ä¸ã®ãƒ«ãƒ¼ãƒ—ã¯ç‰¹ã«ãƒãƒ¼ãƒ‰ã‚¦ã‚§ã‚¢ã§ã®é«˜é€ŸåŒ–ãŒã•ã‚Œã¦ãªã„ã§ã™ã€‚CPUã ã¨ã“ã‚Œã‚’é«˜é€ŸåŒ–ã™ã‚‹ä»•çµ„ã¿ãŒãªã„ã€‚

Intel AMXã¨ã‹ã‚ã‚‹ã‘ã©4ä¸–ä»£Xeonã«ã‚ˆã†ã‚„ãæè¼‰ã•ã‚ŒãŸã¨ã“ã‚ã§ã€æ™®åŠã—ã¦ãªã„ã€‚ä½¿ãˆã‚‹ã¨LLMãŒé€Ÿããªã‚‹ã‚ˆã†ã§ã™ã€‚
インテルの AI 対応 AMX CPU アクセラレータのテスト結果について | Google Cloud 公式ブログ

ä¸€æ–¹ã§GPUã ã¨3é‡ãƒ«ãƒ¼ãƒ—ã‚’é€Ÿãã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚
GPUå‡¦ç†ã®å…±é€šãƒ•ãƒ¬ãƒ¼ãƒ ãƒ¯ãƒ¼ã‚¯ã§ã‚ã‚‹OpenCLã®èª¬æ˜Žã«æ¬¡ã®ã‚ˆã†ã«æ›¸ã„ã¦ã¾ã™ã€‚

è§£ããŸã„å•é¡Œã«ã¯å…¨ã¦ã€ç›´ç·šçŠ¶ã‚„ã‚ãƒ¥ãƒ¼ãƒ–çŠ¶ã‚„å¹³é¢çŠ¶ã®ã‚ˆã†ã«ã‚ã‚‹ç¨‹åº¦ã®æ¬¡å…ƒæ€§ãŒå˜åœ¨ã—ã¦ã„ã‚‹ã€‚ OpenCLã§ã¯æœ€å¤§3æ¬¡å…ƒã¾ã§ã‚’æŒ‡å®šã—ã¦ã‚«ãƒ¼ãƒãƒ«ã‚’å±•é–‹ã™ã‚‹ã€‚

ã“ã“ã§ã€ã‚µãƒƒã¨3é‡ãƒ«ãƒ¼ãƒ—ã‚’GPUã§åŠ¹çŽ‡ã‚ˆãå‡¦ç†ã—ãŸã‚½ãƒ¼ã‚¹ãŒå‡ºã›ã‚‹ã¨ã„ã„ã‚“ã ã‘ã©ã€ãƒ‡ã‚£ãƒ¼ãƒ—ãƒ©ãƒ¼ãƒ‹ãƒ³ã‚°ã‚’GPUä½¿ã£ã¦é€Ÿãã—ã‚ˆã†ã¨ã—ãŸå‡¦ç†ã§ã¯ã€ã¡ã‚ƒã‚“ã¨3é‡ãƒ«ãƒ¼ãƒ—ã®å‡¦ç†ãŒæ›¸ã‘ã¦ãªãã¦é«˜é€ŸåŒ–ã§ãã¦ãªã‹ã£ãŸã€‚
https://github.com/kishida/neuralnet/blob/use_jocl/src/main/resources/kernels/convolution_forward.cl#L15

æ¬¡ã®ã‚ˆã†ã«iã®ãƒ«ãƒ¼ãƒ—ã¨jã®ãƒ«ãƒ¼ãƒ—ã‚‚GPUã®ä¸¦åˆ—åŒ–ã«ä»»ã›ã‚‹ã‚ˆã†ã«ã™ã‚‹ã¨é€Ÿããªã‚‹ã¯ãšã€‚

int fxy = get_global_id(0);
int i = get_global_id(1);
int j = get_global_id(2);

[å¢—è£œæ”¹è¨‚]GPUã‚’æ”¯ãˆã‚‹æŠ€è¡“ â€•â€•è¶…ä¸¦åˆ—ãƒãƒ¼ãƒ‰ã‚¦ã‚§ã‚¢ã®å¿«é€²æ’ƒ[æŠ€è¡“åŸºç¤Ž] (WEB+DB PRESS plus)

ä½œè€…:Hisa Ando

Amazon

Qwen3 30B A3Bã§è©¦ã—ã¦ã¿ã‚‹

ä½•ã‚’ã‚„ã£ã¦ã„ã‚‹ã®ã‹

ãªãœãã‚ŒãŒã„ã„ã®ã‹

Qwen3 30B A3Bã§è©¦ã—ã¦ã¿ã‚‹

ä½•ã‚’ã‚„ã£ã¦ã„ã‚‹ã®ã‹

ãªãœãã‚ŒãŒã„ã„ã®ã‹