📑

DeepSeek-R1の論文読んだ?【勉強になるよ】

に公開
12

Discussion

はまなすなぎさはまなすなぎさ

非常にためになる骨太な記事、ありがとうございます!とても勉強になります。

ちょっとした誤字かも?の箇所なのですが、冒頭の「強化学習手法「DRPO」すごい!」の部分は「GRPO」ではないかなと思いました。ご報告まで。

asapasap

読んでくださりありがとうございます!
おっしゃる通りです!修正させていただきました!

bangbang

AIについてはまだ詳しくありませんが、興味はあります。同じように古いモデルを使って新しいモデルを作るのですが、蒸留方法の代わりにモデルを組み合わせることは可能でしょうか?sakana aiのようにです

asapasap

モデルマージに関してはあまり詳しくないですが、基本的には同じアーキテクチャのモデルを利用することになると思います。したがってDeepSeek-R1によって蒸留されたLlamaモデルとかであれば、他のLlamaモデル(同じモデルアーキテクチャ)とモデルマージすることで、推論機能を付け加えたり、日本語機能を強化したりすることが期待できると思います。

bangbang

お返事ありがとうございます。私はまだ初心者なので、これは私の軽い考えです。今では研究のプロセスごとにいくつかの方法があり、それらを組み合わせたり微調整したりすれば、たくさんのモデルができるようになっているでしょう。

HWSeungwooHWSeungwoo

Deep Seekに関する記事やニュースはたくさん目にしますが、ここまで深掘りされた内容には驚きました。とても勉強になりました。ありがとうございます!

asapasap

読んでくださってありがとうございます!
コメント嬉しいです!ありがとうございます!

masaishimasaishi

素晴らしい記事をありがとうございます!
GRPOなどの強化学習手法に関する解説も大変勉強になりました。この記事をきっかけに、DeepSeek-R1の論文にも興味を持ち、読んでみようと思えました。

一点だけ気になったことがあり、もし私の理解が誤っていたら申し訳ありません。
"コード生成やコード保管などのソフトウェアエンジニアリングタスク"の強化学習に用いられていないとありますが、論文の 2.2.2(Reward Modeling)の

For LeetCode problems, a compiler can be used to generate feedback based on predefined test cases.

という記述を見ると、少なくともアルゴリズム問題のコード生成には強化学習が用いられているのかなと思います。

ソフトウェアエンジニアリングタスクは強化学習していませんが、コード生成自体は行っているような気がするので、注釈などで少し補足していただけると、読者としては誤解が減って助かるかもしれません。しかし、かなり細かい点ですので、最終的には著者さまの判断にお任せいたします。

asapasap

コメントありがとうございます!
おっしゃる通りでした!読み間違いです。ご指摘助かります。

Due to the long evaluation times, which impact the efficiency of the RL process, large-scale RL has not been applied extensively in software engineering tasks.

この部分の文章をもとに記載していましたが、大々的には適用されていないだけで、一部は学習に入っているっぽいですね。

助かります!修正もこれからさせていただきます

RyotoTanakaRyotoTanaka

読み応えがありました。素晴らしい記事をありがとうございます!
些細な事なのですが、DPOは Direct Preference Optimization ではないでしょうか。

asapasap

ほんとですね!間違えて入力してました
ありがとうございます!