📑DeepSeek-R1の論文読んだ?【勉強になるよ】2025/01/27に公開2025/02/2212件強化学習蒸留LLM生成 AIDeepSeektechDiscussionはまなすなぎさ2025/01/28非常にためになる骨太な記事、ありがとうございます!とても勉強になります。 ちょっとした誤字かも?の箇所なのですが、冒頭の「強化学習手法「DRPO」すごい!」の部分は「GRPO」ではないかなと思いました。ご報告まで。 asap2025/01/28読んでくださりありがとうございます! おっしゃる通りです!修正させていただきました! 返信を追加bang2025/01/28AIについてはまだ詳しくありませんが、興味はあります。同じように古いモデルを使って新しいモデルを作るのですが、蒸留方法の代わりにモデルを組み合わせることは可能でしょうか?sakana aiのようにです asap2025/01/28モデルマージに関してはあまり詳しくないですが、基本的には同じアーキテクチャのモデルを利用することになると思います。したがってDeepSeek-R1によって蒸留されたLlamaモデルとかであれば、他のLlamaモデル(同じモデルアーキテクチャ)とモデルマージすることで、推論機能を付け加えたり、日本語機能を強化したりすることが期待できると思います。 bang2025/01/28お返事ありがとうございます。私はまだ初心者なので、これは私の軽い考えです。今では研究のプロセスごとにいくつかの方法があり、それらを組み合わせたり微調整したりすれば、たくさんのモデルができるようになっているでしょう。 返信を追加HWSeungwoo2025/01/28Deep Seekに関する記事やニュースはたくさん目にしますが、ここまで深掘りされた内容には驚きました。とても勉強になりました。ありがとうございます! asap2025/01/28読んでくださってありがとうございます! コメント嬉しいです!ありがとうございます! 返信を追加masaishi2025/01/29素晴らしい記事をありがとうございます! GRPOなどの強化学習手法に関する解説も大変勉強になりました。この記事をきっかけに、DeepSeek-R1の論文にも興味を持ち、読んでみようと思えました。 一点だけ気になったことがあり、もし私の理解が誤っていたら申し訳ありません。 "コード生成やコード保管などのソフトウェアエンジニアリングタスク"の強化学習に用いられていないとありますが、論文の 2.2.2(Reward Modeling)の For LeetCode problems, a compiler can be used to generate feedback based on predefined test cases. という記述を見ると、少なくともアルゴリズム問題のコード生成には強化学習が用いられているのかなと思います。 ソフトウェアエンジニアリングタスクは強化学習していませんが、コード生成自体は行っているような気がするので、注釈などで少し補足していただけると、読者としては誤解が減って助かるかもしれません。しかし、かなり細かい点ですので、最終的には著者さまの判断にお任せいたします。 asap2025/01/29コメントありがとうございます! おっしゃる通りでした!読み間違いです。ご指摘助かります。 Due to the long evaluation times, which impact the efficiency of the RL process, large-scale RL has not been applied extensively in software engineering tasks. この部分の文章をもとに記載していましたが、大々的には適用されていないだけで、一部は学習に入っているっぽいですね。 助かります!修正もこれからさせていただきます masaishi2025/01/29ご丁寧にありがとうございます! 返信を追加RyotoTanaka2025/01/30読み応えがありました。素晴らしい記事をありがとうございます! 些細な事なのですが、DPOは Direct Preference Optimization ではないでしょうか。 asap2025/01/30ほんとですね!間違えて入力してました ありがとうございます! 返信を追加
はまなすなぎさ2025/01/28非常にためになる骨太な記事、ありがとうございます!とても勉強になります。 ちょっとした誤字かも?の箇所なのですが、冒頭の「強化学習手法「DRPO」すごい!」の部分は「GRPO」ではないかなと思いました。ご報告まで。 asap2025/01/28読んでくださりありがとうございます! おっしゃる通りです!修正させていただきました! 返信を追加
bang2025/01/28AIについてはまだ詳しくありませんが、興味はあります。同じように古いモデルを使って新しいモデルを作るのですが、蒸留方法の代わりにモデルを組み合わせることは可能でしょうか?sakana aiのようにです asap2025/01/28モデルマージに関してはあまり詳しくないですが、基本的には同じアーキテクチャのモデルを利用することになると思います。したがってDeepSeek-R1によって蒸留されたLlamaモデルとかであれば、他のLlamaモデル(同じモデルアーキテクチャ)とモデルマージすることで、推論機能を付け加えたり、日本語機能を強化したりすることが期待できると思います。 bang2025/01/28お返事ありがとうございます。私はまだ初心者なので、これは私の軽い考えです。今では研究のプロセスごとにいくつかの方法があり、それらを組み合わせたり微調整したりすれば、たくさんのモデルができるようになっているでしょう。 返信を追加
asap2025/01/28モデルマージに関してはあまり詳しくないですが、基本的には同じアーキテクチャのモデルを利用することになると思います。したがってDeepSeek-R1によって蒸留されたLlamaモデルとかであれば、他のLlamaモデル(同じモデルアーキテクチャ)とモデルマージすることで、推論機能を付け加えたり、日本語機能を強化したりすることが期待できると思います。
bang2025/01/28お返事ありがとうございます。私はまだ初心者なので、これは私の軽い考えです。今では研究のプロセスごとにいくつかの方法があり、それらを組み合わせたり微調整したりすれば、たくさんのモデルができるようになっているでしょう。
HWSeungwoo2025/01/28Deep Seekに関する記事やニュースはたくさん目にしますが、ここまで深掘りされた内容には驚きました。とても勉強になりました。ありがとうございます! asap2025/01/28読んでくださってありがとうございます! コメント嬉しいです!ありがとうございます! 返信を追加
masaishi2025/01/29素晴らしい記事をありがとうございます! GRPOなどの強化学習手法に関する解説も大変勉強になりました。この記事をきっかけに、DeepSeek-R1の論文にも興味を持ち、読んでみようと思えました。 一点だけ気になったことがあり、もし私の理解が誤っていたら申し訳ありません。 "コード生成やコード保管などのソフトウェアエンジニアリングタスク"の強化学習に用いられていないとありますが、論文の 2.2.2(Reward Modeling)の For LeetCode problems, a compiler can be used to generate feedback based on predefined test cases. という記述を見ると、少なくともアルゴリズム問題のコード生成には強化学習が用いられているのかなと思います。 ソフトウェアエンジニアリングタスクは強化学習していませんが、コード生成自体は行っているような気がするので、注釈などで少し補足していただけると、読者としては誤解が減って助かるかもしれません。しかし、かなり細かい点ですので、最終的には著者さまの判断にお任せいたします。 asap2025/01/29コメントありがとうございます! おっしゃる通りでした!読み間違いです。ご指摘助かります。 Due to the long evaluation times, which impact the efficiency of the RL process, large-scale RL has not been applied extensively in software engineering tasks. この部分の文章をもとに記載していましたが、大々的には適用されていないだけで、一部は学習に入っているっぽいですね。 助かります!修正もこれからさせていただきます masaishi2025/01/29ご丁寧にありがとうございます! 返信を追加
asap2025/01/29コメントありがとうございます! おっしゃる通りでした!読み間違いです。ご指摘助かります。 Due to the long evaluation times, which impact the efficiency of the RL process, large-scale RL has not been applied extensively in software engineering tasks. この部分の文章をもとに記載していましたが、大々的には適用されていないだけで、一部は学習に入っているっぽいですね。 助かります!修正もこれからさせていただきます
RyotoTanaka2025/01/30読み応えがありました。素晴らしい記事をありがとうございます! 些細な事なのですが、DPOは Direct Preference Optimization ではないでしょうか。 asap2025/01/30ほんとですね!間違えて入力してました ありがとうございます! 返信を追加
Discussion
非常にためになる骨太な記事、ありがとうございます!とても勉強になります。
ちょっとした誤字かも?の箇所なのですが、冒頭の「強化学習手法「DRPO」すごい!」の部分は「GRPO」ではないかなと思いました。ご報告まで。
読んでくださりありがとうございます!
おっしゃる通りです!修正させていただきました!
AIについてはまだ詳しくありませんが、興味はあります。同じように古いモデルを使って新しいモデルを作るのですが、蒸留方法の代わりにモデルを組み合わせることは可能でしょうか?sakana aiのようにです
モデルマージに関してはあまり詳しくないですが、基本的には同じアーキテクチャのモデルを利用することになると思います。したがってDeepSeek-R1によって蒸留されたLlamaモデルとかであれば、他のLlamaモデル(同じモデルアーキテクチャ)とモデルマージすることで、推論機能を付け加えたり、日本語機能を強化したりすることが期待できると思います。
お返事ありがとうございます。私はまだ初心者なので、これは私の軽い考えです。今では研究のプロセスごとにいくつかの方法があり、それらを組み合わせたり微調整したりすれば、たくさんのモデルができるようになっているでしょう。
Deep Seekに関する記事やニュースはたくさん目にしますが、ここまで深掘りされた内容には驚きました。とても勉強になりました。ありがとうございます!
読んでくださってありがとうございます!
コメント嬉しいです!ありがとうございます!
素晴らしい記事をありがとうございます!
GRPOなどの強化学習手法に関する解説も大変勉強になりました。この記事をきっかけに、DeepSeek-R1の論文にも興味を持ち、読んでみようと思えました。
一点だけ気になったことがあり、もし私の理解が誤っていたら申し訳ありません。
"コード生成やコード保管などのソフトウェアエンジニアリングタスク"の強化学習に用いられていないとありますが、論文の 2.2.2(Reward Modeling)の
という記述を見ると、少なくともアルゴリズム問題のコード生成には強化学習が用いられているのかなと思います。
ソフトウェアエンジニアリングタスクは強化学習していませんが、コード生成自体は行っているような気がするので、注釈などで少し補足していただけると、読者としては誤解が減って助かるかもしれません。しかし、かなり細かい点ですので、最終的には著者さまの判断にお任せいたします。
コメントありがとうございます!
おっしゃる通りでした!読み間違いです。ご指摘助かります。
この部分の文章をもとに記載していましたが、大々的には適用されていないだけで、一部は学習に入っているっぽいですね。
助かります!修正もこれからさせていただきます
ご丁寧にありがとうございます!
読み応えがありました。素晴らしい記事をありがとうございます!
些細な事なのですが、DPOは Direct Preference Optimization ではないでしょうか。
ほんとですね!間違えて入力してました
ありがとうございます!