id:hkdn そういう話じゃないと思う…。人間(に近似した評価用モデル)からGoodをもらえた出力の傾向に強化された結果であって、「節約しよう」とかそいう「意図」は必要ない|人間の脳は現象に意図を見出そうとしすぎる

nikunonamaenikunonamae のブックマーク 2025/06/24 15:23

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

人間を騙してサボるAIたち - ジョイジョイジョイ

    AI の能力が上がるにつれて、人間が AI を監督するのが難しくなってきています。稿では、Anthropic などのグループが ICLR 2025 で発表した Language Models Learn to Mislead Humans via RLHF(言語モデルは R...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう