“これはグッドハートの法則 (Goodhart's law):「指標は目的になったとき、良い指標ではなくなる」の一例です。”あるね、あるある

PJ_purejamPJ_purejam のブックマーク 2025/06/24 07:08

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

人間を騙してサボるAIたち - ジョイジョイジョイ

    AI の能力が上がるにつれて、人間が AI を監督するのが難しくなってきています。稿では、Anthropic などのグループが ICLR 2025 で発表した Language Models Learn to Mislead Humans via RLHF(言語モデルは R...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう