サクサク読めて、アプリ限定の機能も多数!
“これはグッドハートの法則 (Goodhart's law):「指標は目的になったとき、良い指標ではなくなる」の一例です。”あるね、あるある
PJ_purejam のブックマーク 2025/06/24 07:08
人間を騙してサボるAIたち - ジョイジョイジョイ“これはグッドハートの法則 (Goodhart's law):「指標は目的になったとき、良い指標ではなくなる」の一例です。”あるね、あるある2025/06/24 07:08
このブックマークにはスターがありません。 最初のスターをつけてみよう!
joisino.hatenablog.com2025/06/23
AI の能力が上がるにつれて、人間が AI を監督するのが難しくなってきています。本稿では、Anthropic などのグループが ICLR 2025 で発表した Language Models Learn to Mislead Humans via RLHF(言語モデルは R...
607 人がブックマーク・96 件のコメント
\ コメントが サクサク読める アプリです /
“これはグッドハートの法則 (Goodhart's law):「指標は目的になったとき、良い指標ではなくなる」の一例です。”あるね、あるある
このブックマークにはスターがありません。
最初のスターをつけてみよう!