サクサク読めて、アプリ限定の機能も多数!
人間もマイナスのインセンティブを学習するとなんとか誤魔化して切り抜けようとするからな。
dgen のブックマーク 2025/06/24 16:46
人間を騙してサボるAIたち - ジョイジョイジョイ人間もマイナスのインセンティブを学習するとなんとか誤魔化して切り抜けようとするからな。2025/06/24 16:46
このブックマークにはスターがありません。 最初のスターをつけてみよう!
joisino.hatenablog.com2025/06/23
AI の能力が上がるにつれて、人間が AI を監督するのが難しくなってきています。本稿では、Anthropic などのグループが ICLR 2025 で発表した Language Models Learn to Mislead Humans via RLHF(言語モデルは R...
607 人がブックマーク・96 件のコメント
\ コメントが サクサク読める アプリです /
人間もマイナスのインセンティブを学習するとなんとか誤魔化して切り抜けようとするからな。
このブックマークにはスターがありません。
最初のスターをつけてみよう!