はてなキーワード: 産地偽装とは
増田です。 DMM傘下のAlgomaticが提供していた「にじボイス」がサシュウを発表した。
プレスリリースには「法的な権利侵害はなかった」「パラメータ調整の結果、偶然似てしまった」などと書かれているが、これを真に受けている人は少し冷静になったほうがいい。
「日本の法律では学習は合法だ!」「日俳連の圧力に屈した!」と騒ぐ擁護派もいるが、今回の件はそんな単純な話じゃない。
これは「AI技術の敗北」ではなく、「ある企業が吐いた嘘と、杜撰なデータ管理が露呈して自爆した」というだけの話だ。
盲目的に企業を擁護する前に、技術的な事実関係の「答え合わせ」をしておこう。
なお、あくまで技術的な根拠を示しているだけであって、問題があると断言できないことは断っておく。
まず、擁護派が盾にする「著作権法30条の4」について。 確かに今の日本の法律では「情報解析」が目的ならば、元データが何であれ(おそらくエロゲーから音声を抽出したデータセット『moe-speech』であっても)、それをAIに食わせてAIモデルを作るだけなら、一応は適法とされている。 そこだけ切り取れば、違法ではないと言い張れる余地はある。
Algomaticが行っていたのは、一般的な基盤学習にとどまらず、「特定のキャラクター(=特定の声優)を狙い撃ちしたFine-tuning(追加学習)」である疑いが極めて濃厚だという点だ。
『moe-speech』は、親切なことにキャラごと(声優ごと)にフォルダ分けされている。 ここから特定のフォルダを選んで、「その声優の声質や演技の癖」を再現するために個別学習(Fine-tuning)を行う。 これはもはや「データの統計解析」ではない。特定個人の実演の「デッドコピー(模倣品)の作成」だ。 これをやると、生成された音声には明白な「依拠性」が生まれる。つまり「パラメータ調整で偶然似た」のではなく、「その声優のデータを意図的に使って似せた」ことになる。これはパブリシティ権や人格権の侵害に問われる可能性が極めて高いラインだ。
Algomaticは「適切な権利処理を行った」「声優から許諾を得た」「パラメータ調整で作った」と主張していた。
しかし、有志による技術検証によって、その主張と矛盾する証拠がいくつも出てきている。
「にじボイス」の音声を分析すると、キャラによって音量が不均一だったり、明らかに古い年代のマイクで録ったような「こもった音」が混在していることが判明している。 もし公式が言うように「統一されたスタジオでプロを呼んで新規収録」したなら、こんな品質のバラつきが出るはずがない。 これは、録音環境も年代も異なるバラバラのゲームデータ(moe-speech等)を寄せ集めたと考えるのが自然だ。
検証の結果、有名声優の声と音声の特徴量が「ほぼ本人」レベルで一致するキャラが多数発見されている。 「パラメータ調整で偶然似た」と言うが、声の高さや速度はいじれても、その人特有の「骨格からくる響き」や「微細な演技の癖」まで偶然一致することは、AIでもまずまずあり得ない。 元データとして「その人の声」を食わせない限り、ここまでの再現は不可能だ。
これも動かぬ証拠だ。 元ネタの『moe-speech』には、作成者の抽出ミスで「幼い女の子の祖父の声(老人男性)」に、誤って「幼女(女性声優)」のタグが付いているという有名な汚れ(エラー)がある。
これを踏まえて、にじボイスに実装されていた「ある老人キャラ」の声を解析モデルにかけると、どうなるか。 なんと、「この老人の声は、〇〇(特定の女性声優)である」という判定が出たのだ。
意味がわかるだろうか? にじボイスのモデルは、「このおじいちゃんのダミ声=あの女性声優の声だ」という、moe-speech特有の「間違った知識」を学習していたということだ。
もしAlgomaticが主張するように、スタジオで老人役の声優を収録したなら、そのデータに「女性声優」のタグが付くわけがない。 これは、「タグ付けミスすら直されていないネット上のデータを、中身の検品もせずにそのまま学習させた」という、言い逃れのできない証拠(トレーサビリティ)になってしまっている。
今回のサービス終了は、日俳連の理不尽な圧力によるものではない。
「自社開発」と謳っておきながら、実際はネットのデータを検品もせずに流用していた事実が、技術的な証拠によって明るみに出そうになったため、これ以上の追及を避けるために店を畳んだ。
そう見るのが妥当だ。
「AI推進派」を自認する人たちにこそ言いたい。 もし本当にAIの発展を願うなら、こうした「産地偽装」のような振る舞いをする企業を擁護してはいけない。
それは真面目にコストを払い、権利処理を行い、クリーンなデータセットを構築しようとしている技術者への冒涜であり、ひいてはAI技術そのものの社会的信用を地に落とす行為だ。
「AIだから何でも許される」わけではない。 技術は魔法ではないし、嘘はいつか必ずバレる。
今回の件を「可哀想なAIベンチャーがいじめられた」と総括するのは、あまりにも事態の本質を見誤っている。
以上。
産地偽装より酷いモンなんぞ見とうないわ