翻訳AIは公的なデータやライセンスされたコーパスを使ってる。
今は対訳コーパスもウェブをクローリングして作るのが主流。ネットから無差別にデータをかき集めて、自動処理で対訳部分を抽出する。
代表的な公開データセットとしては、CCMatrixプロジェクトやParaCrawlプロジェクトがよく知られている。論文が登場し始めたのは2020年頃からだろうか。
増田はおそらく「Wikipedia日英京都関連文書対訳コーパス」みたいな、人手で作成されたコーパスを思い浮かべているのだろう。こうしたデータは今でも重要ではあるものの、量が圧倒的に不足しており、十分な性能を引き出すには不十分なのが現状。
Permalink | 記事への反応(0) | 13:55
ツイートシェア