翻訳AIは公的なデータやライセンスされたコーパスを使ってる。今は対訳コ..

はてな匿名ダイアリー

2025-02-02

■anond:20250202122040

翻訳 AIは公的なデータやライセンスされたコーパスを使ってる。

今は対訳コーパスもウェブをクローリングして作るのが主流。ネットから無差別にデータをかき集めて、自動処理で対訳部分を抽出する。

代表的な公開データセットとしては、CCMatrixプロジェクトやParaCrawlプロジェクトがよく知られている。論文が登場し始めたのは2020年頃からだろうか。

増田はおそらく「Wikipedia日英京都関連文書対訳コーパス」みたいな、人手で作成されたコーパスを思い浮かべているのだろう。こうしたデータは今でも重要ではあるものの、量が圧倒的に不足しており、十分な性能を引き出すには不十分なのが現状。

Permalink | 記事への反応(0) | 13:55

記事への反応 -

記事への反応（ブックマークコメント）

permalink Twitterでシェア Facebookでシェア

人気エントリ

注目エントリ

ようこそゲストさん