2025-02-02

anond:20250202122040

翻訳AI公的データライセンスされたコーパスを使ってる。

今は対訳コーパスウェブクローリングして作るのが主流。ネットから無差別データをかき集めて、自動処理で対訳部分を抽出する。

代表的な公開データセットとしては、CCMatrixプロジェクトやParaCrawlプロジェクトがよく知られている。論文が登場し始めたのは2020年からだろうか。

増田はおそらく「Wikipedia日英京都関連文書対訳コーパス」みたいな、人手で作成されたコーパスを思い浮かべているのだろう。こうしたデータは今でも重要ではあるものの、量が圧倒的に不足しており、十分な性能を引き出すには不十分なのが現状。

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん