世界中の言葉をつなぐ魔法のイヤホン
みなさんは、外国の人と話したことがありますか?日本語が通じなくて困ったことはありませんか?もし、あなたの耳元で「こんにちは」と言ったことばが、相手の耳には「Hello」や「Bonjour」や「你好」と聞こえる魔法のイヤホンがあったら、どんなに便利でしょう!
実は科学者たちは、『銀河ヒッチハイク・ガイド』という物語に出てくる「バベルの魚」のような、どんな言語でも翻訳できる道具を作ろうとしています。それが今回紹介するSEAMLESSM4T(シームレスエムフォーティー)という技術です。
今までの翻訳の問題点:いくつもの機械が必要だった
今までの音声翻訳は、さまざまな機械をつなげて作る必要がありました。例えるなら、レゴブロックをいくつもつなげて長い橋を作るようなものです。
まず「音声を文字に変える機械」、次に「その文字を別の言語に翻訳する機械」、最後に「翻訳した文字を音声に変える機械」という3つの機械を順番につなぐ必要がありました。
これには3つの問題点がありました:
- たくさんの少数言語が対応されていませんでした
- 多くの翻訳機は外国語から英語への翻訳はできても、英語から外国語への翻訳は苦手でした
- 機械をたくさんつなげると、間違いが積み重なってしまいます
図1の説明: これは魔法のイヤホンの中身です。上の左側はUNITY2という音声から音声への翻訳を改良する部分、下の左側はさまざまな翻訳タスクができるようにする部分、右側は全体の構造を示しています。側面のパネルは先生モデル(M4)が生徒モデルに教えている様子です。
SEAMLESSM4Tの特徴:一つの機械ですべての翻訳ができる!
科学者たちは、一つの機械ですべての翻訳ができるSEAMLESSM4Tを開発しました。これは、万能ナイフのように、一つの道具でいろいろなことができるすごい技術です!
このシステムは以下のことができます:
- 音声から音声への翻訳(101言語から36言語へ)
- 音声からテキストへの翻訳(101言語から96言語へ)
- テキストから音声への翻訳(96言語から36言語へ)
- テキストからテキストへの翻訳(96言語の間で)
- 自動音声認識(96言語)
例えば、あなたが日本語で話しかけたら、それを英語やフランス語、中国語など、さまざまな言語に翻訳できるのです!まるで、ドラえもんの「ほんやくコンニャク」のような道具が現実になったようですね。
どうやって作ったの?:たくさんの声を集めて学習
では、この魔法のような技術はどうやって作られたのでしょうか?
科学者たちは、まず470,000時間もの音声データを集めました!これは、約54年間ずっと聞き続けるくらいの量です。想像してみてください。幼稚園に入る前から聞き始めて、おじいちゃん・おばあちゃんになるまで聞き続けるくらいです!
そして、SONARという特別な技術を使って、これらの音声とテキストを正しくペアにしました。例えるなら、体育館いっぱいのくつがバラバラになっていて、それを正しい左右のペアにそろえるような大変な作業です。
その後、コンピューターに特訓をさせて、さまざまな言語間の翻訳ができるように学習させました。これは、世界中の言葉を話せるようになるために何年も勉強するようなものです。でも、コンピューターはとても速く学習できるので、人間よりもたくさんの言語を覚えることができるのです!
どれくらい上手に翻訳できるの?:今までで一番優秀!
SEAMLESSM4Tは、今までの翻訳システムよりもずっと優れています。テストの点数で例えると、従来のシステムが70点だとしたら、SEAMLESSM4Tは80〜90点も取れるようなものです!
特に、音声から音声への翻訳では、従来のシステムより23%も正確になりました。また、音声からテキストへの翻訳でも、8%も正確になっています。
さらにすごいのは、雑音に強いということです。例えば、うるさい場所で話しても、以前のシステムよりも約50%も正確に翻訳できます。また、様々な人の声(男性、女性、子供など)にも対応できるのです。
図2の説明: この表は、SEAMLESSM4Tと他のシステムが対応している言語数と翻訳タスクを比較しています。SEAMLESSM4Tは音声入力で101言語、テキスト入力で96言語をサポートしており、他のどのシステムよりも多くの言語に対応しています。
翻訳の安全性:悪い言葉を訳さないように工夫
科学者たちは、翻訳システムが悪い言葉や差別的な表現を訳さないようにする工夫もしました。例えるなら、給食に入れてはいけないアレルギー物質をしっかりチェックするようなものです。
具体的には、2つの方法を使いました:
- 学習するときに、悪い言葉が含まれるデータを取り除く
- 実際に翻訳するときに、悪い言葉が出てきそうになったら別の言葉に置き換える
また、男性と女性の表現に偏りがないようにする実験も行いました。例えば「医者」と言ったときに、必ず「男性の医者」と訳さないように気をつけているのです。
この研究はなぜスゴイの?:世界中の人々がつながるために
この研究が特にすごいのは、世界中の人々がもっと簡単に会話できる可能性を広げたことです。今、世界では6,500以上の言語が話されていますが、このシステムは100以上の言語をカバーしています。
特に、今までの翻訳システムが対応していなかった少数言語(世界であまり話されていない言語)にも対応しているのは大きな進歩です。例えば、スワヒリ語やベンガル語などの翻訳の精度が大幅に向上しました。
また、障がいのある人にとっても便利です。目の不自由な人や、読み書きが苦手な人でも、音声だけで外国語とコミュニケーションができるようになります。
図3の説明: この表は、言語をリソースの量(話者数や学習データの量)で分けて、翻訳精度を比較しています。SEAMLESSM4T-V2は特に少数言語(Low)で大きな改善を示しており、BLEU点数が18.0から28.2へと57%も向上しています。
まとめ:この研究でわかったこと
- 一つのモデルで様々な翻訳タスク(音声→音声、音声→テキスト、テキスト→音声、テキスト→テキスト)ができるようになりました。
- 101言語の音声入力と96言語のテキスト入力に対応し、36言語の音声出力と96言語のテキスト出力ができます。
- 従来のシステムより最大23%も正確に翻訳できるようになりました。
- 雑音に強く、様々な話者の声に対応できます。
- 悪い言葉や差別的な表現を訳さないように工夫されています。
- 特に少数言語の翻訳精度が大幅に向上しました。
この研究は、まるで『銀河ヒッチハイク・ガイド』に出てくる「バベルの魚」のようなものを現実の世界に近づけた一歩です。将来、あなたが外国を旅行するときには、このような技術を使って、どんな国の人とも自由に会話ができるかもしれませんね!
原論文の引用情報
SEAMLESS Communication Team. (2025). Joint speech and text machine translation for up to 100 languages. Nature, 637, 587–593. https://doi.org/10.1038/s41586-024-08359-z