ニューラル機械翻訳

CNN（畳み込みニューラルネットワーク）、RNN（再帰型ニューラルネットワーク）、Transformerはすべてニューラル機械翻訳（NMT: Neural Machine Translation）に関係があります。ただし、それぞれの役割や適用方法が異なります。

役割: 時系列データ（文章などのシーケンス）を処理するために使われる。
使用例:
- Encoder-Decoder モデル（RNN → RNN）
- Seq2Seq モデル（Sequence-to-Sequence）
特徴:
- 自然言語の単語順序を考慮できる
- 記憶が短期的になりがち（長文に弱い）
- 計算が直列（並列処理が難しい）
発展形: LSTM（Long Short-Term Memory）、GRU（Gated Recurrent Unit）
→ 長期依存関係の学習を改善

📝 RNNは、初期のニューラル機械翻訳でよく使われたが、長文に弱く、計算効率も悪いため現在はあまり使われない。

役割: 画像認識が得意だが、NLPでは単語の特徴抽出に利用されることがある。
使用例:
- 文章のエンコード: テキストの局所的な特徴（n-gram的な情報）を抽出する
- CNN-based Encoder（FacebookのFairseqなど）
特徴:
- 計算が並列処理しやすく、高速
- 文章全体の特徴を効率的に学習可能
- ただし、文脈を考慮するのが苦手（時系列の順番を意識できない）

📝 CNNはニューラル機械翻訳に単独で使われることは少ないが、RNNやTransformerと組み合わせることがある。

役割: 自然言語処理全般に使われるモデルで、現在のニューラル機械翻訳（NMT）の主流。
使用例:
- Google の Transformer（2017）
- BERT, GPT, T5, MarianMT など
- 翻訳モデル: DeepL, Google翻訳, Facebook NMT
特徴:
- 自己注意機構（Self-Attention） により、文中のどの単語が重要かを学習する
- RNNのように時系列処理せず、並列計算が可能で高速
- 文脈を長距離でも学習可能
- 現在のほぼすべての最新翻訳モデルはTransformerベース

📝 Transformerはニューラル機械翻訳の最適解とされ、Google翻訳やDeepLなどの翻訳システムもこの技術を採用している。

現代のNMTでは、Transformerを基本として、BERT・T5・GPT などの派生モデルが活用されている。