RNNの 強み・弱み を分析

RNNの 強み・弱み を分析


🔍 RNN の限界と結論


今回の実験結果から、RNN(LSTM)のみでは 45% の
Validation Accuracy を達成するのが難しい という結論になります。


📌 その理由

  1. LSTM は時系列データの長距離依存性を学習するのが得意だが、局所的な特徴をうまく捉えられない
    • 音声データは 短い時間での変化(局所的特徴)が重要 だが、LSTM 単体ではそれを捉えるのが難しい。
  2. RNN(LSTM)のみでは、十分な表現力を得るのが難しい
    • LSTM のユニット数を増やしても、精度は大きく向上しなかった
    • Bidirectional LSTM も試したが、期待した精度には届かなかった
  3. 過学習していないが、精度の伸びが悪い
    • Validation Loss(検証損失)と Training Loss(訓練損失)の差が小さい → 過学習はしていない。
    • それでも 26% 付近で精度が停滞 → モデルの表現力不足が原因。

✅ 結論

 🔹 RNN(LSTM)のみでは、Validation Accuracy 45% を超えるのは難しい
 🔹 次のステップとして CNN を組み合わせたモデル(CNN + LSTM)に移行するのが妥当
 🔹 音声データの特徴抽出に CNN を導入することで、局所的な特徴も学習できる


🔜 次のアクション

  1. 05_01_model_training_RNN の学習はここで終了
  2. 05_02_model_evaluation_RNN に進み、現状の RNN モデルの評価を実施
  3. 次の学習(CNN + LSTM)で、さらなる精度向上を目指す

💡 まとめ

「RNN(LSTM)だけでは 45% の精度に到達できなかった」
しかし、これは 音声認識の一般的な傾向 でもあり、CNN や Transformer との組み合わせが必須 であることを確認できた。


次の CNN + LSTM の学習に進むのが最適な判断 です!