RNNの 強み・弱み を分析
🔍 RNN の限界と結論
今回の実験結果から、RNN(LSTM)のみでは 45% の
Validation Accuracy を達成するのが難しい という結論になります。
📌 その理由
- LSTM は時系列データの長距離依存性を学習するのが得意だが、局所的な特徴をうまく捉えられない
- 音声データは 短い時間での変化(局所的特徴)が重要 だが、LSTM 単体ではそれを捉えるのが難しい。
- RNN(LSTM)のみでは、十分な表現力を得るのが難しい
- LSTM のユニット数を増やしても、精度は大きく向上しなかった。
- Bidirectional LSTM も試したが、期待した精度には届かなかった。
- 過学習していないが、精度の伸びが悪い
- Validation Loss(検証損失)と Training Loss(訓練損失)の差が小さい → 過学習はしていない。
- それでも 26% 付近で精度が停滞 → モデルの表現力不足が原因。
✅ 結論
🔹 RNN(LSTM)のみでは、Validation Accuracy 45% を超えるのは難しい
🔹 次のステップとして CNN を組み合わせたモデル(CNN + LSTM)に移行するのが妥当
🔹 音声データの特徴抽出に CNN を導入することで、局所的な特徴も学習できる
🔜 次のアクション
- 05_01_model_training_RNN の学習はここで終了
- 05_02_model_evaluation_RNN に進み、現状の RNN モデルの評価を実施
- 次の学習(CNN + LSTM)で、さらなる精度向上を目指す
💡 まとめ
「RNN(LSTM)だけでは 45% の精度に到達できなかった」
しかし、これは 音声認識の一般的な傾向 でもあり、CNN や Transformer との組み合わせが必須 であることを確認できた。
次の CNN + LSTM の学習に進むのが最適な判断 です!