モデルの評価(混同行列・精度)

モデルの評価(混同行列・精度)

🔍 混同行列(Confusion Matrix)とは?

混同行列(Confusion Matrix) とは、分類問題においてモデルの予測結果を詳細に分析するための表のことです。
縦軸に 「正解のラベル(True Label)」 を、横軸に 「予測されたラベル(Predicted Label)」 を配置し、それぞれのクラスごとにどれだけ正しく分類できたか、または間違えたかを可視化するのに役立ちます。


📌 混同行列の構造

以下のような10クラス分類の混同行列を考えます。

True \ Pred0123456789
02142312571640043
1420227637632008
2070105835116151625
3188416329986003
42440757162824022
51046340292441005
6313718100212070367
73816862381267181312
810525955113301723118
941571154388160136
  • 対角線上の値(例:0 → 0, 1 → 1, 2 → 2) が多いほど正しく分類できていることを示します。
  • 対角線以外の値 が多いと、そのクラスの予測が間違っていることを示します。

📊 RNN, CNN+LSTM, Transformer の比較

🔹 精度 (Accuracy) & 損失 (Loss) の比較

モデルTest AccuracyTest Loss
RNN0.32301.9327
CNN+LSTM0.39901.6937
Transformer0.39401.6956

✅ CNN+LSTM が最も高い精度 (0.3990) を記録し、Transformer もほぼ同じ性能 (0.3940) を達成しました。
⛔ RNN は最も精度が低く (0.3230)、損失 (1.9327) も高いため、最適とは言えません。


🔹 クラス別の精度指標(Precision / Recall / F1-score)

モデルPrecisionRecallF1-score
RNN0.41560.32300.2977
CNN+LSTM0.38900.39400.3886
Transformer0.38900.39400.3886
  • Recall(再現率) の観点では、CNN+LSTMとTransformerがRNNより優れている
  • Precision(適合率) では、RNNがわずかに高いが、バランスが悪い

🔹 各モデルの特性と課題

モデルメリットデメリット
RNN– 計算コストが低い(学習が速い) – シンプルな構造で実装が簡単– 時系列データの長期依存関係を捉えにくい – 精度が低い(32%程度)
CNN+LSTM– CNN で局所的な特徴を学習し、LSTM で時系列情報を考慮 – 高い精度を記録(約40%)– 計算コストが高い – Transformer ほどの汎用性がない
Transformer– 長期依存関係を学習できる – 学習データが増えると性能向上が期待できる– 計算コストが高い(GPUが必要) – 小規模データでは CNN+LSTM に比べて優位性が少ない

🔍 結論

✅ 最も有用なモデルは CNN+LSTM

理由

  1. テスト精度が最も高い(Test Accuracy: 0.3990)
  2. 損失 (Test Loss) も最小(1.6937)
  3. クラスごとの識別性能(Precision / Recall)がバランス良い
  4. 計算コストと性能のバランスが良い

🚀 CNN+LSTM がベストな選択肢となるが、今後の改良ポイント

  • データ量が増えた場合、Transformer の方が有利になる可能性がある
  • ハイブリッドモデル(CNN+Transformer)を試す価値がある
  • データの前処理(データ拡張)を改善し、さらなる精度向上を狙う

📌 次のステップ

  1. CNN+LSTM を最終モデルとして、デプロイの準備
  2. データ前処理やパラメータの微調整でさらなる精度向上
  3. 学習済みモデルをエクスポートし、実際のアプリケーションに組み込む

🔹 まとめ

  • 混同行列(Confusion Matrix) は、分類モデルの誤分類の傾向を視覚的に分析するための重要なツール。
  • CNN+LSTM が最も有用 なモデルであることが確認された。
  • 今後の改良点 として、データの増強、ハイブリッドモデル(CNN+Transformer)の検討、最適なハイパーパラメータの調整 などが挙げられる。