ペアプロット可視化について

ペアプロットの目的

1. 変数間の相関関係を確認

  • ペアプロットでは、各変数の散布図が表示されるため、目的変数(y)と説明変数(x)の関係性を視覚的に把握できます。
  • 線形な相関が見られる変数があれば、回帰モデルに適用しやすい。
  • 逆に、相関がない変数は、モデルに大きな影響を与えない可能性があるため、特徴量選択の指標になります。

2. 正規分布に近い変数を探す

  • ペアプロットでは、各変数のヒストグラム(対角線上のプロット)も表示されるため、正規分布に近い特徴量を確認できます。
  • 線形回帰モデルは、正規分布の特徴量を前提とすることが多いため、非正規分布の変数があれば、対数変換(log transform)やBox-Cox変換を行うことでモデルの精度が向上する可能性があります。

3. 外れ値の検出

  • 散布図の中に極端に離れたデータ点(外れ値)があるかを確認できます。
  • 外れ値はモデルの学習に悪影響を与える可能性があるため、IQR(四分位範囲)法や標準偏差を用いて除去するか、ロバストスケーリングを適用することができます。

4. 変数間の非線形関係を発見

  • 線形回帰では直線的な関係性が重要ですが、ペアプロットを確認することで、非線形な関係(曲線のような分布) を持つ変数を発見できます。
  • こうした場合、多項式特徴(Polynomial Features) を導入すると、精度向上が期待できます。