目次
Pythonデータ分析を効率化
- コード、テキスト、画像、グラフを一つのドキュメントに統合。
- データ分析や機械学習プロジェクトに最適。
- 初心者でも簡単に使い始められる。
1. インストール手順
Jupyter Notebookを pip を使っインストールする
# pipを使ったインストール
pip install notebook
インストール後、以下のコマンドで起動する
jupyter notebook
2. ハンズオンプロジェクト:データ分析の流れを学ぶ
このハンズオンでは、以下を学ぶ
- データの読み込み
- データの前処理
- 可視化
- 結果の共有
ステップ1: 必要なライブラリをインポート
まず、以下のコードを実行してライブラリをインポートします。
# ライブラリのインポート
import pandas as pd
import matplotlib.pyplot as plt
ステップ2: サンプルデータの読み込み
今回はサンプルのCSVデータを使います。以下のコードでダミーデータを生成しましょう。
# サンプルデータの作成
data = {
'名前': ['佐藤', '鈴木', '高橋', '田中', '伊藤'],
'年齢': [25, 30, 22, 35, 28],
'給与': [300, 400, 250, 500, 350]
}
df = pd.DataFrame(data)
# データを表示
print(df)
実行すると、以下のような結果が表示されます:
名前 年齢 給与
0 佐藤 25 300
1 鈴木 30 400
2 高橋 22 250
3 田中 35 500
4 伊藤 28 350
ステップ3: データの基本統計量を確認
次に、データの基本統計量を確認します。
# 基本統計量の確認
print(df.describe())
結果として、平均値や最大値、最小値が出力されます。
ステップ4: データをグラフで可視化
年齢と給与の関係を散布図で可視化します。
# 年齢と給与の散布図
plt.scatter(df['年齢'], df['給与'])
plt.title('年齢と給与の関係')
plt.xlabel('年齢')
plt.ylabel('給与(千円)')
plt.show()
ステップ5: Notebookを保存して共有
作業したNotebookは、以下の方法で共有できます:
- HTML形式でエクスポート(他人がブラウザで閲覧可能)。
- PDF形式で印刷して共有。
Jupyter Notebookメニューから「File」→「Download as」を選択し、目的の形式で保存することができる。
3. まとめ(演習)
Jpyter Notebook を利用して、ブラウザ上で実装の確認がとれた。以下のようなときに利用するとのこと。
- 機械学習や深層学習の実験
- TensorFlowやPyTorchでのモデル構築
- モデルの学習過程や評価結果をグラフで確認
- ハイパーパラメータの調整と結果比較
- プログラミングの学習
- Pythonの基本文法やライブラリ確認・演習
- アルゴリズムの動作を視覚化して理解できる
- インタラクティブにエラーを修正しながら学習できる
- プレゼンテーションやドキュメンテーション
- データ分析の結果をチームに共有できる
- 分析手順やモデルの説明資料を作成する
- グラフや画像を含むレポートを作成する
- リアルタイムでの実験・デバッグ
- 特定データセットの一部だけを処理して動作確認
- コードの出力を細かく確認してエラー箇所を特定
- データの共有とコラボレーション
- 他の人のNotebookをダウンロードして解析を再現
- Google Colabなどのクラウドサービスを使ってチームで作業
- その他の利用シナリオ
- シミュレーション
- 数値計算やシミュレーション結果を逐次確認
- 数値計算やシミュレーション結果を逐次確認
- ウェブ開発の試行
- FlaskやDjangoのスニペットコードをテスト
- FlaskやDjangoのスニペットコードをテスト
- 多言語サポート
- Pythonだけでなく、R、Juliaなどの言語カーネルを利用可能
- シミュレーション
Jupyter Notebookは「実験的なプログラミング」や「結果を説明・可視化する作業」に特に適しており
データサイエンスやAIの分野で広く使われているとのことです。