このプロジェクトは、Streamlit を使ってデータの可視化、加工、機械学習モデルの学習および予測を行うWebアプリケーションです。特に、データの前処理や機械学習の結果分析を簡単に行えるように構築されています。
-
データ選択と可視化:
- 様々なデータセット(乳がんデータ、糖尿病データ、数学の成績データなど)から選択し、可視化できます。
-
データ加工:
- 外れ値や欠損値の検出および処理が可能です。
- データの正規化やカテゴリ変数の数値化などの前処理をサポートしています。
-
機械学習モデルの学習:
- 様々な機械学習アルゴリズムを使用してデータを学習させ、モデルを最適化します。
- 最適なモデルパラメータの探索も行います。
-
未知データの予測:
- 学習済みモデルを使って、未知データの予測を行うことができます。
- ユーザーが直接データを編集して、予測を試すことが可能です。
-
XAI(Explainable AI)による予測根拠の分析:
- SHAP値を用いて、モデルの予測結果に対する説明を行います。
以下の手順に従って、このアプリケーションをローカル環境でセットアップしてください。
- Python 3.7 以上
- pip で必要なライブラリをインストールします。
-
リポジトリのクローン:
git clone <このリポジトリのURL> cd <クローンしたフォルダ>
-
依存関係のインストール: 必要なPythonパッケージをインストールするには、以下のコマンドを使用します。
poetry install
-
アプリケーションの実行: Streamlit サーバーを起動するために、以下のコマンドを実行します。
streamlit run main.py
-
ブラウザでアプリケーションにアクセス: Streamlit がサーバーを起動したら、通常は自動的にブラウザが開きます。開かない場合は、ブラウザで以下のURLにアクセスしてください。
http://localhost:8501
- データセットを選択し、「データを読み込む」をクリックしてデータを読み込みます。
- 読み込んだデータの概要や可視化が自動的に表示されます。
- 外れ値や欠損値の処理、データの正規化が可能です。
- データをトレーニング・テストに分割します。
- 学習させるモデルを選択し、モデル最適化を行います。
- 最適なパラメータでモデルの学習を行い、結果を表示します。
- 編集したデータや新しいデータを使って、学習済みモデルで予測を行います。
- 学習済みモデルの予測根拠をSHAP値を使って可視化します。
このアプリケーションは、以下のデータセットをサポートしています。
- 乳がんデータセット
- 糖尿病データセット
- アヤメデータセット
- ワインデータセット
- 数学の成績データセット
何か問題が発生したり、新機能のリクエストがある場合は、Issue セクションを通して報告してください。
このプロジェクトへの貢献は大歓迎です。プルリクエストを送る際には、事前にIssueを作成して提案をしてください。
このプロジェクトは MITライセンス のもとで公開されています。