- Kaggleなどのデータを用いてデータ分析をします。
- python 3.11 を使用しています。
- こちらからデータをダウンロードし、
宇宙版タイタニック/train.csvに配置します。 - ↑↑のデータは再配布が問題ないライセンスなので、このリポジトリ上にも配置しています。
LightGBMというモデルを変更するなく、特徴量エンジニアリングとアンサンブル学習によってモデルの精度を向上させていきます。
- 1_EDAipynb.ipynb : EDAをします
- 2_normal.ipynb : とくに工夫をしないLightGBMです
- 3_欠損値.ipynb : 欠損値を中央値や最頻値で埋めます
- 4_LightGBMによる欠損値.ipynb : LightGBMで欠損値を埋めます
- 5_特徴量追加.ipynb : 列から新しく特徴量を作り出します
- 6_クロスバリデーション.ipynb : クロスバリデーションにより、同じモデルで複数回学習させることで精度を上げます
- 7_結果の解釈:SHAP値.ipynb : SHAP値により、モデルを解釈します