表格类数据预测的机器学习自动化框架,只需几行代码解决预测问题。
- 有监督学习的多表联合的数据预测类型问题(分类、回归)
- 配置式自动化读取、预处理数据
- 配置式自动化特征工程
- 配置式自动化机器学习模型训练、调参、预测
git clone https://gitee.com/zhongshijie/tabular_forecast
cd tabular_forecast
pip install -r requirements.txt
- 感谢依赖打包项目:pipreqs
- 相关核心开源项目:featuretools、 MLBox、dask
vi ./settings/Run_Val.py
结合注释:
- 根据需要编辑
1. 日志配置
- 根据需要编辑
2. 性能配置
vi ./settings/Data_Fun.py
- 结合对数据情况的掌握,开发合适的函数,用于在
数据参数配置
中进行使用,例如:明确已经的错误数据替换。
vi ./settings/Data_Val.py
结合注释:
- 根据需要编辑
1. 参数配置
- 根据需要编辑
2. 调教配置
python ./Main.py
程序将全自动完成数据读取、特征工程、训练、预测,运行完成后,你可以根据配置参数中设置的预测结果路径来获得预测结果。
项目本身已经处于配置完成状态,针对内容为:Kaggle | Competitions | Home Credit Default Risk,做了如下处理,你可以作为参考:
- 准备工作
- 确定数据目录,分析各项必备内容:
- 源数据目录(读):
D:\\99_Data\\02_home-credit-default-risk
- 分块数据目录(写):
D:\\99_Data\\02_home-credit-default-risk-partitions
- 标签列名:
TARGET
- ...
- 源数据目录(读):
- 确定数据目录,分析各项必备内容:
- 自定义函数开发(
./settings/Data_Fun.py
)- 根据数据分析,开发了如下自定义函数:
- merge_for_sk_id
- set_idx
- 根据数据分析,开发了如下自定义函数:
- 运行参数配置
- 根据自己的调试需要和性能需求设置:
log_level = 'DEBUG'
split = 2000
- 根据自己的调试需要和性能需求设置:
- 数据参数配置
- 将
1.准备工作
和2.自定义函数开发
的相应内容进行填写dp = 'D:\\99_Data\\02_home-credit-default-risk'
sp = ['feature_matrix_article.csv', 'HomeCredit_columns_description.csv', 'sample_submission.csv', 'p.csv']
rs = {6365243: np.nan}
- ...
- 将