欢迎来到 Statsmodels 统计建模教程!这是一个通俗易懂、内容丰富的中文教程。
Statsmodels 是 Python 中最强大的统计建模库之一,它让你能像专业统计学家一样分析数据。本教程将用生活化的语言和丰富的例子,帮你轻松掌握统计建模。
场景1:预测销售额
- 你是电商运营,想知道下个月销售额会是多少
- Statsmodels 帮你分析历史数据,建立预测模型
- 就像天气预报,根据过去的规律预测未来
场景2:分析因素影响
- 你想知道:广告投入、价格、季节对销售的影响有多大?
- Statsmodels 告诉你:广告费每增加1万,销售额增加5万
- 就像医生诊断,找出病因和症状的关系
场景3:时间序列预测
- 股票价格、网站流量、用户增长都是时间序列
- Statsmodels 帮你发现趋势、季节性、周期性
- 就像看股票K线图,发现涨跌规律
-
- 什么是统计建模?
- Statsmodels 能做什么?
- 安装和环境配置
- 第一个例子:房价预测
-
- endog、exog 是什么意思?
- 两种 API:标准 API vs 公式 API
- R 风格公式语法详解
- 常见陷阱和最佳实践
-
- 简单线性回归和多元线性回归
- 最小二乘法(OLS)原理
- 模型诊断:残差分析、R²、VIF
- 问题诊断和解决方案
- 实战:工资预测、房价分析
-
- GLM 三要素:随机成分、系统成分、连接函数
- Logistic 回归:客户流失预测(1000样本)
- Poisson 回归:网站点击预测
- 模型评估:混淆矩阵、ROC曲线、AUC
-
- 固定效应 vs 随机效应
- 层次数据分析:学生成绩(10个班级)
- 重复测量数据:减肥跟踪(20人×6周)
- 随机截距和随机斜率模型
- ICC(组内相关系数)
-
- 稳健回归(M-估计):Huber、Tukey、Ramsay
- 加权最小二乘(WLS):处理异方差
- 分位数回归:预测条件分位数
- 实战:异常值处理、工资分布分析
- 第06章:时间序列分析
- 时间序列组成:趋势、季节性、周期、噪声
- 平稳性检验(ADF检验)和差分
- ARIMA 模型:ACF/PACF、参数选择
- SARIMA:季节性 ARIMA
- 实战:航空乘客预测、股票价格分析
-
- Logit vs Probit:二元选择
- Multinomial Logit:多元无序选择(交通方式)
- Ordered Logit:有序选择(满意度评分)
- 风险比(Odds Ratio)解释
- 实战:信用卡违约预测(2000样本)
-
- 假设检验框架:H0、H1、p值、α
- t检验:单样本、两独立样本、配对样本
- 方差分析(ANOVA)和事后检验
- 卡方检验:分类变量关联
- 非参数检验:Mann-Whitney、Wilcoxon、Kruskal-Wallis
- 实战:新药效果检验、教学方法比较
-
- 核密度估计(KDE):估计概率分布
- LOWESS 平滑:非线性关系拟合
- 核回归:Nadaraya-Watson
- Bootstrap:重抽样推断
- 排列检验:无假设的假设检验
- 实战:收入分布估计、年龄-血压关系
-
- 生存函数、风险函数、删失
- Kaplan-Meier 估计:生存曲线
- Log-rank 检验:两组比较
- Cox 比例风险模型:多因素分析
- 风险比(HR)解释和预测
- 实战:癌症患者生存分析、新药临床试验
-
- 主成分分析(PCA):降维和可视化
- 因子分析:识别潜在因子结构
- 聚类分析:K-means、层次聚类
- 多元方差分析(MANOVA)
- PCA vs 因子分析对比
- 实战:学生成绩综合评价、客户细分、心理测验
- 第00章:了解 Statsmodels 和统计建模
- 第01章:掌握基础概念(endog/exog、API)
- 第02章:学会线性回归(最基础的模型)
- 第08章:统计检验(理解假设检验)
- 第03章:广义线性模型(分类问题)
学完可以做什么:预测房价、分析销售数据、客户流失预测
- 第00-01章:基础准备
- 第02章:线性回归基础
- 第06章:时间序列分析(核心重点)
- ARIMA、SARIMA、季节分解
- 第08章:统计检验(模型诊断)
- 第09章:非参数方法(灵活建模)
学完可以做什么:股票预测、销售预测、网站流量预测
- 第00-02章:基础和线性回归
- 第03章:广义线性模型(分类和计数)
- 第07章:离散选择模型(用户行为)
- 第04章:混合效应模型(层次数据)
- 第08章:统计检验(A/B测试)
- 第10章:生存分析(客户留存)
- 第11章:多元统计(降维和聚类)
学完可以做什么:全面的数据分析、建模、预测和洞察
- 第00-02章:回归基础
- 第04章:混合效应模型(重复测量)
- 第08章:统计检验(实验设计)
- 第10章:生存分析(临床试验)
- 第11章:多元统计(因子分析)
学完可以做什么:临床试验分析、实验数据分析、问卷设计验证
- 第00-02章:基础和回归
- 第03章:Logistic回归(客户流失)
- 第07章:离散选择(用户决策)
- 第08章:统计检验(A/B测试)
- 第11章:聚类分析(客户细分)
学完可以做什么:客户分析、营销效果评估、用户画像
# ❌ 官方文档的写法(专业但难懂)
# "endog is the endogenous variable, exog is the exogenous variable"
# ✅ 本教程的解释(生活化)
# endog = 你想预测的目标(因变量)
# 比如:房价、销售额、股票价格
# exog = 用来预测的特征(自变量)
# 比如:房子面积、广告费用、历史价格- 每个概念都有生活化类比
- 每个方法都有完整代码示例
- 每章都有实战项目
- 从简单到复杂
- 从理论到实践
- 从概念到代码
- 聚焦真实业务场景
- 提供完整的工作流程
- 包含常见问题解决方案
pip install statsmodels numpy pandas matplotlib seaborn- Python 3.8+
- Statsmodels 0.14.0+
- NumPy 1.20+
- Pandas 1.3+
1. 顺序学习(推荐新手)
- 从第00章开始,按顺序学习
- 每章的练习都要动手做
- 遇到不懂的概念回头复习
2. 按需学习(有经验者)
- 直接跳到需要的章节
- 快速查阅 API 和示例
- 参考实战项目
3. 项目驱动学习
- 先看实战项目
- 遇到不懂的知识点回头学
- 边做边学,效果最好
- 官方文档:statsmodels.org
- API 参考:API Reference
- 示例数据:每章配有示例数据集
- 练习答案:教程附带练习题答案
这是一个开放的学习资源,欢迎:
- 报告错误和改进建议
- 贡献新的示例和案例
- 分享你的学习心得
统计建模就像是:
- 侦探破案:从数据中发现规律
- 医生诊断:找出问题的根本原因
- 天气预报:基于历史预测未来
- 投资顾问:评估风险和收益
掌握了 Statsmodels,你就拥有了:
- 🔍 洞察力:看透数据背后的规律
- 🎯 预测力:科学地预测未来趋势
- 💡 决策力:用数据支持决策
- 🚀 竞争力:在数据时代脱颖而出
让我们开始这段激动人心的统计建模之旅吧!
开始学习 → 第00章:简介和安装
数据来源: