Skip to content

欢迎来到 Statsmodels 统计建模教程!这是一个通俗易懂、内容丰富的中文教程。

Notifications You must be signed in to change notification settings

hujinghaoabcd/statsmodels-tutorial

Repository files navigation

Statsmodels 统计建模教程

欢迎来到 Statsmodels 统计建模教程!这是一个通俗易懂、内容丰富的中文教程。

📚 教程简介

Statsmodels 是 Python 中最强大的统计建模库之一,它让你能像专业统计学家一样分析数据。本教程将用生活化的语言和丰富的例子,帮你轻松掌握统计建模。

为什么学 Statsmodels?

场景1:预测销售额

  • 你是电商运营,想知道下个月销售额会是多少
  • Statsmodels 帮你分析历史数据,建立预测模型
  • 就像天气预报,根据过去的规律预测未来

场景2:分析因素影响

  • 你想知道:广告投入、价格、季节对销售的影响有多大?
  • Statsmodels 告诉你:广告费每增加1万,销售额增加5万
  • 就像医生诊断,找出病因和症状的关系

场景3:时间序列预测

  • 股票价格、网站流量、用户增长都是时间序列
  • Statsmodels 帮你发现趋势、季节性、周期性
  • 就像看股票K线图,发现涨跌规律

📖 教程目录

基础篇

  • 第00章:简介和安装

    • 什么是统计建模?
    • Statsmodels 能做什么?
    • 安装和环境配置
    • 第一个例子:房价预测
  • 第01章:背景知识

    • endog、exog 是什么意思?
    • 两种 API:标准 API vs 公式 API
    • R 风格公式语法详解
    • 常见陷阱和最佳实践

回归分析

  • 第02章:线性回归

    • 简单线性回归和多元线性回归
    • 最小二乘法(OLS)原理
    • 模型诊断:残差分析、R²、VIF
    • 问题诊断和解决方案
    • 实战:工资预测、房价分析
  • 第03章:广义线性模型(GLM)

    • GLM 三要素:随机成分、系统成分、连接函数
    • Logistic 回归:客户流失预测(1000样本)
    • Poisson 回归:网站点击预测
    • 模型评估:混淆矩阵、ROC曲线、AUC
  • 第04章:混合效应模型

    • 固定效应 vs 随机效应
    • 层次数据分析:学生成绩(10个班级)
    • 重复测量数据:减肥跟踪(20人×6周)
    • 随机截距和随机斜率模型
    • ICC(组内相关系数)
  • 第05章:稳健回归和其他回归

    • 稳健回归(M-估计):Huber、Tukey、Ramsay
    • 加权最小二乘(WLS):处理异方差
    • 分位数回归:预测条件分位数
    • 实战:异常值处理、工资分布分析

时间序列分析

  • 第06章:时间序列分析
    • 时间序列组成:趋势、季节性、周期、噪声
    • 平稳性检验(ADF检验)和差分
    • ARIMA 模型:ACF/PACF、参数选择
    • SARIMA:季节性 ARIMA
    • 实战:航空乘客预测、股票价格分析

离散和选择模型

  • 第07章:离散选择模型

    • Logit vs Probit:二元选择
    • Multinomial Logit:多元无序选择(交通方式)
    • Ordered Logit:有序选择(满意度评分)
    • 风险比(Odds Ratio)解释
    • 实战:信用卡违约预测(2000样本)
  • 第08章:统计检验

    • 假设检验框架:H0、H1、p值、α
    • t检验:单样本、两独立样本、配对样本
    • 方差分析(ANOVA)和事后检验
    • 卡方检验:分类变量关联
    • 非参数检验:Mann-Whitney、Wilcoxon、Kruskal-Wallis
    • 实战:新药效果检验、教学方法比较

高级方法

  • 第09章:非参数方法

    • 核密度估计(KDE):估计概率分布
    • LOWESS 平滑:非线性关系拟合
    • 核回归:Nadaraya-Watson
    • Bootstrap:重抽样推断
    • 排列检验:无假设的假设检验
    • 实战:收入分布估计、年龄-血压关系
  • 第10章:生存分析

    • 生存函数、风险函数、删失
    • Kaplan-Meier 估计:生存曲线
    • Log-rank 检验:两组比较
    • Cox 比例风险模型:多因素分析
    • 风险比(HR)解释和预测
    • 实战:癌症患者生存分析、新药临床试验
  • 第11章:多元统计

    • 主成分分析(PCA):降维和可视化
    • 因子分析:识别潜在因子结构
    • 聚类分析:K-means、层次聚类
    • 多元方差分析(MANOVA)
    • PCA vs 因子分析对比
    • 实战:学生成绩综合评价、客户细分、心理测验

🎯 学习路线

🔰 初学者路线(零基础入门)

  1. 第00章:了解 Statsmodels 和统计建模
  2. 第01章:掌握基础概念(endog/exog、API)
  3. 第02章:学会线性回归(最基础的模型)
  4. 第08章:统计检验(理解假设检验)
  5. 第03章:广义线性模型(分类问题)

学完可以做什么:预测房价、分析销售数据、客户流失预测

📈 时间序列分析师路线

  1. 第00-01章:基础准备
  2. 第02章:线性回归基础
  3. 第06章:时间序列分析(核心重点)
    • ARIMA、SARIMA、季节分解
  4. 第08章:统计检验(模型诊断)
  5. 第09章:非参数方法(灵活建模)

学完可以做什么:股票预测、销售预测、网站流量预测

🎯 数据科学家全栈路线

  1. 第00-02章:基础和线性回归
  2. 第03章:广义线性模型(分类和计数)
  3. 第07章:离散选择模型(用户行为)
  4. 第04章:混合效应模型(层次数据)
  5. 第08章:统计检验(A/B测试)
  6. 第10章:生存分析(客户留存)
  7. 第11章:多元统计(降维和聚类)

学完可以做什么:全面的数据分析、建模、预测和洞察

🔬 研究人员路线(学术/医学)

  1. 第00-02章:回归基础
  2. 第04章:混合效应模型(重复测量)
  3. 第08章:统计检验(实验设计)
  4. 第10章:生存分析(临床试验)
  5. 第11章:多元统计(因子分析)

学完可以做什么:临床试验分析、实验数据分析、问卷设计验证

💼 业务分析师路线

  1. 第00-02章:基础和回归
  2. 第03章:Logistic回归(客户流失)
  3. 第07章:离散选择(用户决策)
  4. 第08章:统计检验(A/B测试)
  5. 第11章:聚类分析(客户细分)

学完可以做什么:客户分析、营销效果评估、用户画像

💡 教程特色

1. 通俗易懂

# ❌ 官方文档的写法(专业但难懂)
# "endog is the endogenous variable, exog is the exogenous variable"

# ✅ 本教程的解释(生活化)
# endog = 你想预测的目标(因变量)
#   比如:房价、销售额、股票价格
# exog = 用来预测的特征(自变量)
#   比如:房子面积、广告费用、历史价格

2. 丰富示例

  • 每个概念都有生活化类比
  • 每个方法都有完整代码示例
  • 每章都有实战项目

3. 循序渐进

  • 从简单到复杂
  • 从理论到实践
  • 从概念到代码

4. 实用导向

  • 聚焦真实业务场景
  • 提供完整的工作流程
  • 包含常见问题解决方案

🔧 环境准备

安装依赖

pip install statsmodels numpy pandas matplotlib seaborn

版本要求

  • Python 3.8+
  • Statsmodels 0.14.0+
  • NumPy 1.20+
  • Pandas 1.3+

📝 使用建议

如何学习本教程?

1. 顺序学习(推荐新手)

  • 从第00章开始,按顺序学习
  • 每章的练习都要动手做
  • 遇到不懂的概念回头复习

2. 按需学习(有经验者)

  • 直接跳到需要的章节
  • 快速查阅 API 和示例
  • 参考实战项目

3. 项目驱动学习

  • 先看实战项目
  • 遇到不懂的知识点回头学
  • 边做边学,效果最好

🎓 配套资源

  • 官方文档statsmodels.org
  • API 参考API Reference
  • 示例数据:每章配有示例数据集
  • 练习答案:教程附带练习题答案

🤝 贡献和反馈

这是一个开放的学习资源,欢迎:

  • 报告错误和改进建议
  • 贡献新的示例和案例
  • 分享你的学习心得

📊 统计建模的魅力

统计建模就像是:

  • 侦探破案:从数据中发现规律
  • 医生诊断:找出问题的根本原因
  • 天气预报:基于历史预测未来
  • 投资顾问:评估风险和收益

掌握了 Statsmodels,你就拥有了:

  • 🔍 洞察力:看透数据背后的规律
  • 🎯 预测力:科学地预测未来趋势
  • 💡 决策力:用数据支持决策
  • 🚀 竞争力:在数据时代脱颖而出

让我们开始这段激动人心的统计建模之旅吧!


开始学习第00章:简介和安装

数据来源

About

欢迎来到 Statsmodels 统计建模教程!这是一个通俗易懂、内容丰富的中文教程。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published