机器学习和人工智能是当前计算机领域最炙手可热的方向。随着深度学习和强化学习的大热,这一拨浪潮也在持续升高。本文作者是计算机领域机器学习方向在读博士生,在本文中分享自己在这个领域的一些浅见。本文主要针对职场人,帮助他们快速找到突破口,轻松入门。
是什么——机器学习概念的入门
为什么——为什么要用机器学习
怎么办之一——语言与环境
怎么办之二——实际项目推荐
怎么办之三——面试问题汇总
- 什么是机器学习?或者说,机器学习的本质是什么?
- 机器学习的基本流程是什么?
- 机器学习的分类有哪些?
- 深度学习和机器学习的关系?
- 机器学习的一些数学必备要点:梯度下降,拉格朗日对偶,矩阵的基本概念,概率分布函数等。
- 偏差和方差、交叉验证是什么?
- 对特征的理解及常用的特征提取方式。——参照我的第二次知乎Live:特征工程的PPT
- 深度学习几种常用模型的基本理解和中文版本的研究综述。
以上1-4个要点全部在我的第一次知乎live的PPT里可以找到答案。
- 大数据、大计算资源,需要从数据中学习出模式;
- 传统的经验方式并不可靠,目前是数据驱动。
也可以参照我的第一次知乎Live的PPT。
- 机器学习常用Python、R和Matlab作为主力语言,我们主要推荐Python;
- 目前比较火的库:Scikit-learn,Tensorflow,Torch,Caffe,Keras,CNTK等,要大概了解它们主要用来干嘛的,能说出来一二。
- Python下Anaconda集成科学计算环境是比较推荐的,集成的Numpy和Scipy是做数学计算的常用库,Matplotlib是画图工具。
- Scikit-learn上的几个不同领域的自带数据集用来模拟:
- Iris——最简单的数据集,做分类
- Digits——数字图片识别
- 20newsgroup——文本,做向量化后分类
使用这些数据集很好地练习机器学习的训练/测试集分开,调参与建模的基本能力。
- Kaggle上的入门级竞赛用来练手
- Python+scikit-learn基本功——练习scikit-learn的基本分类问题
- 自行车租赁——简单的回归问题,用来训练基本的预处理、特征提取、建模和说通
- 手写体识别——练习简单的图片分类,可以与tensorflow结合跑一下深度学习
练习这些案例,从头开始做机器学习整个流程,能够有一个基本的了解。