Skip to content

Latest commit

 

History

History
79 lines (49 loc) · 3.77 KB

职场-机器学习入门.md

File metadata and controls

79 lines (49 loc) · 3.77 KB

写给职场人的机器学习入门

机器学习和人工智能是当前计算机领域最炙手可热的方向。随着深度学习和强化学习的大热,这一拨浪潮也在持续升高。本文作者是计算机领域机器学习方向在读博士生,在本文中分享自己在这个领域的一些浅见。本文主要针对职场人,帮助他们快速找到突破口,轻松入门。

本文的组织结构


是什么——机器学习概念的入门

为什么——为什么要用机器学习

怎么办之一——语言与环境

怎么办之二——实际项目推荐

怎么办之三——面试问题汇总

是什么——机器学习概念的入门


  1. 什么是机器学习?或者说,机器学习的本质是什么?
  2. 机器学习的基本流程是什么?
  3. 机器学习的分类有哪些?
  4. 深度学习和机器学习的关系?
  5. 机器学习的一些数学必备要点:梯度下降,拉格朗日对偶,矩阵的基本概念,概率分布函数等。
  6. 偏差和方差交叉验证是什么?
  7. 对特征的理解及常用的特征提取方式。——参照我的第二次知乎Live:特征工程的PPT
  8. 深度学习几种常用模型的基本理解和中文版本的研究综述

以上1-4个要点全部在我的第一次知乎live的PPT里可以找到答案。

为什么——为什么要用机器学习


  1. 大数据、大计算资源,需要从数据中学习出模式;
  2. 传统的经验方式并不可靠,目前是数据驱动。

也可以参照我的第一次知乎Live的PPT。

怎么办之一——语言与环境


  1. 机器学习常用Python、R和Matlab作为主力语言,我们主要推荐Python;
  2. 目前比较火的库:Scikit-learn,Tensorflow,Torch,Caffe,Keras,CNTK等,要大概了解它们主要用来干嘛的,能说出来一二。
  3. Python下Anaconda集成科学计算环境是比较推荐的,集成的Numpy和Scipy是做数学计算的常用库,Matplotlib是画图工具。

怎么办之二——实际项目推荐


  1. Scikit-learn上的几个不同领域的自带数据集用来模拟:
  • Iris——最简单的数据集,做分类
  • Digits——数字图片识别
  • 20newsgroup——文本,做向量化后分类

使用这些数据集很好地练习机器学习的训练/测试集分开,调参与建模的基本能力。

  1. Kaggle上的入门级竞赛用来练手

练习这些案例,从头开始做机器学习整个流程,能够有一个基本的了解。

怎么办之三——面试问题汇总


  1. 具体知识点面试题及答案
  2. 比较高层一些的面试题及答案
  3. 特定知识点面试题及答案
  4. 科技巨头最新的常用面试题
  5. 知乎上的问题解答