Skip to content

Commit

Permalink
polished
Browse files Browse the repository at this point in the history
  • Loading branch information
goldmermaid authored and astonzhang committed Feb 17, 2021
1 parent 6b62814 commit 52ae489
Showing 1 changed file with 9 additions and 3 deletions.
12 changes: 9 additions & 3 deletions chapter_introduction/index.md
Original file line number Diff line number Diff line change
Expand Up @@ -35,7 +35,7 @@

假设你正和本书的作者们一起,驱车去咖啡店。
亚历山大拿起一部iPhone,对它说道“Hey Siri”--手机的语音识别系统主动唤醒了。
接着,李沐对Siri说道“去星巴克咖啡店”--语音识别系统的语音转文字功能自动启动,并启动了地图应用程序来满足我们的请求
接着,李沐对Siri说道“去星巴克咖啡店”--语音识别系统自动触发语音转文字功能,并启动地图应用程序来满足我们的请求
地图应用程序在启动后确定了若干条路线:每条路线都显示了预计的通行时间......
由此可见,机器学习渗透在生活中的方方面面,在短短几秒钟的时间里,我们与智能手机的日常互动就可以涉及几种机器学习模型。

Expand Down Expand Up @@ -106,9 +106,15 @@

### 数据

不用说,没有数据就不能做数据科学。我们可能会用数百页来思考数据的确切构成,但目前,我们将重点放在需要关注的关键属性上。一般来说,我们关注的是一组样本。为了有效地处理数据,我们通常需要想出一个合适的数值表示法。每个*样本*(example)(或*数据点*(data point)、*数据实例*(data instance))通常由一组称为*特征*(features)(或*协变量*(covariates))的属性组成。模型必须根据这些属性进行预测。在上面的监督学习问题中,要预测的是一个特殊的属性,它被称为*标签*(label)(或*目标*(target))。
毋庸置疑,如果没有数据,那么数据科学毫无用武之地。
每个数据集由一个个*样本*(example)组成,大多时候,它们遵循独立同分布(idependently and identically distributed, i.i.d.)。
样本有时也叫做*数据点*(data point)或者*数据实例*(data instance),通常每个样本由一组称为*特征*(features)(或*协变量*(covariates))的属性组成。
机器学习模型会根据这些属性进行预测。
在上面的监督学习问题中,要预测的是一个特殊的属性,它被称为*标签*(label,或*目标*(target))。

如果我们处理的是图像数据,每一张单独的照片都可能构成一个样本,每一张照片都由与每个像素强度相对应的数字值的有序列表表示。$200\times 200$彩色照片由$200\times200\times3=120000$个数值组成,对应于每个空间位置的红、绿、蓝通道的强度。在另一项传统的任务中,我们可能会在给定一组标准的特征(如年龄、生命体征和诊断)的情况下,尝试预测患者是否会存活。
假设我们处理的是图像数据,每一张单独的照片即为一个样本,它的特征由每个像素数值的有序列表表示。
比如,$200\times 200$彩色照片由$200\times200\times3=120000$个数值组成,其中的“3”对应于每个空间位置的红、绿、蓝通道的强度。
再比如,对于一组医疗数据,给定一组标准的特征(如年龄、生命体征和诊断),我们可能用此数据尝试预测患者是否会存活。

当每个样本都由相同数量的数值表示时,我们称数据由固定长度的向量组成,我们将向量的固定长度称为数据的*维数*(dimensionality)。正如你可能想象的那样,固定长度是一个方便的属性。如果我们想训练一个能够在显微镜图像中识别癌症的模型,固定长度的输入意味着我们少了一件要担心的事情。

Expand Down

0 comments on commit 52ae489

Please sign in to comment.