Skip to content

Commit a1003a7

Browse files
committed
更新了部分文档
1 parent d1c00dc commit a1003a7

File tree

4 files changed

+48
-48
lines changed

4 files changed

+48
-48
lines changed

Day01-20.zip

-7.4 MB
Binary file not shown.

Day66-80/73.深入浅出pandas-2.md

Lines changed: 44 additions & 44 deletions
Original file line numberDiff line numberDiff line change
@@ -19,12 +19,12 @@ df1
1919
输出:
2020

2121
```
22-
语文 数学 英语
23-
1001 69 80 79
24-
1002 71 60 100
25-
1003 94 81 93
26-
1004 88 88 67
27-
1005 82 66 60
22+
语文 数学 英语
23+
1001 69 80 79
24+
1002 71 60 100
25+
1003 94 81 93
26+
1004 88 88 67
27+
1005 82 66 60
2828
```
2929

3030
#### 通过字典创建DataFrame对象
@@ -244,31 +244,31 @@ emp2_df = pd.read_sql_table('tb_emp2', engine, index_col='eno')
244244
```
245245
dname dloc
246246
dno
247-
10 会计部 北京
248-
20 研发部 成都
249-
30 销售部 重庆
250-
40 运维部 深圳
247+
10 会计部 北京
248+
20 研发部 成都
249+
30 销售部 重庆
250+
40 运维部 深圳
251251
```
252252

253253
员工表(`emp_df`),其中`eno`是员工编号,`ename``job``mgr``sal``comm``dno`分别代表员工的姓名、职位、主管编号、月薪、补贴和部门编号。
254254

255255
```
256256
ename job mgr sal comm dno
257257
eno
258-
1359 胡一刀 销售员 3344.0 1800 200.0 30
259-
2056 乔峰 分析师 7800.0 5000 1500.0 20
260-
3088 李莫愁 设计师 2056.0 3500 800.0 20
261-
3211 张无忌 程序员 2056.0 3200 NaN 20
262-
3233 丘处机 程序员 2056.0 3400 NaN 20
263-
3244 欧阳锋 程序员 3088.0 3200 NaN 20
264-
3251 张翠山 程序员 2056.0 4000 NaN 20
265-
3344 黄蓉 销售主管 7800.0 3000 800.0 30
266-
3577 杨过 会计 5566.0 2200 NaN 10
267-
3588 朱九真 会计 5566.0 2500 NaN 10
268-
4466 苗人凤 销售员 3344.0 2500 NaN 30
269-
5234 郭靖 出纳 5566.0 2000 NaN 10
270-
5566 宋远桥 会计师 7800.0 4000 1000.0 10
271-
7800 张三丰 总裁 NaN 9000 1200.0 20
258+
1359 胡一刀 销售员 3344.0 1800 200.0 30
259+
2056 乔峰 分析师 7800.0 5000 1500.0 20
260+
3088 李莫愁 设计师 2056.0 3500 800.0 20
261+
3211 张无忌 程序员 2056.0 3200 NaN 20
262+
3233 丘处机 程序员 2056.0 3400 NaN 20
263+
3244 欧阳锋 程序员 3088.0 3200 NaN 20
264+
3251 张翠山 程序员 2056.0 4000 NaN 20
265+
3344 黄蓉 销售主管 7800.0 3000 800.0 30
266+
3577 杨过 会计 5566.0 2200 NaN 10
267+
3588 朱九真 会计 5566.0 2500 NaN 10
268+
4466 苗人凤 销售员 3344.0 2500 NaN 30
269+
5234 郭靖 出纳 5566.0 2000 NaN 10
270+
5566 宋远桥 会计师 7800.0 4000 1000.0 10
271+
7800 张三丰 总裁 NaN 9000 1200.0 20
272272
```
273273

274274
> **说明**:在数据库中`mgr``comm`两个列的数据类型是`int`,但是因为有缺失值(空值),读取到`DataFrame`之后,列的数据类型变成了`float`,因为我们通常会用`float`类型的`NaN`来表示空值。
@@ -335,12 +335,12 @@ emp_df.head()
335335

336336
```
337337
ename job mgr sal comm dno
338-
eno
339-
1359 胡一刀 销售员 3344 1800 200 30
340-
2056 乔峰 分析师 7800 5000 1500 20
341-
3088 李莫愁 设计师 2056 3500 800 20
342-
3211 张无忌 程序员 2056 3200 NaN 20
343-
3233 丘处机 程序员 2056 3400 NaN 20
338+
eno
339+
1359 胡一刀 销售员 3344 1800 200 30
340+
2056 乔峰 分析师 7800 5000 1500 20
341+
3088 李莫愁 设计师 2056 3500 800 20
342+
3211 张无忌 程序员 2056 3200 NaN 20
343+
3233 丘处机 程序员 2056 3400 NaN 20
344344
```
345345

346346
### 操作数据
@@ -422,13 +422,13 @@ emp_df.loc[2056:3344]
422422
```
423423
ename job mgr sal comm dno
424424
eno
425-
2056 乔峰 分析师 7800.0 5000 1500.0 20
426-
3088 李莫愁 设计师 2056.0 3500 800.0 20
427-
3211 张无忌 程序员 2056.0 3200 NaN 20
428-
3233 丘处机 程序员 2056.0 3400 NaN 20
429-
3244 欧阳锋 程序员 3088.0 3200 NaN 20
430-
3251 张翠山 程序员 2056.0 4000 NaN 20
431-
3344 黄蓉 销售主管 7800.0 3000 800.0 30
425+
2056 乔峰 分析师 7800.0 5000 1500.0 20
426+
3088 李莫愁 设计师 2056.0 3500 800.0 20
427+
3211 张无忌 程序员 2056.0 3200 NaN 20
428+
3233 丘处机 程序员 2056.0 3400 NaN 20
429+
3244 欧阳锋 程序员 3088.0 3200 NaN 20
430+
3251 张翠山 程序员 2056.0 4000 NaN 20
431+
3344 黄蓉 销售主管 7800.0 3000 800.0 30
432432
```
433433

434434
#### 数据筛选
@@ -444,10 +444,10 @@ emp_df[emp_df.sal > 3500]
444444
```
445445
ename job mgr sal comm dno
446446
eno
447-
2056 乔峰 分析师 7800.0 5000 1500.0 20
448-
3251 张翠山 程序员 2056.0 4000 NaN 20
449-
5566 宋远桥 会计师 7800.0 4000 1000.0 10
450-
7800 张三丰 总裁 NaN 9000 1200.0 20
447+
2056 乔峰 分析师 7800.0 5000 1500.0 20
448+
3251 张翠山 程序员 2056.0 4000 NaN 20
449+
5566 宋远桥 会计师 7800.0 4000 1000.0 10
450+
7800 张三丰 总裁 NaN 9000 1200.0 20
451451
```
452452

453453
当然,我们也可以组合多个条件来进行数据筛选,例如从`emp_df`中筛选出月薪超过`3500`且部门编号为`20`的员工,代码如下所示。
@@ -461,9 +461,9 @@ emp_df[(emp_df.sal > 3500) & (emp_df.dno == 20)]
461461
```
462462
ename job mgr sal comm dno
463463
eno
464-
2056 乔峰 分析师 7800.0 5000 1500.0 20
465-
3251 张翠山 程序员 2056.0 4000 NaN 20
466-
7800 张三丰 总裁 NaN 9000 1200.0 20
464+
2056 乔峰 分析师 7800.0 5000 1500.0 20
465+
3251 张翠山 程序员 2056.0 4000 NaN 20
466+
7800 张三丰 总裁 NaN 9000 1200.0 20
467467
```
468468

469469
除了使用布尔索引,`DataFrame`对象的`query`方法也可以实现数据筛选,`query`方法的参数是一个字符串,它代表了筛选数据使用的表达式,而且更符合 Python 程序员的使用习惯。下面我们使用`query`方法将上面的效果重新实现一遍,代码如下所示。

Day81-90/89.自然语言处理入门.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -163,7 +163,7 @@ $$
163163
\text{Cosine Similarity}(\mathbf{A}, \mathbf{B}) = \frac{\mathbf{A} \cdot \mathbf{B}}{\lVert \mathbf{A} \rVert \lVert \mathbf{B} \rVert}
164164
$$
165165

166-
其中,$\small{\mathbf{A}}$ 和 $\small{\mathbf{B}}$ 是两个词的词向量,$\small{\cdot}$ 是向量的点积运算,$\small{\lVert \mathbf{A} \rVert}$ 和 $\small{\lVert \mathbf{B} \rVert}$ 是它们的模长。余弦相似度的值介于 -1 到 1 之间,值越大表示两个词越相似,越小则表示越不相似。
166+
其中, $\small{\mathbf{A}}$ 和 $\small{\mathbf{B}}$ 是两个词的词向量, $\small{\cdot}$ 是向量的点积运算, $\small{\lVert \mathbf{A} \rVert}$ 和 $\small{\lVert \mathbf{B} \rVert}$ 是它们的模长。余弦相似度的值介于 -1 到 1 之间,值越大表示两个词越相似,越小则表示越不相似。
167167

168168
另一方面,我们可以研究词向量的空间关系并完成一些有趣的运算。例如,如果我们想知道`'king'`(国王)和`'queen'`(王后)之间的关系,可以通过这样的方式来探索:
169169

README.md

Lines changed: 3 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -784,7 +784,7 @@ Python在以下领域都有用武之地。
784784
1. 模型评估
785785
1. 模型部署
786786

787-
### Day91~100 - [团队项目开发](./Day91-100)
787+
### Day91~99 - [团队项目开发](./Day91-100)
788788

789789
#### 第91天:[团队项目开发的问题和解决方案](./Day91-100/91.团队项目开发的问题和解决方案.md)
790790

@@ -1024,11 +1024,11 @@ Python在以下领域都有用武之地。
10241024
5. 数据分析
10251025
6. 项目相关
10261026

1027-
#### 第100天[补充内容](./Day91-100/100.补充内容.md)
1027+
### 第100天 - [补充内容](./Day91-100/100.补充内容.md)
10281028

10291029
- 面试宝典
10301030
- Python 面试宝典
1031-
- 数据分析师 SQL 面试宝典
1031+
- SQL 面试宝典(数据分析师)
10321032
- 商业分析面试宝典
10331033
- 机器学习面试宝典
10341034

0 commit comments

Comments
 (0)