Skip to content

Commit

Permalink
add kaggle intro class
Browse files Browse the repository at this point in the history
  • Loading branch information
YZHANG1270 committed May 16, 2019
1 parent 22b1d7c commit 5f66c24
Showing 1 changed file with 104 additions and 0 deletions.
104 changes: 104 additions & 0 deletions machine_learning_diary/data_analysis/kaggle_intro.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,104 @@
# 初识 Kaggle

欢迎大家回到 **Machine Learning Diary**~~👏

![](https://www.analyticsvidhya.com/wp-content/uploads/2015/06/kaggle-logo-transparent-300-850x386.png)

要做数据科学家的朋友一定都听过【kaggle】吧,一些初学者会犹豫要不要参加 Kaggle 竞赛,这并不让人奇怪,他们通常有以下顾虑:

1)我该如何开始?
2)我要和经验丰富的博士研究者比赛吗?
3)如果没有获胜的机会,还值得参与吗?
4)这就是数据科学吗?(如果我在 Kaggle 上表现不好,我在数据科学领域还有希望吗?)
5)未来我该如何提升我的排名?

今天我们就来亲自感受一下世界上最高大上的数据科学竞技场!入门kaggle,就从今天开始!



##### 这节课的目的

1. 注册一个账号(由于被谷歌收购,因此可能需要梯子)
2. Competition - 学会看一个比赛
3. Titanic - 开启人生中第一个kaggle比赛
4. Data - 学会在kaggle上找到自己要的数据集(有账号才能下载数据)
5. Kernels - 学会看别人的代码
6. Discussion - 学会看别人的思路
7. 摆正心态



### 1. 注册账号

对英语的要求不高,对梯子有要求,自行解决。



### 2. Competition:学会看一个比赛

在首页的最上面一栏菜单栏【Competitions / Datasets / Kernels / Discussion / Learn / ...】点击【Competitions 】就看到类似下面的排版:

![](https://elitedatascience.com/wp-content/uploads/2017/07/kaggle-getting-started-competitions.png)

红色箭头哪里代表比赛的分类【All Categories】,里面有:

- Featured:这些通常是由公司、组织甚至政府赞助的,百万美金奖金池不在话下。
- Research:这些是研究方向的竞赛,只有很少或没有奖金。它们也有非传统的提交流程。
- Recruitment:这些是由想要招聘数据科学家的公司赞助的。目前仍然相对少见。
- Getting Started:这些竞赛的结构和 Featured 竞赛类似,但没有奖金。它们有更简单的数据集、大量教程和滚动的提交窗口让你可以随时输入。

对于初学者,我们点击【Getting Started】。这个框旁边是【Search】框,可以按自己意愿搜索比赛。



### 3. Titanic - 开启人生中第一个kaggle比赛

可以直接点击界面里出现的【**Titanic: Machine Learning for Disaster**】,也可以搜索出来。总之进入【Titanic】比赛后,我们首先是看一下比赛说明,点击左边红色箭头那一行的最左边的【Overview】就是比赛的说明,会介绍各种比赛信息,等等。同一水平线对应右边右边是蓝色框【Join Competition】,点击之后蓝框变成【Submit Predictions】,恭喜你报名成功!(一般有时候会跳出一个小页面点击I Agree那种协议)

![](https://elitedatascience.com/wp-content/uploads/2017/07/kaggle-kernels-most-votes.png)



### 4. Data - 学会找到数据集

此时点击左边红色箭头那一行的菜单栏的【Data】,直接往下浏览网页,就看到了Data Description,看数据中有哪些变量,以及每个变量代表着什么信息。继续往下拉能在Data那个框里的右上角看到【Download All】,点击后就能进行数据下载了。



### 5. Kernels - 学会看别人的代码

![](https://elitedatascience.com/wp-content/uploads/2017/07/kaggle-kernels-most-votes.png)

大家都会在【Kernels】里分享自己的解题代码,不仅对于解题很有帮助,对于日常的技能学习都很有用,至少我很喜欢逛kernel的。第一次可以随便进去逛逛。



### 6. Discussion - 学会看别人的思路

同样在菜单栏里面的【Discussion】是大家讨论解决思路的地方,不一定是解题的代码,也有散发性的一个观点,或者吐槽比赛比累了比烦了的地方😜



### 7. 摆正心态

Kaggle,数据科学的家园,为竞赛参与者,客户解决方案和招聘求职提供了一个全球性的平台。这是Kaggle的特殊吸引力,它提供的竞赛不仅让你站到不同的高度思考问题,还提供了可观的奖金。

国内外都有很多像kaggle这样的社区/比赛/网站,比如天池等等。很多大厂都开始流行举办机器学习比赛了,里面有数据,比赛,还有百万美元的巨额奖金,of course👏

然而,人们总是犹豫到底要不要参加竞赛。其中有以下几个原因:

1. 他们小看了自己的技能,知识和掌握的技术的水平。
2. 不管自己一连串技能的水平如何,他们都选择奖金最高的问题。
3. 在问题的困难度水平上,他们没有充分发挥出自己的技能水平。

作为初学者,建议大家抱着玩一玩的心态,别把兴趣磨灭在自我苛刻上,那就太得不偿失了。



### 作业

下载Titanic的数据集,下节课要用的。



👩好啦,今天的课程就到这里啦!咱们下次见!~

0 comments on commit 5f66c24

Please sign in to comment.