AWESOME DATA SCIENCE

出色的数据科学

一个开源数据科学存储库，用于学习和应用来解决现实世界的问题。

这是开始学习数据科学的捷径。只需按照步骤回答“什么是数据科学以及我应该学习什么来学习数据科学？”的问题。

赞助商

赞助	沥青
---	成为第一个赞助者！`github@academic.io`

什么是数据科学？

^ back to top ^

数据科学是当今计算机和互联网领域最热门的话题之一。直到今天，人们已经从应用程序和系统中收集了数据，现在是分析它们的时候了。接下来的步骤是根据数据提出建议并创建对未来的预测。在这里您可以找到数据科学的最大问题以及专家的数百个答案。

关联	预览
什么是数据科学 @ O'reilly	数据科学家将创业精神与耐心、逐步构建数据产品的意愿、探索能力以及迭代解决方案的能力结合起来。它们本质上是跨学科的。他们可以解决问题的各个方面，从最初的数据收集和数据调节到得出结论。他们可以跳出框框思考，提出看待问题的新方法，或者解决非常广泛定义的问题：“这里有很多数据，你能从中得到什么？”
什么是数据科学@Quora	数据科学是结合数据技术、算法开发、数据干扰等多个方面来研究数据、分析数据并找到困难问题的创新解决方案。基本上，数据科学就是通过寻找创造性的方法来分析数据并推动业务增长。
21世纪最性感的工作	今天的数据科学家类似于 20 世纪 80 年代和 90 年代的华尔街“宽客”。那时，具有物理和数学背景的人们涌入投资银行和对冲基金，在那里他们可以设计全新的算法和数据策略。随后，多所大学开设了金融工程硕士课程，培养了主流公司更容易接触到的第二代人才。 20 世纪 90 年代后期，搜索工程师重复了这种模式，他们的精湛技能很快就在计算机科学课程中得到教授。
维基百科	数据科学是一个跨学科领域，它使用科学方法、流程、算法和系统从许多结构化和非结构化数据中提取知识和见解。数据科学与数据挖掘、机器学习和大数据有关。
如何成为一名数据科学家	数据科学家是大数据管理员，收集和分析大量结构化和非结构化数据。数据科学家的角色结合了计算机科学、统计学和数学。他们对数据进行分析、处理和建模，然后解释结果，为公司和其他组织制定可行的计划。
#datascience 的历史很短	数据科学家如何变得性感的故事主要是成熟的统计学学科与非常年轻的学科——计算机科学结合的故事。 “数据科学”一词最近才出现，专门指代一种有望理解海量大数据的新职业。但理解数据有着悠久的历史，科学家、统计学家、图书馆员、计算机科学家和其他人多年来一直在讨论这一问题。以下时间线追溯了“数据科学”一词的演变及其使用、定义它的尝试以及相关术语。
数据科学家的软件开发资源	数据科学家专注于通过探索性分析、统计和模型来理解数据。软件开发人员使用不同的工具应用一组单独的知识。尽管他们的重点似乎无关，但数据科学团队可以从采用软件开发最佳实践中受益。版本控制、自动化测试和其他开发技能有助于创建可重复的、可用于生产的代码和工具。

我从哪说起呢？

^ back to top ^

虽然不是绝对必要的，但拥有一门编程语言是成为一名有效的数据科学家的一项关键技能。目前，最流行的语言是Python，紧随其后的是R。 Python 是一种通用脚本语言，可应用于各个领域。 R 是一种用于统计的领域特定语言，其中包含许多开箱即用的常用统计工具。

Python是迄今为止科学界最流行的语言，这在很大程度上归功于它的易用性以及用户生成的包的充满活力的生态系统。要安装包，有两种主要方法：Pip（调用为pip install），与 Python 捆绑在一起的包管理器；以及Anaconda（调用为conda install），这是一个功能强大的包管理器，可以安装 Python、R 的包，并可以下载可执行文件，例如吉特。

与 R 不同，Python 并不是从头开始构建时就考虑到了数据科学，但有大量第三方库可以弥补这一点。可以在本文档后面找到更详尽的包列表，但这四个包是开始您的数据科学之旅的一组不错的选择：Scikit-Learn是一个通用数据科学包，它实现了最流行的算法- 它还包括丰富的文档、教程和它实现的模型的示例。即使您更喜欢编写自己的实现，Scikit-Learn 也是您会发现的许多常见算法背后的具体细节的宝贵参考。使用Pandas，人们可以收集数据并将其分析为一种方便的表格格式。Numpy为数学运算提供了非常快速的工具，重点是向量和矩阵。Seaborn本身基于Matplotlib包，是一种生成漂亮的数据可视化效果的快速方法，具有许多开箱即用的良好默认值，以及一个展示如何生成许多常见数据可视化效果的图库。

当踏上成为数据科学家的旅程时，语言的选择并不是特别重要，Python 和 R 都有各自的优点和缺点。选择您喜欢的语言，然后查看我们下面列出的免费课程之一！

真实世界

^ back to top ^

数据科学是一种强大的工具，可用于各个领域，通过从复杂数据中提取见解和模式来解决现实世界的问题。

灾难

^ back to top ^

deprem-ml AYA：Açık Yazılım Ağı（+25,000 名开发人员）正在尝试使用人工智能帮助灾难响应。一切都是开源的afet.org。

培训资源

^ back to top ^

你如何学习数据科学？当然是通过数据科学！好吧，好吧——当你刚开始的时候，这可能不是特别有帮助。在本节中，我们列出了一些学习资源，按从最少到最大承诺的粗略顺序排列 -教程、大规模开放在线课程 (MOOC)、强化课程和学院。

教程

^ back to top ^

您可以使用 IPython 在浏览器上运行1000 个数据科学项目。
#tidytuesday针对 R 生态系统的每周数据项目。
数据科学你的方式
PySpark 备忘单
使用 Python 进行机器学习、数据科学和深度学习
如何标记数据
潜在狄利克雷分配指南
Classpert 在线搜索引擎提供超过 1000 门数据科学在线课程
克林顿·谢泼德 (Clinton Sheppard) 所著的《Genetic Algorithms with Python》一书中的源代码教程
机器学习信号处理入门教程
实时部署Python时序模型部署教程。
Python 数据科学：初学者指南
机器学习面试的最低可行学习计划
通过构建可靠的项目来理解和了解机器学习工程
12 个用于练习 Python 和 Pandas 的免费数据科学项目

免费课程

^ back to top ^

使用 R 的数据科学家
使用 Python 的数据科学家
遗传算法OCW课程
AI 专家路线图- 成为人工智能专家的路线图
凸优化- 凸优化（凸分析的基础知识；最小二乘、线性和二次规划、半定规划、极小极大、极值体积和其他问题；最优性条件、对偶理论...）
Skillcombo - 数据科学- 1000 多个免费在线数据科学课程
从数据中学习- 机器学习简介，涵盖基础理论、算法和应用
Kaggle - 了解数据科学、机器学习、Python 等
ML 可观察性基础知识- 了解如何监控生产 ML 问题并找出根本原因。
权重和偏差有效 MLOps：模型开发- 使用 W&B 构建端到端机器的免费课程和认证
Python for Machine Learning - 使用最强大的编程语言之一 Python 开始您的机器学习之旅。
Scaler 的 Python for Data Science - 本课程旨在帮助初学者掌握在当今数据驱动的世界中脱颖而出的基本技能。全面的课程将为您在统计、编程、数据可视化和机器学习方面打下坚实的基础。
MLSys-NYU-2022 - 纽约大学 Tandon 金融机器学习课程的幻灯片、脚本和材料，2022 年。
动手训练和部署 ML - 训练和部署可预测加密货币价格的无服务器 API 的动手课程。

数据科学工具箱

^ back to top ^

本节是数据科学领域中的包、工具、算法和其他有用项目的集合。

算法

^ back to top ^

这些是一些机器学习和数据挖掘算法和模型，可帮助您理解数据并从中获取意义。

三种机器学习系统

基于人工监督的培训
基于动态增量学习
基于数据点比较和模式检测

监督学习

无监督学习

半监督学习

强化学习

数据挖掘算法

深度学习架构

通用机器学习包

^ back to top ^

深度学习包

PyTorch 生态系统

TensorFlow 生态系统

Keras 生态系统

可视化工具

^ back to top ^

杂项工具

^ back to top ^

关联	描述
数据科学生命周期过程	数据科学生命周期过程是一个反复、可持续地将数据科学团队从想法转变为价值的过程。该过程记录在此存储库中
数据科学生命周期模板存储库	数据科学生命周期项目的模板存储库
雷克斯梅克斯	用于公平评估的通用推荐指标库。
化学X	基于 PyTorch 的深度学习库，用于药物对评分。
PyTorch 几何时态	动态图的表示学习。
小毛球	NetworkX 的图形采样库，具有类似 Scikit-Learn 的 API。
空手道俱乐部	NetworkX 的无监督机器学习扩展库，具有类似 Scikit-Learn 的 API。
机器学习工作区	用于机器学习和数据科学的基于 Web 的一体化 IDE。工作区部署为 Docker 容器，并预加载了各种流行的数据科学库（例如 Tensorflow、PyTorch）和开发工具（例如 Jupyter、VS Code）
海王星.ai	社区友好的平台支持数据科学家创建和共享机器学习模型。 Neptune 促进团队合作、基础设施管理、模型比较和可重复性。
步调	用于快速且可重复的机器学习实验的轻量级 Python 库。引入了非常简单的界面，可以实现干净的机器学习管道设计。
步进工具包	神经网络、变压器和模型的精选集合，使您的机器学习工作更快、更有效。
来自谷歌的数据实验室	使用熟悉的语言（例如 Python 和 SQL）以交互方式轻松探索、可视化、分析和转换数据。
Hortonworks 沙箱	是一个个人、便携式 Hadoop 环境，附带十几个交互式 Hadoop 教程。
右	是一个用于统计计算和图形的免费软件环境。
整洁宇宙	是专为数据科学设计的 R 软件包的固执己见的集合。所有包都共享底层设计理念、语法和数据结构。
RStudio	IDE – 强大的 R 用户界面。它是免费且开源的，可在 Windows、Mac 和 Linux 上运行。
Python - 熊猫 - 蟒蛇	完全免费的企业级 Python 发行版，用于大规模数据处理、预测分析和科学计算
熊猫图形用户界面	熊猫图形用户界面
Scikit-Learn	Python 中的机器学习
数值模拟	NumPy 是使用 Python 进行科学计算的基础。它支持大型多维数组和矩阵，并包含各种高级数学函数来对这些数组进行操作。
瓦克斯	Vaex 是一个 Python 库，可让您可视化大型数据集并高速计算统计数据。
科学Py	SciPy 与 NumPy 数组配合使用，并为数值积分和优化提供有效的例程。
数据科学工具箱	Coursera 课程
数据科学工具箱	博客
Wolfram 数据科学平台	采用数值、文本、图像、GIS 或其他数据并对其进行 Wolfram 处理，进行全方位的数据科学分析和可视化，并自动生成丰富的交互式报告 - 所有这些都由革命性的基于知识的 Wolfram 语言提供支持。
数据狗	适用于大规模数据科学的解决方案、代码和开发运营。
方差	无需编写 JavaScript 即可构建强大的 Web 数据可视化
风筝开发套件	Kite 软件开发工具包（Apache 许可证，版本 2.0），简称 Kite，是一组库、工具、示例和文档，专注于让您更轻松地在 Hadoop 生态系统之上构建系统。
多米诺数据实验室	运行、扩展、共享和部署您的模型——无需任何基础设施或设置。
阿帕奇弗林克	高效、分布式、通用数据处理平台。
阿帕奇·哈马	Apache Hama 是一个 Apache 顶级开源项目，允许您进行 MapReduce 之外的高级分析。
韦卡	Weka 是用于数据挖掘任务的机器学习算法的集合。
八度	GNU Octave 是一种高级解释语言，主要用于数值计算。（免费 Matlab）
阿帕奇火花	快如闪电的集群计算
水圈薄雾	用于将 Apache Spark 分析作业和机器学习模型公开为实时、批处理或反应式 Web 服务的服务。
数据力学	一个数据科学和工程平台，使 Apache Spark 对开发人员更加友好且更具成本效益。
咖啡	深度学习框架
火炬	LUAJIT 的科学计算框架
Nervana 基于 python 的深度学习框架	英特尔® Nervana™ 参考深度学习框架致力于在所有硬件上实现最佳性能。
斯卡莱	NodeJS 中的高性能分布式数据处理
气溶胶	为人类构建的机器学习包。
英特尔架构	英特尔® 深度学习框架
数据包装器	一个开源数据可视化平台，帮助每个人创建简单、正确和可嵌入的图表。也在github.com上
张量流	TensorFlow 是一个用于机器智能的开源软件库
自然语言工具包	用于自然语言处理和分类的介绍性但功能强大的工具包
注释实验室	用于文本注释和深度学习模型训练/调整的免费端到端无代码平台。对命名实体识别、分类、关系提取和断言状态 Spark NLP 模型的开箱即用支持。对用户、团队、项目、文档的无限支持。
Node.js 的 nlp 工具包	本模块涵盖一些基本的 nlp 原理和实现。主要关注点是性能。当我们在 nlp 中处理样本或训练数据时，我们很快就会耗尽内存。因此，该模块中的每个实现都被写入为流，以仅将当前在任何步骤处理的数据保存在内存中。
朱莉娅	用于技术计算的高级、高性能动态编程语言
尤莉娅	与 Jupyter 交互环境相结合的 Julia 语言后端
阿帕奇齐柏林飞艇	基于 Web 的笔记本，支持使用 SQL、Scala 等进行数据驱动、交互式数据分析和协作文档
特征工具	用 python 编写的自动化特征工程开源框架
擎天柱	使用 PySpark 后端进行清理、预处理、特征工程、探索性数据分析和简单的机器学习。
蛋白表达	快速且与框架无关的图像增强库，实现了多种增强技术。支持开箱即用的分类、分割和检测。用于赢得 Kaggle、Topcoder 以及 CVPR 研讨会的多项深度学习竞赛。
数字化VC	开源数据科学版本控制系统。它有助于跟踪、组织数据科学项目并使之可重复。在其非常基本的场景中，它有助于版本控制并共享大型数据和模型文件。
兰布多	是一种工作流引擎，通过将 (i) 特征工程和机器学习 (ii) 模型训练和预测 (iii) 表填充和列评估结合到一个分析管道中，显着简化了数据分析。
盛宴	用于管理、发现和访问机器学习功能的功能存储。 Feast 为模型训练和模型服务提供一致的特征数据视图。
多轴子	一个用于可重复和可扩展的机器学习和深度学习的平台。
光标签	团队文本注释工具
优比艾	易于使用的文本注释工具，为团队提供最全面的自动注释功能。支持 NER、关系和文档分类以及发票标签的 OCR 注释
火车	Auto-Magical Experiment Manager、AI 版本控制和 DevOps
啤酒花工厂	具有特征存储的开源数据密集型机器学习平台。摄取和管理在线（MySQL Cluster）和离线（Apache Hive）访问、大规模训练和服务模型的功能。
思维数据库	MindsDB 是一个为开发人员提供的可解释的 AutoML 框架。借助 MindsDB，您只需一行代码即可构建、训练和使用最先进的 ML 模型。
轻木	一种基于 Pytorch 的框架，可将机器学习问题分解为更小的块，这些块可以无缝地粘合在一起，目标是用一行代码构建预测模型。
AWS 数据管理员	一个开源 Python 包，可将 Pandas 库的功能扩展到 AWS，连接 DataFrame 和 AWS 数据相关服务（Amazon Redshift、AWS Glue、Amazon Athena、Amazon EMR 等）。
亚马逊重新识别	AWS Rekognition 是一项服务，可让使用 Amazon Web Services 的开发人员将图像分析添加到其应用程序中。编目资产、自动化工作流程并从媒体和应用程序中提取意义。
亚马逊文本	自动从任何文档中提取打印文本、手写内容和数据。
亚马逊寻找视觉	使用计算机视觉发现产品缺陷以实现自动化质量检查。识别缺失的产品组件、车辆和结构损坏以及违规行为，以进行全面的质量控制。
亚马逊代码大师	通过 ML 支持的建议自动进行代码审查并优化应用程序性能。
慢性粒细胞白血病	用于在数据科学项目中使用持续集成的开源工具包。使用 GitHub Actions 和 GitLab CI 在类似生产的环境中自动训练和测试模型，并自动生成有关拉取/合并请求的可视化报告。
达斯克	一个开源 Python 库，可轻松将您的分析代码转移到分布式计算系统（大数据）
统计模型	基于 Python 的推论统计、假设检验和回归框架
根森	用于自然语言文本主题建模的开源库
斯帕西	高性能自然语言处理工具包
网格工作室	Grid studio 是一个基于 Web 的电子表格应用程序，完全集成了 Python 编程语言。
Python 数据科学手册	Python 数据科学手册：Jupyter Notebooks 中的全文
沙普利	一个数据驱动的框架，用于量化机器学习集成中分类器的价值。
DAG 中心	一个基于开源工具构建的平台，用于数据、模型和管道管理。
深记	一种新型数据科学笔记本。兼容 Jupyter，可实时协作并在云端运行。
瓦洛海	一个处理机器编排、自动再现和部署的 MLOps 平台。
PyMC3	用于概率编程的 Python 库（贝叶斯推理和机器学习）
派斯坦	Stan 的 Python 接口（贝叶斯推理和建模）
嗯学习	隐马尔可夫模型的无监督学习和推理
混沌天才	机器学习驱动的分析引擎，用于异常值/异常检测和根本原因分析
敏捷盒子	一个全栈 MLOps 平台，旨在帮助世界各地的数据科学家和机器学习从业者通过网络浏览器发现、创建和启动多云应用程序。
陶惠	一个 Python 库，可帮助您将非结构化数据编码为嵌入。
线性Py	是否曾因清理又长又乱的 Jupyter 笔记本而感到沮丧？使用开源 Python 库 LineaPy，只需两行代码即可将混乱的开发代码转换为生产管道。
环境变量	🏕️ 数据科学和 AI/ML 工程团队的机器学习开发环境
探索数据科学图书馆	一个搜索引擎🔎工具，用于发现和查找热门和新图书馆、顶级作者、趋势项目工具包、讨论、教程和学习资源的精选列表
最大似然法	🐶 按照 GitOps 原则版本和部署您的 ML 模型
ML流	MLOps 框架，用于在整个生命周期中管理 ML 模型
洁净实验室	用于以数据为中心的 AI 并自动检测 ML 数据集中的各种问题的 Python 库
自动胶子	AutoML 可轻松对图像、文本、表格、时间序列和多模态数据进行准确预测
阿里兹人工智能	Arize AI 社区层可观察性工具，用于监控生产中的机器学习模型以及数据质量和性能漂移等根本原因问题。
Aureo.io	Aureo.io 是一个专注于构建人工智能的低代码平台。它为用户提供了创建管道、自动化并将其与人工智能模型集成的能力——所有这些都带有他们的基本数据。
ERD实验室	为开发人员打造的免费基于云的实体关系图 (ERD) 工具。
阿里兹-菲尼克斯	笔记本中的 MLOps - 发现见解、揭示问题、监控和微调模型。
彗星	MLOps 平台具有实验跟踪、模型生产管理、模型注册表和完整的数据沿袭，可支持从训练到生产的 ML 工作流程。
彗星法学硕士	在一款易于使用的 100% 开源工具中记录、跟踪、可视化和搜索您的 LLM 提示和链。
合成的	人工智能驱动的研究协作环境。查找相关论文、创建集合来管理参考书目并总结内容——所有这些都集中在一个地方
发球区	自动组织数据可视化输出的工作流工具

文学与媒体

^ back to top ^

本部分包括一些额外的阅读材料、可供观看的频道和可供收听的演讲。

图书

^ back to top ^

从头开始的数据科学：Python 的第一原理
Python 人工智能 vue教程
从头开始机器学习
概率机器学习：简介
机器学习综合指南
如何领导数据科学- 抢先体验
用数据对抗流失
使用 Python 和 Dask 进行大规模数据科学
Python 数据科学手册
数据科学手册：25 位出色数据科学家的建议和见解
像数据科学家一样思考
数据科学简介
R 实用数据科学
日常数据科学与（更便宜的 PDF 版本）
探索数据科学- 免费电子书采样器
探索数据丛林- 免费电子书采样器
Python 中的经典计算机科学问题
程序员数学早期访问
R 实践，第三版抢先体验
数据科学书本营抢先体验
数据科学思维：下一次科学、技术和经济革命
应用数据科学：数据驱动业务的经验教训
数据科学手册
基本自然语言处理- 抢先体验
挖掘海量数据集- 通过在线课程理解的免费电子书
熊猫行动- 抢先体验
遗传算法和遗传编程
进化算法的进展- 免费下载
基因编程：新方法和成功应用- 免费下载
进化算法- 免费下载
遗传编程进展，卷。 3 - 免费下载
全局优化算法：理论与应用- 免费下载
遗传算法和进化计算- 免费下载
凸优化- Stephen Boyd 所著的凸优化书籍 - 免费下载
使用 Python 和 PySpark 进行数据分析- 抢先体验
R 数据科学
建立数据科学职业生涯
机器学习书本营- 抢先体验
使用 Scikit-Learn、Keras 和 TensorFlow 进行机器学习实践，第二版
有效的数据科学基础设施
实用 MLOps：如何为生产模型做好准备
使用 Python 和 PySpark 进行数据分析
回归，友好指南- 抢先体验
流系统：大规模数据处理的内容、地点、时间和方式
命令行中的数据科学：用经过时间考验的工具面向未来
机器学习 - CIn UFPE
使用 Python 进行机器学习 vue教程
深度学习
设计云数据平台- 抢先体验
统计学习简介及其在 R 中的应用
统计学习的要素：数据挖掘、推理和预测
使用 PyTorch 进行深度学习
神经网络和深度学习
深度学习食谱
Python 机器学习简介
人工智能：计算代理基础，第二版- 免费 HTML 版本
人工智能的探索：思想和成就的历史- 免费下载
数据科学的图算法- 抢先体验
数据网格实际应用- 抢先体验
Julia 数据分析- 抢先体验
数据科学的休闲推理- 抢先体验
David Mertz 的正则表达式谜题和人工智能编码助手
深入学习深度学习
全民数据
可解释的机器学习：使黑盒模型可解释的指南- 免费 GitHub 版本
数据科学基础免费下载
Comet for DataScience：增强您管理和优化数据科学项目生命周期的能力
数据科学家软件工程- 抢先体验
Julia 数据科学- 抢先体验
统计学习简介- 下载页面
适合初学者的机器学习

预订优惠（附属）🛍

期刊、出版物和杂志

^ back to top ^

ICML - 国际机器学习会议
GECCO - 遗传与进化计算会议（GECCO）
EPJ数据科学
Journal of Data Science - 一本致力于统计方法应用的国际期刊
大数据研究
大数据杂志
大数据与社会
数据科学杂志
datatau.com/news - 类似于黑客新闻，但针对数据
数据科学 Trello 看板
Medium 数据科学主题- Medium 上数据科学相关出版物
走向数据科学遗传算法主题- 走向数据科学的遗传算法相关出版物
所有人工智能新闻- 人工智能/机器学习/大数据新闻聚合平台

时事通讯

^ back to top ^

人工智能文摘.每周通讯，了解人工智能、机器学习和数据科学的最新动态。档案。
数据谈话俱乐部。关于数据相关事物的每周通讯。档案。
分析工程综述。关于数据科学的时事通讯。档案。

博主

^ back to top ^

韦斯·麦金尼- 韦斯·麦金尼档案馆。
马修·拉塞尔- 挖掘社交网络。
格雷格·雷达- 格雷格·雷达个人博客
凯文·达文波特- 凯文·达文波特个人博客
朱莉娅·埃文斯- 递归中心校友
Hakan Kardas - 个人网页
肖恩·泰勒- 个人网页
德鲁·康威- 个人网页
希拉里·梅森- 个人网页
诺亚·伊林斯基- 个人博客
马特·哈里森- 个人博客
Vamshi Ambati - 万物数据科学
Prash Chan - 有关主数据管理及其相关话题的技术博客
Clare Corthell - 开源数据科学大师
Paul Miller Cloud of Data 的咨询服务总部位于英国，业务遍及全球，可帮助客户了解将数据等传输到云端的影响。
伦敦数据科学伦敦数据科学是一个致力于自由、开放、传播数据科学的非营利组织。我们是欧洲最大的数据科学社区。我们的社区中有超过 3,190 名数据科学家和数据极客。
Peter Skomoroch 的《数据整理》。机器学习、数据挖掘等
Quora Data Science - 专家的数据科学问答
Siah伯克利分校博士生
Louis Dorard是一名技术人员，对网络和大大小小的数据有着浓厚的兴趣
掌握机器学习，帮助专业程序员自信地应用机器学习算法来解决复杂问题。
丹尼尔·福赛斯- 个人博客
数据科学周刊- 每周新闻博客
革命分析- 数据科学博客
R 博客- R 博客
实用量化大数据
又一个数据博客又一个数据博客
Spenczar是Twitch的数据科学家。我处理整个数据管道，从跟踪到模型构建再到报告。
KD Nuggets数据挖掘、分析、大数据、数据、科学不是博客而是门户网站
Meta Brown - 个人博客
数据科学家正在构建数据科学家文化。
WhatSTheBigData是上述内容的部分、全部或更多内容，本博客探讨了它对信息技术、商业世界、政府机构和我们生活的影响。
Tevfik Kosar - Magnus Notitia
新数据科学家社会科学家如何进入大数据世界
哈佛数据科学- 统计计算和可视化的思考
数据科学 101 - 学习成为一名数据科学家
Kaggle 过去的解决方案
数据科学家之旅
纽约出租车可视化博客
学习爱好者
数据主义者
数据狂热
数据万能
P 值- 对数据科学、机器学习和统计的思考。
数据范围分析
数字化转型
数据科学家之旅
数据狂热博客-文件抽屉- Chris Said 的科学博客
埃米利奥·费拉拉的网页
数据新闻
Reddit 文本挖掘
潜望式
希拉里帕克
数据故事
数据科学实验室
的意思
数据王国的冒险
数据挖掘者博客
数据破坏
FlowingData - 可视化和统计
计算风险
奥莱利学习博客
多米诺数据实验室
我是 trask - 机器学习工艺博客
Vademecum of Practical Data Science - 现实世界问题的数据驱动解决方案的手册和秘诀
Dataconomy - 关于新兴数据经济的博客
Springboard - 为数据科学学习者提供资源的博客
Analytics Vidhya - 一个关于数据科学和分析学习材料的成熟网站。
奥卡姆剃刀- 专注于网络分析。
Data School - 适合初学者的数据科学教程！
Colah 的博客- 用于了解神经网络的博客！
Sebastian 的博客- NLP 和迁移学习的博客！
Distill - 致力于机器学习的清晰解释！
Chris Albon 的网站- 数据科学和人工智能笔记
Andrew Carr - 使用深奥编程语言的数据科学
floydhub - 进化算法博客
Jingles - 回顾并提取学术论文中的关键概念
nbshare - 数据科学笔记本
深与浅- 数据科学中深与浅的一切
Loic Tetrel - 数据科学博客
Chip Huyen 的博客- ML 工程、MLOps 以及 ML 在初创公司中的使用
Maria Khalusova - 数据科学博客
Aditi Rastogi - 机器学习、深度学习、数据科学博客
Santiago Basulto - 使用 Python 进行数据科学
Akhil Soni - 机器学习、深度学习和数据科学
Akhil Soni - 机器学习、深度学习和数据科学

演讲

^ back to top ^

播客

^ back to top ^

YouTube 视频和频道

^ back to top ^

社交

^ back to top ^

以下是一些社交媒体链接。与其他数据科学家联系！

脸书帐户
推特账户
电报频道
松弛社区
GitHub 群组
数据科学竞赛

脸书帐户

^ back to top ^

推特账户

^ back to top ^

推特	描述
大数据结合	为寻求将模型作为交易策略货币化的数据科学家进行快速、现场试用
大数据狂热	Data Viz Wiz，数据记者，Growth Hacker，《Data Science for Dummies》作者（2015 年）
大数据科学	大数据、数据科学、预测建模、业务分析、Hadoop、决策和运筹学。
查理·格林巴克	@ExploreAltamira 数据科学总监
克里斯·赛义德	Twitter 的数据科学家
克莱尔·科塞尔	开发、设计、数据科学 @mattermark #hackerei
达迪查尔斯·阿布纳	#datascientist @Ekimetrics。、#machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast
数据科学中心	数据科学中心是业界为大数据从业者提供的单一资源。
伦敦数据科学	数据科学。大数据。数据黑客。数据迷。数据初创公司。开放数据
数据科学蕾妮	记录我从攻读工程硕士学位的 SQL 数据分析师到数据科学家的历程
数据科学报告	使命是帮助指导和推进数据科学与分析领域的职业生涯
数据科学技巧	为世界各地的数据科学家提供的提示和技巧！ #数据科学#大数据
数据可视化	数据可视化、安全、军事
数据科学X
深度学习4j
DJ 帕蒂尔	白宫数据主管、RelateIQ 副总裁。
多米诺数据实验室
德鲁·康威	数据呆子、黑客、冲突学生。
埃米利奥·费拉拉	#网络、#机器学习和#数据科学。我在#社交媒体上工作。 @IndianaUniv 博士后
艾琳·巴托罗	与 #BigData 一起运行——对其炒作感到又爱又恨。 @iSchoolSU #DataScience 项目经理。
格雷格·雷达	在GrubHub工作有关数据和 pandas 的工作
格雷戈里·皮亚特斯基	KDnuggets 总裁，分析/大数据/数据挖掘/数据科学专家，KDD & SIGKDD 联合创始人，曾任 2 家初创公司首席科学家，兼职哲学家。
哈德利·威克姆	RStudio 首席科学家，奥克兰大学、斯坦福大学和莱斯大学统计学兼职教授。
哈坎·卡达斯	数据科学家
希拉里·梅森	@accel 的常驻数据科学家。
杰夫·哈默巴赫	转发有关数据科学的推文
约翰·迈尔斯·怀特	Facebook 科学家和 Julia 开发人员。《黑客机器学习》和《网站优化强盗算法》的作者。推文仅反映我的观点。
胡安·米格尔·拉维斯塔	微软数据科学团队首席数据科学家
朱莉娅·埃文斯	黑客 - Pandas - 数据分析
肯尼思·库基尔	《经济学人》的数据编辑和《大数据》( http://www.big-data-book.com/ )的合著者。
凯文·达文波特	https://www.meetup.com/San-Diego-Data-Science-R-Users-Group/的组织者
凯文·马卡姆	数据科学讲师、数据学院创始人
金·里斯	交互式数据可视化和工具。数据闲逛者。
柯克·伯恩	数据科学家、天体物理学博士、#BigData 顶级影响者。
琳达·雷格贝尔	数据讲故事，可视化。
路易斯·雷伊	博士生。编程、移动、网络。人工智能、智能机器人、机器学习、数据挖掘、自然语言处理、数据科学。
马克·史蒂文森	Salt (@SaltJobs) 数据分析招聘专家分析 - 洞察力 - 大数据 - 数据科学
马特·哈里森	全栈 Python 人、作者、讲师、目前担任数据科学家的观点。偶尔做父亲、做丈夫、做有机园艺。
马修·拉塞尔	挖掘社交网络。
梅尔特·努霍格鲁	BizQualify 数据科学家、开发人员
莫妮卡·罗加蒂	数据@Jawbone。在 LinkedIn 将数据转化为故事和产品。文本挖掘、应用机器学习、推荐系统。前游戏玩家、前机器编码员；命名者。
诺亚·伊林斯基	可视化和交互设计师。实用的自行车手。视觉书籍作者：https://www.oreilly.com/pub/au/4419
保罗·米勒	云计算/大数据/开放数据分析师和顾问。作家、演讲者和主持人。 Gigaom 研究分析师。
彼得·斯科莫罗奇	创建智能系统来自动执行任务并改进决策。企业家、前首席数据科学家@LinkedIn。机器学习、ProductRei、网络
普拉什·陈	IBM 解决方案架构师、主数据管理、数据质量和数据治理博客。数据科学、Hadoop、大数据和云。
Quora 数据科学	Quora 的数据科学主题
R-博主	在 R 博客圈、数据科学会议和（！）数据科学家的空缺职位上发表推文。
兰德印地语
兰迪·奥尔森	研究人工智能的计算机科学家。数据修补匠。 @DataIsBeautiful 的社区领导者。 #开放科学倡导者。
雷杰普·埃罗尔	数据科学极客@UALR
瑞安·欧尔班	数据科学家、基因折纸师、硬件爱好者
肖恩·泰勒	社会科学家。黑客。 Facebook 数据科学团队。关键词：实验、因果推理、统计学、机器学习、经济学。
西尔维娅·K·斯皮瓦	思科的#数据科学
严厉的B·古普塔	BBVA Compass 数据科学家
斯宾塞·纳尔逊	数据迷
塔尔哈·奥兹	喜欢 ABM、SNA、DM、ML、NLP、HI、Python、Java。前百分位 Kaggler/数据科学家
塔索斯·斯卡拉蒂斯	复杂事件处理、大数据、人工智能和机器学习。热衷于编程和开源。
特里·蒂姆科	信息政府；大数据;数据即服务；数据科学；开放、社交和商业数据融合
托尼·贝尔	Ovum 的 IT 分析师负责大数据和数据管理以及一些系统工程。
托尼·奥赫达	数据科学家、作家、企业家。联合创始人@DataCommunityDC。创始人@DistrictDataLab。 #数据科学 #BigData #DataDC
瓦姆希·安巴蒂	数据科学@PayPal。 #NLP，#机器学习；卡内基梅隆大学校友博士（博客：https ://allthingsds.wordpress.com ）
韦斯·麦金尼	Pandas（Python 数据分析库）。
威利·艾德	高级经理 - @Seagate 大数据分析 @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop、#Cloud、#Digital 和 #R 爱好者
WNYC 数据新闻团队	@WNYC 的数据新闻团队。实践数据驱动的新闻报道，使其可视化并展示我们的工作。
阿列克谢·格里戈列夫	数据科学作者
伊尔克·阿尔斯兰	数据科学作者。主要分享有关 Julia 编程的内容
不可避免的	总部位于英国英格兰的人工智能和数据科学初创公司

电报频道

^ back to top ^

开放数据科学– 第一个 Telegram 数据科学频道。涵盖与数据科学相关的所有技术和流行人员：人工智能、大数据、机器学习、统计学、普通数学及其应用。
损失函数色情— DS/ML 主题的精美帖子，带有视频或图形可视化。
机器学习——每日机器学习新闻。

松弛社区

顶部

GitHub 群组

伯克利数据科学研究所

数据科学竞赛

一些数据挖掘竞赛平台

信息图表

^ back to top ^

预览	描述
	数据科学家与数据工程师的主要区别
	DataCamp 的《8 步成为数据科学家》视觉指南(img)
	所需技能的思维导图（img）
	Swami Chandrasekaran通过地铁地图制作了课程。
	作者：@kzawadz通过Twitter
	通过数据科学中心
	数据科学大战：R 与 Python
	如何选择统计或机器学习技术
	选择正确的估算器
	数据科学行业：谁做什么
	数据科学维恩欧拉图
	Springboard这篇文章中的不同数据科学技能和角色
	一种简单而友好的方式来教您的非数据科学家/非统计学家同事如何避免数据错误。来自 Geckoboard 的数据素养课程。

数据集

^ back to top ^

学术洪流
ADS-B 交换- 飞机和广播自动相关监视 (ADS-B) 源的特定数据集。
hadoopIlluminated.com
data.gov - 美国政府开放数据的主页
美国人口普查局
usgovxml.com
enigma.com - 浏览公共数据世界 - 快速搜索和分析政府、公司和组织发布的数十亿条公共记录。
数据中心io
aws.amazon.com/datasets
数据引用网站
欧洲数据官方门户
纳斯达克：DATA - 纳斯达克数据链接金融、经济和另类数据集的主要来源。
无花果分享网
GeoLite 旧版可下载数据库
Quora 的大数据集答案
公共大数据集
Kaggle 数据集
人类遗传变异的深度目录
由社区管理的知名人物、地点和事物的数据库
谷歌公开数据
世界银行数据
纽约市出租车数据
费城开放数据将费城的人们与数据联系起来
grouplens.org示例电影（带有评级）、书籍和 wiki 数据集
加州大学欧文分校机器学习存储库- 包含有利于机器学习的数据集
Hilary Mason的研究质量数据集
国家环境信息中心
ClimateData.us（相关：美国气候适应力工具包）
r/数据集
MapLight - 免费提供各种数据供公众免费使用。单击下面的数据集以了解更多信息
GHDx - 健康指标和评估研究所 - 来自世界各地的健康和人口数据集目录，包括 IHME 结果
圣路易斯联储经济数据 - FRED
新西兰经济研究所 – Data1850
开放数据源
联合国儿童基金会数据
取消数据
NASA 社会经济数据和应用中心 - SEDAC
GDELT 项目
瑞典，统计
StackExchange Data Explorer - 一种开源工具，用于对 Stack Exchange 网络中的公共数据运行任意查询。
SocialGrep - 开放 Reddit 数据集的集合。
旧金山政府开放数据
IBM 资产数据集
开放数据索引
公共 Git 档案
GHT种子
微软研究院开放数据
印度开放政府数据平台
Google 数据集搜索（测试版）
NAYN.CO 土耳其新闻类别
新冠肺炎
Covid-19 谷歌
安然电子邮件数据集
5000 张衣服图片
IBB 开放门户
人道主义数据交换

漫画

^ back to top ^

其他很棒的清单

爱好

很棒的音乐制作

Name		Name	Last commit message	Last commit date
Latest commit History 1,051 Commits
.github		.github
assets		assets
.gitignore		.gitignore
.travis.yml		.travis.yml
CNAME		CNAME
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
LICENSE		LICENSE
OWNERS		OWNERS
README.md		README.md
mlc_config.json		mlc_config.json

License

yuanzhongqiao/awesome-datascience

Folders and files

Latest commit

History

Repository files navigation

AWESOME DATA SCIENCE

出色的数据科学

赞助商

目录

什么是数据科学？

我从哪说起呢？

真实世界

灾难

培训资源

教程

免费课程

慕课

强化课程

学院

数据科学工具箱

算法

三种机器学习系统

监督学习

无监督学习

半监督学习

强化学习

数据挖掘算法

深度学习架构

通用机器学习包

深度学习包

PyTorch 生态系统

TensorFlow 生态系统

Keras 生态系统

可视化工具

杂项工具

文学与媒体

图书

预订优惠（附属）🛍

期刊、出版物和杂志

时事通讯

博主

演讲

播客

YouTube 视频和频道

社交

脸书帐户

推特账户

电报频道

松弛社区

GitHub 群组

数据科学竞赛

乐趣

信息图表

数据集

漫画

其他很棒的清单

爱好

About

Resources

License

Code of conduct

Stars

Watchers

Forks

Releases

Packages 0

Packages