Skip to content

📝 一个很棒的数据科学存储库,用于学习和应用现实世界的问题。

License

Notifications You must be signed in to change notification settings

yuanzhongqiao/awesome-datascience

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

AWESOME DATA SCIENCE

Awesome

出色的数据科学

惊人的

一个开源数据科学存储库,用于学习和应用来解决现实世界的问题。

这是开始学习数据科学的捷径。只需按照步骤回答“什么是数据科学以及我应该学习什么来学习数据科学?”的问题。

赞助商

赞助 沥青
--- 成为第一个赞助者!github@academic.io

目录

什么是数据科学?

^ back to top ^

数据科学是当今计算机和互联网领域最热门的话题之一。直到今天,人们已经从应用程序和系统中收集了数据,现在是分析它们的时候了。接下来的步骤是根据数据提出建议并创建对未来的预测。在这里您可以找到数据科学的最大问题以及专家的数百个答案。

关联 预览
什么是数据科学 @ O'reilly 数据科学家将创业精神与耐心、逐步构建数据产品的意愿、探索能力以及迭代解决方案的能力结合起来。它们本质上是跨学科的。他们可以解决问题的各个方面,从最初的数据收集和数据调节到得出结论。他们可以跳出框框思考,提出看待问题的新方法,或者解决非常广泛定义的问题:“这里有很多数据,你能从中得到什么?”
什么是数据科学@Quora 数据科学是结合数据技术、算法开发、数据干扰等多个方面来研究数据、分析数据并找到困难问题的创新解决方案。基本上,数据科学就是通过寻找创造性的方法来分析数据并推动业务增长。
21世纪最性感的工作 今天的数据科学家类似于 20 世纪 80 年代和 90 年代的华尔街“宽客”。那时,具有物理和数学背景的人们涌入投资银行和对冲基金,在那里他们可以设计全新的算法和数据策略。随后,多所大学开设了金融工程硕士课程,培养了主流公司更容易接触到的第二代人才。 20 世纪 90 年代后期,搜索工程师重复了这种模式,他们的精湛技能很快就在计算机科学课程中得到教授。
维基百科 数据科学是一个跨学科领域,它使用科学方法、流程、算法和系统从许多结构化和非结构化数据中提取知识和见解。数据科学与数据挖掘、机器学习和大数据有关。
如何成为一名数据科学家 数据科学家是大数据管理员,收集和分析大量结构化和非结构化数据。数据科学家的角色结合了计算机科学、统计学和数学。他们对数据进行分析、处理和建模,然后解释结果,为公司和其他组织制定可行的计划。
#datascience 的历史很短 数据科学家如何变得性感的故事主要是成熟的统计学学科与非常年轻的学科——计算机科学结合的故事。 “数据科学”一词最近才出现,专门指代一种有望理解海量大数据的新职业。但理解数据有着悠久的历史,科学家、统计学家、图书馆员、计算机科学家和其他人多年来一直在讨论这一问题。以下时间线追溯了“数据科学”一词的演变及其使用、定义它的尝试以及相关术语。
数据科学家的软件开发资源 数据科学家专注于通过探索性分析、统计和模型来理解数据。软件开发人员使用不同的工具应用一组单独的知识。尽管他们的重点似乎无关,但数据科学团队可以从采用软件开发最佳实践中受益。版本控制、自动化测试和其他开发技能有助于创建可重复的、可用于生产的代码和工具。

我从哪说起呢?

^ back to top ^

虽然不是绝对必要的,但拥有一门编程语言是成为一名有效的数据科学家的一项关键技能。目前,最流行的语言是Python,紧随其后的是R。 Python 是一种通用脚本语言,可应用于各个领域。 R 是一种用于统计的领域特定语言,其中包含许多开箱即用的常用统计工具。

Python是迄今为止科学界最流行的语言,这在很大程度上归功于它的易用性以及用户生成的包的充满活力的生态系统。要安装包,有两种主要方法:Pip(调用为pip install),与 Python 捆绑在一起的包管理器;以及Anaconda(调用为conda install),这是一个功能强大的包管理器,可以安装 Python、R 的包,并可以下载可执行文件,例如吉特。

与 R 不同,Python 并不是从头开始构建时就考虑到了数据科学,但有大量第三方库可以弥补这一点。可以在本文档后面找到更详尽的包列表,但这四个包是开始您的数据科学之旅的一组不错的选择:Scikit-Learn是一个通用数据科学包,它实现了最流行的算法- 它还包括丰富的文档、教程和它实现的模型的示例。即使您更喜欢编写自己的实现,Scikit-Learn 也是您会发现的许多常见算法背后的具体细节的宝贵参考。使用Pandas,人们可以收集数据并将其分析为一种方便的表格格式。Numpy为数学运算提供了非常快速的工具,重点是向量和矩阵。Seaborn本身基于Matplotlib包,是一种生成漂亮的数据可视化效果的快速方法,具有许多开箱即用的良好默认值,以及一个展示如何生成许多常见数据可视化效果的图库。

当踏上成为数据科学家的旅程时,语言的选择并不是特别重要,Python 和 R 都有各自的优点和缺点。选择您喜欢的语言,然后查看我们下面列出的免费课程之一!

真实世界

^ back to top ^

数据科学是一种强大的工具,可用于各个领域,通过从复杂数据中提取见解和模式来解决现实世界的问题。

灾难

^ back to top ^

培训资源

^ back to top ^

你如何学习数据科学?当然是通过数据科学!好吧,好吧——当你刚开始的时候,这可能不是特别有帮助。在本节中,我们列出了一些学习资源,按从最少到最大承诺的粗略顺序排列 -教程大规模开放在线课程 (MOOC)强化课程和学院

教程

^ back to top ^

免费课程

^ back to top ^

慕课

^ back to top ^

强化课程

^ back to top ^

学院

^ back to top ^

数据科学工具箱

^ back to top ^

本节是数据科学领域中的包、工具、算法和其他有用项目的集合。

算法

^ back to top ^

这些是一些机器学习和数据挖掘算法和模型,可帮助您理解数据并从中获取意义。

三种机器学习系统

  • 基于人工监督的培训
  • 基于动态增量学习
  • 基于数据点比较和模式检测

监督学习

无监督学习

半监督学习

强化学习

数据挖掘算法

深度学习架构

通用机器学习包

^ back to top ^

深度学习包

PyTorch 生态系统

TensorFlow 生态系统

Keras 生态系统

可视化工具

^ back to top ^

杂项工具

^ back to top ^

关联 描述
数据科学生命周期过程 数据科学生命周期过程是一个反复、可持续地将数据科学团队从想法转变为价值的过程。该过程记录在此存储库中
数据科学生命周期模板存储库 数据科学生命周期项目的模板存储库
雷克斯梅克斯 用于公平评估的通用推荐指标库。
化学X 基于 PyTorch 的深度学习库,用于药物对评分。
PyTorch 几何时态 动态图的表示学习。
小毛球 NetworkX 的图形采样库,具有类似 Scikit-Learn 的 API。
空手道俱乐部 NetworkX 的无监督机器学习扩展库,具有类似 Scikit-Learn 的 API。
机器学习工作区 用于机器学习和数据科学的基于 Web 的一体化 IDE。工作区部署为 Docker 容器,并预加载了各种流行的数据科学库(例如 Tensorflow、PyTorch)和开发工具(例如 Jupyter、VS Code)
海王星.ai 社区友好的平台支持数据科学家创建和共享机器学习模型。 Neptune 促进团队合作、基础设施管理、模型比较和可重复性。
步调 用于快速且可重复的机器学习实验的轻量级 Python 库。引入了非常简单的界面,可以实现干净的机器学习管道设计。
步进工具包 神经网络、变压器和模型的精选集合,使您的机器学习工作更快、更有效。
来自谷歌的数据实验室 使用熟悉的语言(例如 Python 和 SQL)以交互方式轻松探索、可视化、分析和转换数据。
Hortonworks 沙箱 是一个个人、便携式 Hadoop 环境,附带十几个交互式 Hadoop 教程。
是一个用于统计计算和图形的免费软件环境。
整洁宇宙 是专为数据科学设计的 R 软件包的固执己见的集合。所有包都共享底层设计理念、语法和数据结构。
RStudio IDE – 强大的 R 用户界面。它是免费且开源的,可在 Windows、Mac 和 Linux 上运行。
Python - 熊猫 - 蟒蛇 完全免费的企业级 Python 发行版,用于大规模数据处理、预测分析和科学计算
熊猫图形用户界面 熊猫图形用户界面
Scikit-Learn Python 中的机器学习
数值模拟 NumPy 是使用 Python 进行科学计算的基础。它支持大型多维数组和矩阵,并包含各种高级数学函数来对这些数组进行操作。
瓦克斯 Vaex 是一个 Python 库,可让您可视化大型数据集并高速计算统计数据。
科学Py SciPy 与 NumPy 数组配合使用,并为数值积分和优化提供有效的例程。
数据科学工具箱 Coursera 课程
数据科学工具箱 博客
Wolfram 数据科学平台 采用数值、文本、图像、GIS 或其他数据并对其进行 Wolfram 处理,进行全方位的数据科学分析和可视化,并自动生成丰富的交互式报告 - 所有这些都由革命性的基于知识的 Wolfram 语言提供支持。
数据狗 适用于大规模数据科学的解决方案、代码和开发运营。
方差 无需编写 JavaScript 即可构建强大的 Web 数据可视化
风筝开发套件 Kite 软件开发工具包(Apache 许可证,版本 2.0),简称 Kite,是一组库、工具、示例和文档,专注于让您更轻松地在 Hadoop 生态系统之上构建系统。
多米诺数据实验室 运行、扩展、共享和部署您的模型——无需任何基础设施或设置。
阿帕奇弗林克 高效、分布式、通用数据处理平台。
阿帕奇·哈马 Apache Hama 是一个 Apache 顶级开源项目,允许您进行 MapReduce 之外的高级分析。
韦卡 Weka 是用于数据挖掘任务的机器学习算法的集合。
八度 GNU Octave 是一种高级解释语言,主要用于数值计算。(免费 Matlab)
阿帕奇火花 快如闪电的集群计算
水圈薄雾 用于将 Apache Spark 分析作业和机器学习模型公开为实时、批处理或反应式 Web 服务的服务。
数据力学 一个数据科学和工程平台,使 Apache Spark 对开发人员更加友好且更具成本效益。
咖啡 深度学习框架
火炬 LUAJIT 的科学计算框架
Nervana 基于 python 的深度学习框架 英特尔® Nervana™ 参考深度学习框架致力于在所有硬件上实现最佳性能。
斯卡莱 NodeJS 中的高性能分布式数据处理
气溶胶 为人类构建的机器学习包。
英特尔架构 英特尔® 深度学习框架
数据包装器 一个开源数据可视化平台,帮助每个人创建简单、正确和可嵌入的图表。也在github.com上
张量流 TensorFlow 是一个用于机器智能的开源软件库
自然语言工具包 用于自然语言处理和分类的介绍性但功能强大的工具包
注释实验室 用于文本注释和深度学习模型训练/调整的免费端到端无代码平台。对命名实体识别、分类、关系提取和断言状态 Spark NLP 模型的开箱即用支持。对用户、团队、项目、文档的无限支持。
Node.js 的 nlp 工具包 本模块涵盖一些基本的 nlp 原理和实现。主要关注点是性能。当我们在 nlp 中处理样本或训练数据时,我们很快就会耗尽内存。因此,该模块中的每个实现都被写入为流,以仅将当前在任何步骤处理的数据保存在内存中。
朱莉娅 用于技术计算的高级、高性能动态编程语言
尤莉娅 与 Jupyter 交互环境相结合的 Julia 语言后端
阿帕奇齐柏林飞艇 基于 Web 的笔记本,支持使用 SQL、Scala 等进行数据驱动、交互式数据分析和协作文档
特征工具 用 python 编写的自动化特征工程开源框架
擎天柱 使用 PySpark 后端进行清理、预处理、特征工程、探索性数据分析和简单的机器学习。
蛋白表达 快速且与框架无关的图像增强库,实现了多种增强技术。支持开箱即用的分类、分割和检测。用于赢得 Kaggle、Topcoder 以及 CVPR 研讨会的多项深度学习竞赛。
数字化VC 开源数据科学版本控制系统。它有助于跟踪、组织数据科学项目并使之可重复。在其非常基本的场景中,它有助于版本控制并共享大型数据和模型文件。
兰布多 是一种工作流引擎,通过将 (i) 特征工程和机器学习 (ii) 模型训练和预测 (iii) 表填充和列评估结合到一个分析管道中,显着简化了数据分析。
盛宴 用于管理、发现和访问机器学习功能的功能存储。 Feast 为模型训练和模型服务提供一致的特征数据视图。
多轴子 一个用于可重复和可扩展的机器学习和深度学习的平台。
光标签 团队文本注释工具
优比艾 易于使用的文本注释工具,为团队提供最全面的自动注释功能。支持 NER、关系和文档分类以及发票标签的 OCR 注释
火车 Auto-Magical Experiment Manager、AI 版本控制和 DevOps
啤酒花工厂 具有特征存储的开源数据密集型机器学习平台。摄取和管理在线(MySQL Cluster)和离线(Apache Hive)访问、大规模训练和服务模型的功能。
思维数据库 MindsDB 是一个为开发人员提供的可解释的 AutoML 框架。借助 MindsDB,您只需一行代码即可构建、训练和使用最先进的 ML 模型。
轻木 一种基于 Pytorch 的框架,可将机器学习问题分解为更小的块,这些块可以无缝地粘合在一起,目标是用一行代码构建预测模型。
AWS 数据管理员 一个开源 Python 包,可将 Pandas 库的功能扩展到 AWS,连接 DataFrame 和 AWS 数据相关服务(Amazon Redshift、AWS Glue、Amazon Athena、Amazon EMR 等)。
亚马逊重新识别 AWS Rekognition 是一项服务,可让使用 Amazon Web Services 的开发人员将图像分析添加到其应用程序中。编目资产、自动化工作流程并从媒体和应用程序中提取意义。
亚马逊文本 自动从任何文档中提取打印文本、手写内容和数据。
亚马逊寻找视觉 使用计算机视觉发现产品缺陷以实现自动化质量检查。识别缺失的产品组件、车辆和结构损坏以及违规行为,以进行全面的质量控制。
亚马逊代码大师 通过 ML 支持的建议自动进行代码审查并优化应用程序性能。
慢性粒细胞白血病 用于在数据科学项目中使用持续集成的开源工具包。使用 GitHub Actions 和 GitLab CI 在类似生产的环境中自动训练和测试模型,并自动生成有关拉取/合并请求的可视化报告。
达斯克 一个开源 Python 库,可轻松将您的分析代码转移到分布式计算系统(大数据)
统计模型 基于 Python 的推论统计、假设检验和回归框架
根森 用于自然语言文本主题建模的开源库
斯帕西 高性能自然语言处理工具包
网格工作室 Grid studio 是一个基于 Web 的电子表格应用程序,完全集成了 Python 编程语言。
Python 数据科学手册 Python 数据科学手册:Jupyter Notebooks 中的全文
沙普利 一个数据驱动的框架,用于量化机器学习集成中分类器的价值。
DAG 中心 一个基于开源工具构建的平台,用于数据、模型和管道管理。
深记 一种新型数据科学笔记本。兼容 Jupyter,可实时协作并在云端运行。
瓦洛海 一个处理机器编排、自动再现和部署的 MLOps 平台。
PyMC3 用于概率编程的 Python 库(贝叶斯推理和机器学习)
派斯坦 Stan 的 Python 接口(贝叶斯推理和建模)
嗯学习 隐马尔可夫模型的无监督学习和推理
混沌天才 机器学习驱动的分析引擎,用于异常值/异常检测和根本原因分析
敏捷盒子 一个全栈 MLOps 平台,旨在帮助世界各地的数据科学家和机器学习从业者通过网络浏览器发现、创建和启动多云应用程序。
陶惠 一个 Python 库,可帮助您将非结构化数据编码为嵌入。
线性Py 是否曾因清理又长又乱的 Jupyter 笔记本而感到沮丧?使用开源 Python 库 LineaPy,只需两行代码即可将混乱的开发代码转换为生产管道。
环境变量 🏕️ 数据科学和 AI/ML 工程团队的机器学习开发环境
探索数据科学图书馆 一个搜索引擎🔎工具,用于发现和查找热门和新图书馆、顶级作者、趋势项目工具包、讨论、教程和学习资源的精选列表
最大似然法 🐶 按照 GitOps 原则版本和部署您的 ML 模型
ML流 MLOps 框架,用于在整个生命周期中管理 ML 模型
洁净实验室 用于以数据为中心的 AI 并自动检测 ML 数据集中的各种问题的 Python 库
自动胶子 AutoML 可轻松对图像、文本、表格、时间序列和多模态数据进行准确预测
阿里兹人工智能 Arize AI 社区层可观察性工具,用于监控生产中的机器学习模型以及数据质量和性能漂移等根本原因问题。
Aureo.io Aureo.io 是一个专注于构建人工智能的低代码平台。它为用户提供了创建管道、自动化并将其与人工智能模型集成的能力——所有这些都带有他们的基本数据。
ERD实验室 为开发人员打造的免费基于云的实体关系图 (ERD) 工具。
阿里兹-菲尼克斯 笔记本中的 MLOps - 发现见解、揭示问题、监控和微调模型。
彗星 MLOps 平台具有实验跟踪、模型生产管理、模型注册表和完整的数据沿袭,可支持从训练到生产的 ML 工作流程。
彗星法学硕士 在一款易于使用的 100% 开源工具中记录、跟踪、可视化和搜索您的 LLM 提示和链。
合成的 人工智能驱动的研究协作环境。查找相关论文、创建集合来管理参考书目并总结内容——所有这些都集中在一个地方
发球区 自动组织数据可视化输出的工作流工具

文学与媒体

^ back to top ^

本部分包括一些额外的阅读材料、可供观看的频道和可供收听的演讲。

图书

^ back to top ^

预订优惠(附属)🛍

期刊、出版物和杂志

^ back to top ^

时事通讯

^ back to top ^

博主

^ back to top ^

演讲

^ back to top ^

播客

^ back to top ^

YouTube 视频和频道

^ back to top ^

社交

^ back to top ^

以下是一些社交媒体链接。与其他数据科学家联系!

脸书帐户

^ back to top ^

推特账户

^ back to top ^

推特 描述
大数据结合 为寻求将模型作为交易策略货币化的数据科学家进行快速、现场试用
大数据狂热 Data Viz Wiz,数据记者,Growth Hacker,《Data Science for Dummies》作者(2015 年)
大数据科学 大数据、数据科学、预测建模、业务分析、Hadoop、决策和运筹学。
查理·格林巴克 @ExploreAltamira 数据科学总监
克里斯·赛义德 Twitter 的数据科学家
克莱尔·科塞尔 开发、设计、数据科学 @mattermark #hackerei
达迪查尔斯·阿布纳 #datascientist @Ekimetrics。 、#machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast
数据科学中心 数据科学中心是业界为大数据从业者提供的单一资源。
伦敦数据科学 数据科学。大数据。数据黑客。数据迷。数据初创公司。开放数据
数据科学蕾妮 记录我从攻读工程硕士学位的 SQL 数据分析师到数据科学家的历程
数据科学报告 使命是帮助指导和推进数据科学与分析领域的职业生涯
数据科学技巧 为世界各地的数据科学家提供的提示和技巧! #数据科学#大数据
数据可视化 数据可视化、安全、军事
数据科学X
深度学习4j
DJ 帕蒂尔 白宫数据主管、RelateIQ 副总裁。
多米诺数据实验室
德鲁·康威 数据呆子、黑客、冲突学生。
埃米利奥·费拉拉 #网络、#机器学习和#数据科学。我在#社交媒体上工作。 @IndianaUniv 博士后
艾琳·巴托罗 与 #BigData 一起运行——对其炒作感到又爱又恨。 @iSchoolSU #DataScience 项目经理。
格雷格·雷达 GrubHub工作有关数据和 pandas 的工作
格雷戈里·皮亚特斯基 KDnuggets 总裁,分析/大数据/数据挖掘/数据科学专家,KDD & SIGKDD 联合创始人,曾任 2 家初创公司首席科学家,兼职哲学家。
哈德利·威克姆 RStudio 首席科学家,奥克兰大学、斯坦福大学和莱斯大学统计学兼职教授。
哈坎·卡达斯 数据科学家
希拉里·梅森 @accel 的常驻数据科学家。
杰夫·哈默巴赫 转发有关数据科学的推文
约翰·迈尔斯·怀特 Facebook 科学家和 Julia 开发人员。 《黑客机器学习》和《网站优化强盗算法》的作者。推文仅反映我的观点。
胡安·米格尔·拉维斯塔 微软数据科学团队首席数据科学家
朱莉娅·埃文斯 黑客 - Pandas - 数据分析
肯尼思·库基尔 《经济学人》的数据编辑和《大数据》( http://www.big-data-book.com/ )的合著者。
凯文·达文波特 https://www.meetup.com/San-Diego-Data-Science-R-Users-Group/的组织者
凯文·马卡姆 数据科学讲师、数据学院创始人
金·里斯 交互式数据可视化和工具。数据闲逛者。
柯克·伯恩 数据科学家、天体物理学博士、#BigData 顶级影响者。
琳达·雷格贝尔 数据讲故事,可视化。
路易斯·雷伊 博士生。编程、移动、网络。人工智能、智能机器人、机器学习、数据挖掘、自然语言处理、数据科学。
马克·史蒂文森 Salt (@SaltJobs) 数据分析招聘专家 分析 - 洞察力 - 大数据 - 数据科学
马特·哈里森 全栈 Python 人、作者、讲师、目前担任数据科学家的观点。偶尔做父亲、做丈夫、做有机园艺。
马修·拉塞尔 挖掘社交网络。
梅尔特·努霍格鲁 BizQualify 数据科学家、开发人员
莫妮卡·罗加蒂 数据@Jawbone。在 LinkedIn 将数据转化为故事和产品。文本挖掘、应用机器学习、推荐系统。前游戏玩家、前机器编码员;命名者。
诺亚·伊林斯基 可视化和交互设计师。实用的自行车手。视觉书籍作者:https://www.oreilly.com/pub/au/4419
保罗·米勒 云计算/大数据/开放数据分析师和顾问。作家、演讲者和主持人。 Gigaom 研究分析师。
彼得·斯科莫罗奇 创建智能系统来自动执行任务并改进决策。企业家、前首席数据科学家@LinkedIn。机器学习、ProductRei、网络
普拉什·陈 IBM 解决方案架构师、主数据管理、数据质量和数据治理博​​客。数据科学、Hadoop、大数据和云。
Quora 数据科学 Quora 的数据科学主题
R-博主 在 R 博客圈、数据科学会议和(!)数据科学家的空缺职位上发表推文。
兰德印地语
兰迪·奥尔森 研究人工智能的计算机科学家。数据修补匠。 @DataIsBeautiful 的社区领导者。 #开放科学倡导者。
雷杰普·埃罗尔 数据科学极客@UALR
瑞安·欧尔班 数据科学家、基因折纸师、硬件爱好者
肖恩·泰勒 社会科学家。黑客。 Facebook 数据科学团队。关键词:实验、因果推理、统计学、机器学习、经济学。
西尔维娅·K·斯皮瓦 思科的#数据科学
严厉的B·古普塔 BBVA Compass 数据科学家
斯宾塞·纳尔逊 数据迷
塔尔哈·奥兹 喜欢 ABM、SNA、DM、ML、NLP、HI、Python、Java。前百分位 Kaggler/数据科学家
塔索斯·斯卡拉蒂斯 复杂事件处理、大数据、人工智能和机器学习。热衷于编程和开源。
特里·蒂姆科 信息政府;大数据;数据即服务;数据科学;开放、社交和商业数据融合
托尼·贝尔 Ovum 的 IT 分析师负责大数据和数据管理以及一些系统工程。
托尼·奥赫达 数据科学家、作家、企业家。联合创始人@DataCommunityDC。创始人@DistrictDataLab。 #数据科学 #BigData #DataDC
瓦姆希·安巴蒂 数据科学@PayPal。 #NLP,#机器学习;卡内基梅隆大学校友博士(博客:https ://allthingsds.wordpress.com )
韦斯·麦金尼 Pandas(Python 数据分析库)。
威利·艾德 高级经理 - @Seagate 大数据分析 @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop、#Cloud、#Digital 和 #R 爱好者
WNYC 数据新闻团队 @WNYC 的数据新闻团队。实践数据驱动的新闻报道,使其可视化并展示我们的工作。
阿列克谢·格里戈列夫 数据科学作者
伊尔克·阿尔斯兰 数据科学作者。主要分享有关 Julia 编程的内容
不可避免的 总部位于英国英格兰的人工智能和数据科学初创公司

电报频道

^ back to top ^

  • 开放数据科学– 第一个 Telegram 数据科学频道。涵盖与数据科学相关的所有技术和流行人员:人工智能、大数据、机器学习、统计学、普通数学及其应用。
  • 损失函数色情— DS/ML 主题的精美帖子,带有视频或图形可视化。
  • 机器学习——每日机器学习新闻。

松弛社区

顶部

GitHub 群组

数据科学竞赛

一些数据挖掘竞赛平台

乐趣

信息图表

^ back to top ^

预览 描述
数据科学家与数据工程师的主要区别
DataCamp 的《8 步成为数据科学家》视觉指南(img)
所需技能的思维导图(img
Swami Chandrasekaran通过地铁地图制作了课程
作者:@kzawadz通过Twitter
通过数据科学中心
数据科学大战:R 与 Python
如何选择统计或机器学习技术
选择正确的估算器
数据科学行业:谁做什么
数据科学维恩欧拉图
Springboard这篇文章中的不同数据科学技能和角色
要避免的数据谬误 一种简单而友好的方式来教您的非数据科学家/非统计学家同事如何避免数据错误。来自 Geckoboard 的数据素养课程

数据集

^ back to top ^

漫画

^ back to top ^

其他很棒的清单

爱好

<script async src=" https://www.googletagmanager.com/gtag/js?id=G-YL0RV0E5XZ"&gt;&lt;/script> <script> window.dataLayer = window.dataLayer || [];函数 gtag(){dataLayer.push(arguments);} gtag('js', new Date()); gtag('配置', 'G-YL0RV0E5XZ'); </脚本>

About

📝 一个很棒的数据科学存储库,用于学习和应用现实世界的问题。

Resources

License

Code of conduct

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published