hadoop

Star

Here are 138 public repositories matching this topic...

apache / kyuubi

Star

Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses.

kubernetes sql spark hive hadoop jdbc thrift data-lake hacktoberfest spark-sql

Updated Oct 2, 2024
Scala

apache / carbondata

Star

High performance data store solution

java scala big-data spark hadoop apache data-format carbondata

Updated Oct 5, 2024
Scala

geekyouth / SZT-bigdata

Star

深圳地铁大数据客流分析系统🚇🚄🌟

Updated May 16, 2024
Scala

AbsaOSS / spline

Star

Data Lineage Tracking And Visualization Solution

visualization tracking scala spark hadoop bigdata lineage

Updated Oct 6, 2024
Scala

aliyun / aliyun-emapreduce-datasources

Star

Extended datasource support for Spark/Hadoop on Aliyun E-MapReduce.

kafka spark hadoop datasources aliyun e-mapreduce

Updated Nov 30, 2023
Scala

soniclavier / bigdata-notebook

Star

machine-learning streaming kafka spark hadoop storm bigdata flume flink

Updated Nov 26, 2019
Scala

mjakubowski84 / parquet4s

Sponsor

Star

Read and write Parquet in Scala. Use Scala classes as schema. No need to start a cluster.

aws scala akka hadoop bigdata google-storage fs2 writer streams reader parquet akka-streams parquet-files

Updated Aug 21, 2024
Scala

Thomas-George-T / Movies-Analytics-in-Spark-and-Scala

Star

Data cleaning, pre-processing, and Analytics on a million movies using Spark and Scala.

scala movies big-data spark hadoop analytics movielens-data-analysis shell-script dataframes movielens-dataset rdd case-study spark-sql spark-programs spark-dataframes big-data-analytics spark-scala big-data-projects spark-rdd

Updated May 19, 2021
Scala

autovia / ros_hadoop

Star

Hadoop splittable InputFormat for ROS. Process rosbag with Hadoop Spark and other HDFS compatible systems.

machine-learning spark hadoop robotics ros hdfs bag rosbag hadoop-inputformat ros-bag ros-hadoop

Updated Nov 13, 2020
Scala

Qihoo360 / XLearning-XDML

Star

extremely distributed machine learning

machine-learning ai spark hadoop hazelcast kudu distributed parameter-server

Updated Dec 27, 2022
Scala

51zero / eel-sdk

Star

Big Data Toolkit for the JVM

scala kafka big-data hive hadoop etl kudu parquet orc

Updated Nov 4, 2020
Scala

archivesunleashed / aut

Star

The Archives Unleashed Toolkit is an open-source toolkit for analyzing web archives.

scala big-data spark apache-spark hadoop analysis python3 text-extraction pyspark digital-humanities dataframe big-data-analytics webarchives network-graphing

Updated Feb 27, 2024
Scala

openucx / sparkucx

Star

A high-performance, scalable and efficient ShuffleManager plugin for Apache Spark, utilizing UCX communication layer

big-data spark apache-spark hadoop hpc rdma

Updated Oct 30, 2023
Scala

CoxAutomotiveDataSolutions / spark-distcp

Star

A re-implementation of Hadoop DistCP in Apache Spark

spark apache-spark hadoop data-engineering distcp

Updated Dec 20, 2023
Scala

liumingmusic / HadoopLearning

Star

全套大数据基础学习教程，包含最基础的centos、maven。大数据主要包含hdfs、mr、yarn、hbase、kafka、scala、sparkcore、sparkstreaming、sparksql。教程包含所有的源代码演示以及在线文档说明。

scala yarn hadoop maven centos hbase hdfs sparksql mapreduce sparkstreaming spake2

Updated Oct 4, 2022
Scala

romans-weapon / spear-framework

Star

Rapid ETL/ELT-connectors/pipeline development leveraged on top of Apache Spark

scala kafka spark hadoop docker-compose shell-script

Updated Dec 16, 2021
Scala

smart-data-lake / smart-data-lake

Star

Smart Automation Tool for building modern Data Lakes and Data Pipelines

scala spark hive hadoop transform-data data-lake data-pipelines deltalake smart-data-lake

Updated Oct 4, 2024
Scala

pkeropen / BigData-News

Star

基于Spark2.2新闻网大数据实时系统项目

kafka spark hive hadoop hbase flume cdh5 sturctured-streaming

Updated Apr 3, 2019
Scala

phdata / pulse

Star

phData Pulse application log aggregation and monitoring

scala hadoop solr csd akka-streams solrcloud log-aggregation

Updated Apr 13, 2020
Scala

dimajix / flowman

Star

Flowman is an ETL framework powered by Apache Spark. With its declarative approach, Flowman simplifies the development of complex data pipelines.

scala sql big-data spark apache-spark hadoop etl bigdata data-engineering flowman

Updated Oct 3, 2024
Scala

Improve this page

Add a description, image, and links to the hadoop topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the hadoop topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

hadoop

Here are 138 public repositories matching this topic...

apache / kyuubi

apache / carbondata

geekyouth / SZT-bigdata

AbsaOSS / spline

aliyun / aliyun-emapreduce-datasources

soniclavier / bigdata-notebook

mjakubowski84 / parquet4s

Thomas-George-T / Movies-Analytics-in-Spark-and-Scala

autovia / ros_hadoop

Qihoo360 / XLearning-XDML

51zero / eel-sdk

archivesunleashed / aut

openucx / sparkucx

CoxAutomotiveDataSolutions / spark-distcp

liumingmusic / HadoopLearning

romans-weapon / spear-framework

smart-data-lake / smart-data-lake

pkeropen / BigData-News

phdata / pulse

dimajix / flowman

Improve this page

Add this topic to your repo