Real-Time Streaming Analytics Platform

A production-ready, end-to-end real-time streaming analytics platform running on Kubernetes with Kafka, Spark, Trino, and Apache Iceberg.

Architecture Overview

┌─────────────────┐    ┌─────────────────┐    ┌─────────────────┐
│   Data Sources  │───▶│   Kafka Cluster │───▶│  Spark Streaming│
│   (Producers)   │    │   (Strimzi)     │    │   (K8s Jobs)    │
└─────────────────┘    └─────────────────┘    └─────────────────┘
                                                               │
┌─────────────────┐    ┌─────────────────┐    ┌─────────────────┐
│   Trino Query   │◀───│  Apache Iceberg  │◀───│   Spark Output  │
│   Engine        │    │   (S3/MinIO)     │    │   (Spark)       │
└─────────────────┘    └─────────────────┘    └─────────────────┘

Quick Start

Prerequisites

Google Cloud Platform account
kubectl configured
Helm 3.x installed
Terraform installed

Deployment Steps

Deploy Infrastructure:

cd terraform
cp terraform.tfvars.example terraform.tfvars
# Edit terraform.tfvars with your project_id
terraform init && terraform apply

Deploy Kafka:

cd ../helm
helm install strimzi strimzi/strimzi-kafka-operator --namespace kafka --create-namespace
helm install kafka ./kafka --namespace kafka
kubectl apply -f kafka-topics.yaml

Deploy Producer:

cd ../kafka-producer
docker build -t streaming-producer .
kubectl apply -f k8s/

Deploy Spark:

cd ../spark-jobs
docker build -t streaming-spark .
kubectl apply -f spark-application.yaml

Deploy Trino:

cd ../trino
helm install trino ./trino --namespace trino --create-namespace

Deploy Monitoring:

cd ../observability
kubectl apply -f prometheus/
kubectl apply -f grafana/
kubectl apply -f alerts/

Components

Terraform: Infrastructure as Code for GKE cluster
Kafka: Distributed streaming platform with Strimzi operator
Spark: Real-time stream processing with PySpark
Trino: Interactive SQL query engine
Iceberg: Table format for data lake
Prometheus: Metrics collection and monitoring
Grafana: Visualization and dashboards

Performance

Throughput: 100k+ events/second
Latency: < 30 seconds end-to-end
Scalability: Auto-scaling based on load
Reliability: Fault-tolerant with checkpointing

License

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
ci-cd/.github/workflows		ci-cd/.github/workflows
kafka-producer		kafka-producer
observability		observability
performance-testing		performance-testing
spark-jobs		spark-jobs
terraform		terraform
trino		trino
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Real-Time Streaming Analytics Platform

Architecture Overview

Quick Start

Prerequisites

Deployment Steps

Components

Performance

License

About

Uh oh!

Releases

Packages

Languages

suhasramanand/streaming-analytics-platform

Folders and files

Latest commit

History

Repository files navigation

Real-Time Streaming Analytics Platform

Architecture Overview

Quick Start

Prerequisites

Deployment Steps

Components

Performance

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages