Databricks Data Warehouse Project: Star Schema & OLAP Analysis

Overview

This project demonstrates Data Warehouse design and OLAP analysis using PySpark in Databricks.
It follows a Star Schema approach with one fact table (sales_fact) and four dimension tables:

date_dim
product_dim
customer_dim
store_dim

The workflow includes:

Synthetic Data Generation with Faker
Data Modeling in a Star Schema format
Delta Table storage to simulate Data Warehouse persistence
OLAP-style queries for business insights
ER Diagram visualization of the schema

Technologies Used

Databricks (PySpark runtime)
Delta Lake for table storage
Faker for synthetic data generation
Matplotlib & NetworkX for ER diagram visualization
Data Modeling with Star Schema

Example Queries

# Total Sales by Category
spark.table("sales_fact") \
    .join(spark.table("product_dim"), "ProductID") \
    .groupBy("Category") \
    .agg(sum("Sales_Amount").alias("Total_Sales")) \
    .orderBy(desc("Total_Sales")) \
    .show()

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
Databricks_notebooks.py		Databricks_notebooks.py
Generating_data.py		Generating_data.py
README.md		README.md
Star_schema.png		Star_schema.png
query_results.png		query_results.png
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Databricks Data Warehouse Project: Star Schema & OLAP Analysis

Overview

Technologies Used

Example Queries

About

Uh oh!

Releases

Packages

Languages

MayanzaGo/databricks-data-warehouse-project

Folders and files

Latest commit

History

Repository files navigation

Databricks Data Warehouse Project: Star Schema & OLAP Analysis

Overview

Technologies Used

Example Queries

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages