dataflint/spark: Performance Observability for Apache Spark

Data-Application Performance Monitoring for data engineers

If you enjoy DataFlint please give us a ⭐️ and join our slack community for feature requests, support and more!

What is DataFlint?

DataFlint is an open-source D-APM (Data-Application Performance Monitoring) for Apache Spark, built for big data engineers.

DataFlint mission is to bring the development experience of using APM (Application Performance Monitoring) solutions such as DataDog and New Relic for the big data world.

DataFlint is installed within minutes via open source library, working on top of the existing Spark-UI infrastructure, all in order to help you solve big data performance issues and debug failures!

Demo

Features

📈 Real-time query and cluster status
📊 Query breakdown with performance heat map
📋 Application Run Summary
⚠️ Performance alerts and suggestions
👀 Identify query failures
🤖 Spark AI Assistant

See Our Features for more information

Installation

Scala

Install DataFlint via sbt:

libraryDependencies += "io.dataflint" %% "spark" % "0.2.0"

Then instruct spark to load the DataFlint plugin:

val spark = SparkSession
    .builder()
    .config("spark.plugins", "io.dataflint.spark.SparkDataflintPlugin")
    ...
    .getOrCreate()

PySpark

Add these 2 configs to your pyspark session builder:

builder = pyspark.sql.SparkSession.builder
    ...
    .config("spark.jars.packages", "io.dataflint:spark_2.12:0.2.0") \
    .config("spark.plugins", "io.dataflint.spark.SparkDataflintPlugin") \
    ...

Spark Submit

Alternatively, install DataFlint with no code change as a spark ivy package by adding these 2 lines to your spark-submit command:

spark-submit
--packages io.dataflint:spark_2.12:0.2.0 \
--conf spark.plugins=io.dataflint.spark.SparkDataflintPlugin \
...

Usage

After the installations you will see a "DataFlint" button in Spark UI, click on it to start using DataFlint

Additional installation options

There is also support for scala 2.13, if your spark cluster is using scala 2.13 change package name to io.dataflint:spark_2.13:0.2.0
For more installation options, including for python and k8s spark-operator, see Install on Spark docs
For installing DataFlint in spark history server for observability on completed runs see install on spark history server docs
For installing DataFlint on DataBricks see install on databricks docs

How it Works

DataFlint is installed as a plugin on the spark driver and history server.

The plugin exposes an additional HTTP resoures for additional metrics not available in Spark UI, and a modern SPA web-app that fetches data from spark without the need to refresh the page.

For more information, see how it works docs

Articles

Fixing small files performance issues in Apache Spark using DataFlint

Compatibility Matrix

DataFlint require spark version 3.2 and up, and supports both scala versions 2.12 or 2.13.

Spark Platforms	DataFlint Realtime	DataFlint History server
Local	✅	✅
Standalone	✅	✅
Kubernetes Spark Operator	✅	✅
EMR	✅	✅
Dataproc	✅	❓
HDInsights	✅	❓
Databricks	✅	❌

For more information, see supported versions docs

spark
spark copied to clipboard

Metadata

Data-Application Performance Monitoring for data engineers

What is DataFlint?

Demo

Features

Installation

Scala

PySpark

Spark Submit

Usage

Additional installation options

How it Works

Articles

Compatibility Matrix

← Metadata

Owner

Metadata

spark spark copied to clipboard

Metadata

Data-Application Performance Monitoring for data engineers

What is DataFlint?

Demo

Features

Installation

Scala

PySpark

Spark Submit

Usage

Additional installation options

How it Works

Articles

Compatibility Matrix

← Metadata

Owner

Metadata

spark
spark copied to clipboard