Interview Questions

Real questions from top companies in Spark/Big Data · hard

700+ Easy450+ Medium650+ Hard

All Categories Behavioral Spark/Big Data SQL Python/Coding System Design/Architecture Cloud/Tools General/Othereasy medium hard

Given a streaming dataset from Kafka, how would you ingest the data in real-time using Spark?

Spark/Big Datahardpartitionspark0.6 min read

Goldman SachsMeesho

→

How do you optimize Spark jobs for performance?

Spark/Big Datahardjoinoptimizationpartition0.6 min read

Fragma Data SystemsPresidio

→

How would you implement a sliding window aggregation in Spark Structured Streaming?

Spark/Big Datahardsparkwindow0.6 min read

Fragma Data SystemsSwiggy

→

Implement a Spark job to find the top 10 most frequent words in a large text file.

Spark/Big Datahardpartitionsparksql0.6 min read

CapcoPubmatic

→

What are the key components of the Spark execution model (Job, Stage, Task)?

Spark/Big Datahardjoinoptimizationpartition0.7 min read

FedEx DataworksFreight Tiger

→

What is Spark's Catalyst Optimizer? Explain its stages.

Spark/Big Datahardjoinoptimizationspark0.7 min read

DunnhumbyFragma Data Systems

→

What is the difference between Spark RDDs, DataFrames, and Datasets?

Spark/Big Datahardoptimizationpartitionpython0.6 min read

AccentureFragma Data Systems

→

What is the small-file problem in Spark, and how do you solve it?

Spark/Big Datahardpartitionsparkwindow0.7 min read

Daniel WellingtonIncedo

→

Why is SparkSession used in Spark 2.0 and later versions?

Spark/Big Datahardpythonsparksql0.5 min read

AltimetrikInfosys

→

Alternatives to the Medallion Architecture

Spark/Big Datahardjoinoptimizationpartition3.6 min read

KPMG

→

Apache Spark Architecture - RDD, DAG, cluster manager, driver node, worker node

Spark/Big Datahardjoinoptimizationpartition3.6 min read

Zen Data Shastra

→

Calculating Databricks costs - explain DBU

Spark/Big Datahardetloptimizationsql0.6 min read

JP Morgan

→

Can Presto work with Near Real-Time Data (Streaming Data Source)?

Spark/Big Datahardlakehousespark0.5 min read

Walmart

→

Conceptualize and design a real-time streaming data pipeline end-to-end.

Spark/Big Datahardjoinoptimizationpartition4 min read

Expedia

→

Design an ETL pipeline using Kafka and Spark Streaming

Spark/Big Datahardetloptimizationpartition3.7 min read

Meesho

→

Difference between Presto vs. Spark underlying architecture

Spark/Big Datahardetloptimizationpartition3.5 min read

Walmart

→

Explain Azure Databricks architecture and its integration with other Azure services.

Spark/Big Datahardoptimizationpartition3.6 min read

Fractal

→

Explain Delta Live Tables and their features, such as declarative pipeline definition and automatic data validation.

Spark/Big Datahardoptimizationpartitionpython0.7 min read

TCS

→

Explain Delta Table features – Z-ordering and Time Travel.

Spark/Big Datahardoptimizationpartition0.8 min read

Datametica

→

Explain Delta Time Travel and the purpose of the vacuum command.

Spark/Big Datahardoptimizationpartitionspark0.7 min read

PWC

→

Reading isn't practice. Get AI feedback on your answers.

Type or paste your answer to any of these questions and our AI Coach scores it, highlights gaps, and rewrites it at FAANG quality. Free to try.

Try AI Answer Coach — Free Start a Mock Interview

Previous 1 2 3 4...7 Next