DataEngPrep.tech

JavaScript is required to use this application. Please enable JavaScript in your browser settings or disable any extensions that may be blocking scripts.

DataEngPrep.tech

Questions Practice AI Coach Dashboard Packs Blog

Interview Questions

Real questions from top companies in Spark/Big Data · medium

700+ Easy450+ Medium650+ Hard

All Categories Behavioral Spark/Big Data SQL Python/Coding System Design/Architecture Cloud/Tools General/Othereasy medium hard

What is the difference between repartition and coalesce in Apache Spark?

Spark/Big Datamediumpartitionpythonspark1 min read

BCGCitiDunnhumbyFragma Data Systems+3

What is the difference between cache() and persist() in Spark? When would you use each?

Spark/Big Datamediumpartitionspark0.7 min read

AccentureCoforgeFreechargeImpetus+1

What is the difference between groupByKey and reduceByKey in Spark?

Spark/Big Datamediumpartitionspark0.8 min read

AccentureCapcoCoforgeNagarro+1

What is the difference between narrow and wide transformations in Apache Spark? Explain with examples.

Spark/Big Datamediumjoinpartitionpython0.9 min read

CoforgeDelivery HeroDunnhumbyFragma Data Systems+1

What strategies can you use to handle skewed data in Spark?

Spark/Big Datamediumjoinpartitionspark0.5 min read

BCGBitwiseCitiHashedIn

Explain the difference between Spark's map() and flatMap() transformations.

Spark/Big Datamediumpartitionspark0.4 min read

Delivery HeroDunnhumbyFragma Data Systems

Explain the concept of Broadcast Join in Spark. When should it be used?

Spark/Big Datamediumjoinsparksql0.4 min read

Delivery HeroDunnhumbyFragma Data Systems

Convert complex SQL (CTEs, window functions, subqueries) to production-grade PySpark. Discuss when to use spark.sql() vs. DataFrame API, and the implications for testability, partitioning, and execution predictability.

Spark/Big Datamediumpartitionpythonspark0.8 min read

DatameticaS&P Global

Explain how Adaptive Query Execution changes the economics of Spark tuning. What problems does it solve at runtime, and when might you still need manual intervention (e.g., salting, broadcast hints)?

Spark/Big Datamediumjoinpartitionspark0.6 min read

FedEx DataworksPWC

Architect incremental load in ADF + Databricks with idempotency, late-arrival handling, and cost/scalability implications of watermark vs. change data capture.

Spark/Big Datamediumpartition1 min read

Explain strategies for managing schema changes in PySpark over time.

Spark/Big Datamediumpartitionspark0.8 min read

AccentureYash Technologies

How do you drop columns with null values in PySpark?

Spark/Big Datamediumpartitionspark0.6 min read

DatameticaGlobant

How do you handle data skewness in Spark?

Spark/Big Datamediumjoinpartitionspark0.7 min read

AccentureBitwise

How would you read data from a web API using PySpark?

Spark/Big Datamediumairflowpartitionspark0.7 min read

AltimetrikInfosys

What is Adaptive Query Execution (AQE) in Spark 3.x, and how does it improve performance?

Spark/Big Datamediumjoinpartitionspark0.6 min read

HashedInSnowflake

What is the difference between repartition and coalesce in Spark?

Spark/Big Datamediumpartitionspark0.6 min read

AccentureFedEx Dataworks

When and how do you use Broadcast Join in Spark?

Spark/Big Datamediumjoinsparksql0.6 min read

Delivery HeroFragma Data Systems

What is broadcasting in Spark, and why is it used? Can you give an example of its use?

Spark/Big Datamediumjoinsparksql0.7 min read

AltimetrikInfosys

What is the difference between map and flatMap in Spark, and when would you use each?

Spark/Big Datamediumpartitionspark0.6 min read

AltimetrikInfosys

What is the purpose of the Bronze, Silver, and Gold layers in a data pipeline?

Spark/Big Datamedium0.6 min read

CapgeminiInfosys

Reading isn't practice. Get AI feedback on your answers.

Type or paste your answer to any of these questions and our AI Coach scores it, highlights gaps, and rewrites it at FAANG quality. Free to try.

Try AI Answer Coach — Free Start a Mock Interview

Categories

All Questions SQL Spark / Big Data Python / Coding System Design Cloud / Tools Behavioral

By Company

Amazon Google Databricks Snowflake Microsoft Netflix Uber TCS

Interview Guides

All Guides Top SQL Questions Top Spark Questions Top Python Questions Top System Design SQL Window Functions ETL Questions Data Modeling

Products

AI Interview Coach Answer Analyzer SQL Playground Resume Analyzer Interview Packs Pricing

Company

About Us Contact Us AI Disclosure Disclaimer Terms of Service Privacy Policy

© 2026 DataEngPrep.tech. All rights reserved.

About Blog Contact Disclaimer