DataEngPrep.tech

JavaScript is required to use this application. Please enable JavaScript in your browser settings or disable any extensions that may be blocking scripts.

DataEngPrep.tech

Questions Practice AI Coach Dashboard Packs Blog

Interview Questions

Real questions from top companies in Spark/Big Data

700+ Easy450+ Medium650+ Hard

All Categories Behavioral Spark/Big Data SQL Python/Coding System Design/Architecture Cloud/Tools General/Othereasy medium hard

Describe the role of a DAG Scheduler in PySpark

Spark/Big Datahardoptimizationspark0.3 min read

Describe the role of a workflow orchestrator like Airflow in a data pipeline.

Spark/Big Dataeasyairflow0.3 min read

Describe the stages of a Spark job and strategies to optimize Spark performance for large datasets.

Spark/Big Datahardoptimizationpartitionspark0.4 min read

Describe your approach to managing offsets in Kafka.

Spark/Big Dataeasyspark0.3 min read

Fragma Data Systems

Design an ETL pipeline using Kafka and Spark Streaming

Spark/Big Datahardetloptimizationpartition3.7 min read

Difference between Presto vs. Spark underlying architecture

Spark/Big Datahardetloptimizationpartition3.5 min read

Discuss Delta Logs file format and its significance.

Spark/Big Dataeasy0.4 min read

Discuss common transformations used in Spark code.

Spark/Big Datahardjoinoptimizationspark0.3 min read

Discuss file formats (Parquet, Avro, ORC) and storage strategies.

Spark/Big Datahardpartition0.4 min read

Discuss how you integrated Azure services into your Spark application.

Spark/Big Datahardspark0.3 min read

Discuss performance tuning concepts such as shuffle, skew, and caching.

Spark/Big Datamediumjoinpartitionspark0.4 min read

Discuss stages and tasks in a Spark execution plan.

Spark/Big Datahardoptimizationpartitionspark0.3 min read

Daniel Wellington

Discuss techniques such as partitioning, broadcast joins, and caching to enhance Spark job performance.

Spark/Big Datamediumjoinpartitionspark0.4 min read

Discuss the process of moving files in Databricks File System (DBFS).

Spark/Big Dataeasyspark0.3 min read

Executor vs Driver in Spark

Spark/Big Dataeasyspark0.4 min read

Explain Apache Spark fundamentals, OOM scenarios and their resolutions, optimization techniques, strategies for optimized joins, and handling data skewness with Key Salting techniques.

Spark/Big Datahardjoinoptimizationpartition0.3 min read

Explain Azure Databricks architecture and its integration with other Azure services.

Spark/Big Datahardoptimizationpartition3.6 min read

Explain Bronze/Silver/Gold Layers.

Spark/Big Dataeasy0.4 min read

Explain Delta Live Tables and their features, such as declarative pipeline definition and automatic data validation.

Spark/Big Datahardoptimizationpartitionpython0.7 min read

Explain Delta Table features – Z-ordering and Time Travel.

Spark/Big Datahardoptimizationpartition0.8 min read

Reading isn't practice. Get AI feedback on your answers.

Type or paste your answer to any of these questions and our AI Coach scores it, highlights gaps, and rewrites it at FAANG quality. Free to try.

Try AI Answer Coach — Free Start a Mock Interview

Previous 1...5 6 7 8 9...23 Next

Categories

All Questions SQL Spark / Big Data Python / Coding System Design Cloud / Tools Behavioral

By Company

Amazon Google Databricks Snowflake Microsoft Netflix Uber TCS

Interview Guides

All Guides Top SQL Questions Top Spark Questions Top Python Questions Top System Design SQL Window Functions ETL Questions Data Modeling

Products

AI Interview Coach Answer Analyzer SQL Playground Resume Analyzer Interview Packs Pricing

Company

About Us Contact Us AI Disclosure Disclaimer Terms of Service Privacy Policy

© 2026 DataEngPrep.tech. All rights reserved.

About Blog Contact Disclaimer