Interview Questions

Real questions from top companies in Spark/Big Data · hard

700+ Easy450+ Medium650+ Hard

All Categories Behavioral Spark/Big Data SQL Python/Coding System Design/Architecture Cloud/Tools General/Othereasy medium hard

261

Walkthrough Spark's architecture, focusing on driver, executors, and DAGs

Spark/Big Datahardoptimizationpartitionspark2.5 min read

KPMG

→

262

What are Spark optimizations, and can you explain them?

Spark/Big Datahardjoinoptimizationpartition0.6 min read

Cognizant

→

263

What are the challenges of implementing real-time analytics using Spark Streaming?

Spark/Big Datahardpartitionsparkwindow0.5 min read

Goldman Sachs

→

264

What are the key properties of Delta Lake that differentiate it from traditional data lakes?

Spark/Big Datahard0.5 min read

Puma

→

265

What happens if the checkpoint location is accidentally deleted?

Spark/Big Datahard0.4 min read

TCS

→

266

What insights can you gather from the DAG visualization in Spark UI?

Spark/Big Datahardoptimizationspark0.4 min read

PWC

→

267

What is Predicate Pushdown and AQE with Example

Spark/Big Datahardjoinoptimizationpartition0.6 min read

Nagarro

→

268

What is a serializer in Spark?

Spark/Big Datahardoptimizationspark0.3 min read

Globant

→

269

What is data shuffling in Spark, and how do you minimize its impact on job performance?

Spark/Big Datahardjoinoptimizationpartition0.4 min read

Coforge

→

270

What is the difference between Lazy Evaluation and Eager Execution in PySpark?

Spark/Big Datahardjoinoptimizationspark0.4 min read

Incedo

→

271

What is the difference between MapReduce and Spark?

Spark/Big Datahardspark0.5 min read

Globant

→

272

What is the difference between Pandas DataFrame and Spark DataFrame? When would you prefer using each?

Spark/Big Datahardetlspark0.4 min read

Dunnhumby

→

273

What is the importance of the checkpoint location in Databricks?

Spark/Big Datahardjoin0.4 min read

TCS

→

274

What is the salting technique, and when would you use it?

Spark/Big Datahardjoinpartition0.4 min read

American Express

→

275

What performance optimization techniques have you applied in Spark, Sqoop, or Databricks?

Spark/Big Datahardoptimizationpartitionspark0.3 min read

Capgemini

→

276

What role does Kafka play in real-time data streaming pipelines?

Spark/Big Datahardpartitionspark0.4 min read

BCG

→

277

What role would Kafka or similar event-driven platforms play in your architecture?

Spark/Big Datahardetloptimizationpartition2.6 min read

Meesho

→

278

What strategies would you use to reduce latency in a streaming data pipeline?

Spark/Big Datahardpartition0.4 min read

BCG

→

279

What trade-offs would you consider when choosing between batch processing and real-time streaming?

Spark/Big Datahardpartition0.4 min read

McKinsey

→

280

When submitting Spark jobs, how does the process work in the backend? Explain.

Spark/Big Datahardoptimizationspark0.4 min read

Dunnhumby

→

Reading isn't practice. Get AI feedback on your answers.

Type or paste your answer to any of these questions and our AI Coach scores it, highlights gaps, and rewrites it at FAANG quality. Free to try.

Try AI Answer Coach — Free Start a Mock Interview

Previous 1...12 13 14 15 Next