Interview Questions

Real questions from top companies

700+ Easy450+ Medium650+ Hard

All Categories Behavioral Spark/Big Data SQL Python/Coding System Design/Architecture Cloud/Tools General/Othereasy medium hard

1441

Explain the architecture of Spark, including the roles of driver, executors, DAGs, and SparkContext.

Spark/Big Datahardjoinoptimizationpartition2.5 min read

PWC

→

1442

Explain the benefits of auto-scaling policies in EMR.

Spark/Big Datahardoptimizationpartition0.5 min read

Capco

→

1443

Explain the benefits of using columnar storage formats like Parquet or ORC.

Spark/Big Datahardoptimizationpartition0.5 min read

Disney+ Hotstar

→

1444

Explain the concept of RDD, DataFrame, and Dataset in PySpark.

Spark/Big Datahardoptimizationpartitionspark0.5 min read

Citi

→

1445

Explain the concept of consumer groups in Kafka. How do they affect message processing?

Spark/Big Datahardoptimizationpartition0.5 min read

Citi

→

1446

Explain the concept of preemptible VMs in Dataproc and their cost implications.

Spark/Big Datahardoptimizationpartitionspark0.5 min read

Aarete

→

1447

Explain the configuration of a Spark cluster for optimal performance

Spark/Big Datahardoptimizationpartitionspark0.5 min read

Morgan Stanley

→

1448

Explain the difference between TriggerDagRunOperator and ExternalTaskSensor in Airflow.

Spark/Big Datahardairflowoptimizationpartition0.5 min read

Citi

→

1449

Explain the difference between coalescing and repartitioning in Spark

Spark/Big Datahardoptimizationpartitionspark0.5 min read

Morgan Stanley

→

1450

Explain the differences between Spark's shuffle and broadcast join. When would you use each?

Spark/Big Datahardjoinoptimizationpartition0.5 min read

HashedIn

→

1451

Explain the impact of Vacuum and Analyze operations on performance.

Spark/Big Datahardoptimizationpartition0.5 min read

Capco

→

1452

Explain the role of DAGs (Directed Acyclic Graphs) in Spark.

Spark/Big Datahardoptimizationpartitionspark0.5 min read

Freecharge

→

1453

Explain your approach to monitoring and logging Spark jobs in AWS. What tools would you use to identify performance bottlenecks?

Spark/Big Dataeasyspark0.6 min read

EPAM

→

1454

Explain your choice of streaming framework (Kafka, Spark Streaming, etc.).

Spark/Big Datahardoptimizationpartitionspark0.5 min read

Fragma Data Systems

→

1455

Fault Tolerance in Spark vs. Hadoop?

Spark/Big Datahardoptimizationpartitionspark0.5 min read

Capco

→

1456

Given a DataFrame with columns id and name, add a new column department: If id < 100 assign HR, if id >= 100 and id < 200 assign admin.

Spark/Big Datahardoptimizationpartitionspark0.4 min read

Dunnhumby

→

1457

Given two DataFrames, perform specified data transformations and store the result in a new DataFrame

Spark/Big Datahardjoinoptimizationpartition0.4 min read

PayPal

→

1458

GroupByKey vs ReduceByKey – Differences and performance implications?

Spark/Big Datahardoptimizationpartition0.4 min read

Datametica

→

1459

Handling Skewness in Data - salting, broadcast join

Spark/Big Datahardjoinoptimizationpartition0.4 min read

Meesho

→

1460

Handling custom data types in Spark

Spark/Big Datahardoptimizationpartitionspark0.4 min read

JP Morgan

→

Reading isn't practice. Get AI feedback on your answers.

Type or paste your answer to any of these questions and our AI Coach scores it, highlights gaps, and rewrites it at FAANG quality. Free to try.

Try AI Answer Coach — Free Start a Mock Interview

Previous 1...71 72 73 74 75...94 Next