Interview Questions

Real questions from top companies

700+ Easy450+ Medium650+ Hard

All Categories Behavioral Spark/Big Data SQL Python/Coding System Design/Architecture Cloud/Tools General/Othereasy medium hard

1361

Data locality in Hadoop - explain

Spark/Big Dataeasyspark0.4 min read

JP Morgan

→

1362

Data-Related Issues Encountered - handling skewed data

Spark/Big Datamediumpartitionspark0.4 min read

Lumiq

→

1363

Databricks - platform, use cases

Spark/Big Datahardetllakehousespark0.3 min read

NAB

→

1364

Databricks Cluster Management - standalone vs YARN mode

Spark/Big Dataeasyspark0.3 min read

Meesho

→

1365

Databricks Job Cluster and SQL Endpoint - discuss Photon

Spark/Big Dataeasyetlsparksql0.5 min read

JP Morgan

→

1366

Databricks notebooks vs. Fabric notebooks - differences

Spark/Big Dataeasylakehousespark0.3 min read

Nihilent

→

1367

Databricks vs. PySpark?

Spark/Big Dataeasypythonspark0.3 min read

Comcast

→

1368

Define Airflow and explain it as a workflow orchestration tool.

Spark/Big Dataeasyairflow0.3 min read

Fossil Group

→

1369

Define what a User-Defined Function (UDF) is and how to register it in PySpark.

Spark/Big Datahardoptimizationpythonspark0.4 min read

Capgemini

→

1370

Defining Tasks in DAG

Spark/Big Dataeasyairflowpython0.3 min read

Verizon

→

1371

Delta Lake: ACID compliance, time travel, streaming support

Spark/Big Datahardlakehouse0.4 min read

Kaseya

→

1372

Delta vs Parquet - explain

Spark/Big Dataeasylakehouse0.3 min read

Myntra

→

1373

Deploying DAGs

Spark/Big Dataeasyairflowpython0.3 min read

Verizon

→

1374

Describe a custom EMR cluster configuration for Spark-based ETL with minimal cost.

Spark/Big Dataeasyetlspark0.3 min read

Capco

→

1375

Describe building custom JARs for Spark jobs

Spark/Big Dataeasyspark0.3 min read

LTIMindtree

→

1376

Describe how to pass data between tasks in Airflow using XComs.

Spark/Big Dataeasyairflow0.4 min read

Citi

→

1377

Describe how you would monitor ETL job performance and handle long-running tasks.

Spark/Big Datahardairflowetloptimization0.4 min read

Adidas

→

1378

Describe how you would optimize a join between two large tables where one is significantly smaller, using broadcast joins in PySpark.

Spark/Big Datahardjoinoptimizationspark0.3 min read

Dunnhumby

→

1379

Describe how you would optimize slow-running Spark jobs in a distributed environment.

Spark/Big Datahardoptimizationpartitionspark0.4 min read

EPAM

→

1380

Describe how you would use PySpark to aggregate and summarize large transaction datasets.

Spark/Big Datamediumpartitionsparkwindow0.3 min read

Swiggy

→

Reading isn't practice. Get AI feedback on your answers.

Type or paste your answer to any of these questions and our AI Coach scores it, highlights gaps, and rewrites it at FAANG quality. Free to try.

Try AI Answer Coach — Free Start a Mock Interview

Previous 1...67 68 69 70 71...94 Next