Interview Questions

Write a PySpark script to check for missing values and duplicate rows in a DataFrame. How would you ensure data quality before saving it to a storage system?

Spark/Big Datahardpartitionspark0.9 min read

Dunnhumby

→

532

Write a Spark job to count word occurrences from an S3 dataset.

Spark/Big Datahardoptimizationpartitionspark0.6 min read

Daniel Wellington

→

533

Architect a solution to handle notifications for millions of users with varying preferences.

System Design/Architecturehardoptimizationpartitionspark4.1 min read

Disney+ Hotstar

→

534

Build a banking system architecture from scratch, highlighting critical workflows, scalability, and data management strategies.

System Design/Architecturehardoptimizationpartitionspark4.1 min read

Expedia

→

535

Business Role of Data Pipeline

System Design/Architecturehardbigqueryoptimizationpartition4 min read

Verizon

→

536

CAP Theorem

System Design/Architecturehardoptimizationpartitionspark4 min read

ZS Associates

→

537

CI/CD implementation across environments (DEV, QA, UAT, PreProd, PROD)

System Design/Architecturehardoptimizationpartitionspark4.1 min read

Zen Data Shastra

→

538

Can Schema Evolution lead to data inconsistencies? If so, how do you manage them?

System Design/Architecturehardoptimizationpartitionspark4.1 min read

PWC

→

539

Compare Native vs Cloud Database Systems.

System Design/Architecturehardbigqueryoptimizationpartition4.1 min read

Gartner

→

540

Data Volume in Pipelines and Scalability Solutions

System Design/Architecturehardoptimizationpartitionspark4 min read

Nagarro

→

Reading isn't practice. Get AI feedback on your answers.

Type or paste your answer to any of these questions and our AI Coach scores it, highlights gaps, and rewrites it at FAANG quality. Free to try.

Try AI Answer Coach — Free Start a Mock Interview

Previous 1...25 26 27 28 29...34 Next