Spark
4 Posts
Nov 24, 2024
Predicate Pushdown: Spark의 데이터 읽기 최적화 기술
Spark Predicate Pushdown의 작동 원리와 활용 방법을 설명합니다. Parquet, ORC 파일에서 I/O 비용을 줄이고 처리 속도를 향상시키는 최적화 기법입니다.
Nov 24, 2024
Spark Plan 읽기: 기본 가이드
Apache Spark 실행 계획(Spark Plan)을 읽고 이해하는 방법을 설명합니다. Logical Plan, Physical Plan의 차이와 주요 연산자, 성능 최적화 포인트를 다룹니다.
Aug 09, 2024
How to Use Spark Connect on EMR from Local Environment
Step-by-step guide to setting up Spark Connect on AWS EMR and connecting from your local development environment. Inc...
Jan 24, 2024
Exploring Dynamic Return Types in PySpark's pandas_udf
Learn how to implement dynamic return types in PySpark pandas_udf functions. A technique for handling variable schema...