Delta Lake
데이터 레이크에 안정성 제공하는 스토리지 레이어 프레임워크
See also
Favorite site
- 650GB 데이터(S3의 Delta Lake). Polars vs. DuckDB vs. Daft vs. Spark | GeekNews
- [원문] 650GB of Data (Delta Lake on S3). Polars vs DuckDB vs Daft vs Spark.
- DuckDB는 16분, Polars는 12분, Daft는 50분, PySpark는 1시간 이상 소요되어, 단일 노드에서도 실질적 처리 가능성 확인
- Polars는 Deletion Vector 미지원, DuckDB만 해당 기능을 지원해 Lake House 호환성에서 차이 존재
- 결과적으로 단일 노드 프레임워크가 저비용 하드웨어에서도 대규모 데이터 처리 가능성을 입증, 분산 컴퓨팅 의존도 재검토 필요성 제기