Apache Parquet
아파치 파케이는 효율적인 데이터 스토리지와 검색을 지원하도록 설계되었으며, 컬럼 중심의 오픈 소스 데이터 파일 형식입니다. 복잡한 데이터를 일괄적으로 처리하는 기능을 더욱 향상하여 효율적인 데이터 압축 및 인코딩 방식을 제공합니다. 아파치 파케이는 배치 및 인터랙티브 워크로드에 공통적인 상호 교환 형식을 제공하도록 설계되었습니다. 하둡에서 제공하는 다른 컬럼형 스토리지 파일 형식(즉, RCFile 및 ORC)과 유사합니다.
Categories
- hyparquet - 초경량 순수 JS Parquet 파서
파케이의 특징
- 무료 오픈 소스 파일 형식을 사용합니다.
- 언어를 가리지 않습니다.
- 컬럼 기반 형식 - 파일이 행이 아니라 열로 구성되어, 스토리지 공간이 절약되고 분석 쿼리 속도가 향상됩니다.
- 분석(OLAP) 사용 사례, 그중에서도 기존의 OLTP 데이터베이스와 함께 사용하는 사용 사례에 사용됩니다.
- 데이터 압축과 해제의 효율이 매우 높습니다.
- 복잡한 데이터 유형과 고급 중첩 데이터 구조를 지원합니다.
파케이의 장점
- 모든 종류의 빅데이터를 저장하는 데 적합합니다(구조적 데이터 테이블, 이미지, 동영상, 문서).
- 매우 효율적인 컬럼 전체 압축 방식, 그리고 다양한 데이터 유형의 컬럼에 대한 유연한 인코딩 방식을 사용하여 클라우드 스토리지 공간에 저장합니다.
- 데이터 건너뛰기 등의 기술을 사용하여 데이터 처리량과 성능을 높였습니다. 따라서 특정 컬럼 값을 가져오는 쿼리는 전체 데이터 행을 읽을 필요가 없습니다.
아파치 파케이(Apache Parquet)는 레코드 조각내기 및 조립 알고리즘을 사용하여 구현합니다. 여기에는 데이터 저장에 사용할 수 있는 복잡한 데이터 구조가 포함됩니다. 파케이는 복잡한 데이터를 대량으로 다루는 데 최적화되어 있으며 다양한 방식을 동원해 효율적인 데이터 압축과 인코딩 유형을 제공합니다. 이 방식은 특히 대규모 테이블에서 특정 컬럼을 읽어야 하는 쿼리에 가장 좋습니다. 파케이는 필요한 컬럼만 읽으므로 IO가 대폭 최소화되기 때문입니다.