Skip to content

Data Lakes

데이터 레이크(data lake)는 일반적으로 개체 Blob 또는 파일과 같은 자연(natural)/원시(raw) 형식으로 저장된 데이터의 시스템 또는 저장소이다. 데이터 레이크는 일반적으로 소스 시스템 데이터, 센서 데이터, 소셜 데이터 등의 원시 복사본과 보고, 시각화, 고급 분석 및 기계 학습과 같은 작업에 사용되는 변환된 데이터를 포함하는 단일 데이터 저장소이다. 데이터 레이크에는 관계형 데이터베이스(행 및 열), 반정형 데이터(CSV, 로그, XML, JSON), 비정형 데이터(이메일, 문서, PDF) 및 바이너리 데이터(이미지, 오디오, 비디오)의 정형 데이터가 포함될 수 있다. 데이터 레이크는 "온프레미스"(조직의 데이터 센터 내) 또는 "클라우드"(아마존, 마이크로소프트, 오라클 클라우드 또는 구글과 같은 공급업체의 클라우드 서비스 사용)에 구축될 수 있다.

About

모든 종류의 데이터를 원본 그대로 저장하는 대규모 저장소입니다. 이름 그대로 데이터가 흘러들어와 "호수"처럼 쌓이는 개념이죠.

배경

당시 펜타호(Pentaho)의 최고 기술 책임자였던 제임스 딕슨은 원시 데이터에서 파생된 흥미로운 속성을 저장하는 소규모 저장소인 데이터 마트와 대조하기 위해 2011년에 이 용어를 만들었다. 데이터 레이크를 홍보하면서 그는 데이터 마트에는 정보 사일로화와 같은 몇 가지 고유한 문제가 있다고 주장했다. 프라이스워터하우스쿠퍼스(PwC)는 데이터 레이크가 "데이터 사일로를 종식시킬 수 있다"고 말했다. 데이터 레이크에 대한 연구에서 그들은 기업이 "분석을 위한 데이터를 추출하여 단일 하둡 기반 저장소에 배치하기 시작했다"고 언급했다.

핵심 특징

  • 원본 그대로 저장 — CSV, JSON, Parquet, 이미지, 동영상, 로그 파일 등 변환 없이 그냥 던져 넣습니다. 스키마나 구조를 미리 정의할 필요가 없습니다(Schema-on-Read).
  • 저비용 대용량 저장 — S3, GCS, Azure Blob, HDFS 같은 오브젝트/분산 스토리지를 사용하므로 페타바이트급 데이터도 비교적 저렴하게 보관할 수 있습니다.
  • 다양한 소비 패턴 — 같은 데이터를 SQL 분석, ML 학습, 스트리밍 처리 등 여러 목적으로 활용할 수 있습니다.

데이터 레이크의 함정: 데이터 스왐프 (Data Swamp)

가장 큰 문제는 관리를 안 하면 데이터 늪(Data Swamp)이 된다는 겁니다.

아무 데이터나 마구 쏟아넣으면 뭐가 어디 있는지, 품질은 어떤지, 누가 언제 넣었는지 아무도 모르는 상태가 됩니다.

그래서 메타데이터 관리, 데이터 카탈로그, 거버넌스가 필수이고, 이 문제를 구조적으로 해결하려는 것이 레이크하우스 아키텍처입니다.

Categories

  • Lakehouse
  • DuckLake - 통합 데이터 레이크 및 카탈로그 포맷
  • LakeDB
  • Rill - 데이터 레이크에서 대시보드까지의 시간을 단축하는 데 최적화된 BI 도구

See also

Favorite site