Skip to content

Feature Store

피처 스토어란 피처들을 위한 중앙 저장소 입니다. 피처 스토어는 미가공 데이터를 피처들로 변환하고 저장하며, 모델 학습과 추론에 제공합니다.

About

일반적인 정형 데이터 머신러닝 코드에는 데이터를 불러오고 필요한 특징들(Features)을 뽑아 가공하는 부분이 있다.

보통 데이터 웨어하우스나 아니면 원천 데이터 소스에서 데이터를 불러올텐데, 이렇게 직접 데이터 소스에 붙지 않고 머신러닝에 필요한 데이터 스토어를 별도로 만들어 둘 수 있다.

그리고 여기에 필요한 특징들(Features)들을 미리 가공하여 저장할 수 있고, 데이터 버전 관리도 도입해볼 수 있다.

이러한 개념으로 등장한 것이 Feature Store다. Feature Store는 머신러닝을 위한 Feature 데이터를 모아둔 곳이라고 보면 된다.

개요

피처 스토어(Feature Store)는 머신러닝(ML) 모델의 학습 및 추론에 사용되는 데이터(피처, Feature)를 효율적으로 관리, 저장, 서비스하기 위한 중앙 집중식 저장소이다. 데이터 엔지니어링과 모델링 사이의 가교 역할을 하며, MLOps의 핵심 인프라 중 하나로 꼽힌다.

도입 배경

기존 ML 워크플로우에서의 고질적인 문제를 해결하기 위해 등장하였다.

  • 중복 작업: 여러 데이터 과학자가 동일한 피처를 각자 생성하여 리소스가 낭비됨.
  • 학습-서빙 불일치 (Training-Serving Skew): 모델 학습 시 사용한 데이터 처리 로직과 운영(Real-time) 시 로직이 달라 성능이 저하됨.
  • 데이터 파편화: 어떤 모델이 어떤 시점의 피처를 사용했는지 추적이 어려움.

주요 구성 요소

피처 스토어는 일반적으로 두 가지 유형의 저장소와 관리 기능을 포함한다.

1. 오프라인 스토어 (Offline Store)

  • 용도: 모델 학습(Training) 및 배치 스코어링 전용.
  • 특징: 대용량의 과거 데이터를 저장하며, 주로 S3, BigQuery, HDFS와 같은 데이터 레이크 또는 웨어하우스를 기반으로 한다.

2. 온라인 스토어 (Online Store)

  • 용도: 실시간 추론(Inference)을 위한 서빙 전용.
  • 특징: 초저지연(Low Latency) 데이터 조회를 보장해야 하며, 주로 Redis, DynamoDB, Cassandra와 같은 키-값(Key-Value) 저장소를 사용한다.

3. 엔티티 및 피처 뷰 (Entity & Feature View)

  • 엔티티: 데이터의 기본 키(예: user_id, product_id).
  • 피처 뷰: 엔티티와 연관된 특정 피처들의 집합 및 변환 로직의 정의.

주요 기능 및 장점

  • 재사용성 (Reusability): 한 번 등록된 피처는 조직 내 다른 팀이나 프로젝트에서 공유 가능.
  • 일관성 (Consistency): 동일한 피처 파이프라인을 통해 학습과 서빙에 동일한 데이터를 제공하여 불일치 해결.
  • 시간 여행 (Time Travel): 모델 학습 시 특정 과거 시점의 정확한 피처 상태를 재현할 수 있는 기능 제공.
  • 거버넌스: 피처의 생성자, 변경 이력, 사용처 등을 중앙에서 관리.

Categories

  • Feast - Feast는 오픈 소스 피처 스토어 입니다. 모델 학습 및 온라인 추론을 위한 분석 데이터를 운용하는 가장 빠른 방법입니다.
  • Hopsworks - Hopsworks는 머신러닝 모델을 대규모로 개발 및 운영하는데 사용되는 데이터 집약적 오픈 소스 AI 플랫폼입니다.
  • Tecton - Tecton은 엔터프라이즈급 SLA를 사용하여 변환에서 온라인 서비스에 이르기까지 기능의 전체 수명 주기를 오케스트레이션하도록 구축된 완전 관리형 피처 플랫폼입니다.
  • Rasgo - Rasgo는 클라우드 데이터 웨어하우스내에서 데이터를 탐색, 변환 및 시각화하기 위한 웹 앱입니다.

구분

솔루션명

오픈소스

Feast, Hopsworks

클라우드 관리형

AWS SageMaker Feature Store, Vertex AI Feature Store (Google Cloud)

엔터프라이즈/상용

Tecton, Databricks Feature Store

See also

Favorite site