Nemotron-Personas-Korea
대한민국 실제 인구 분포 기반 100만 건 합성 페르소나 데이터셋
About
- 대한민국 통계청, 대법원, 국민건강보험공단 등 공공 데이터를 기반으로 실제 인구통계·지리·성격 분포를 반영한 최초의 대규모 한국어 페르소나 데이터셋
- 100만 건 레코드에 700만 개 페르소나를 포함하며, 이름·성별·나이·혼인 상태·교육 수준·직업·거주 지역 등 26개 필드로 구성
- 엔터프라이즈급 합성 데이터 생성 시스템인 NeMo Data Designer와 google/gemma-4-31B-it 모델을 활용해 제작
- 기존 페르소나 데이터셋 대비 고령층, 농촌 지역, 다양한 학력·직업 분포를 더 충실히 반영해 소버린 AI 모델의 편향 완화에 기여
- CC BY 4.0 라이선스로 상업적·비상업적 용도 모두 자유롭게 사용 가능