TimeCapsuleLLM
1800~1875년 데이터만으로 학습된 대형 언어 모델
About
- TimeCapsuleLLM은 특정 시기(1800~1875년)의 자료만으로 학습된 대형 언어 모델(LLM) 로, 현대적 편향을 최소화하고 당시의 언어와 세계관을 재현하는 목적
- 모델은 런던 지역의 역사적 문서, 서적, 신문, 법률 문서 등으로 구성된 데이터셋을 사용해 시대별 언어 스타일과 어휘를 반영
- 초기 버전은 nanoGPT, 이후 버전은 Microsoft Phi 1.5 기반으로 구축되었으며, 데이터 규모는 최대 90GB, 모델 파라미터는 최대 700M
- Selective Temporal Training(STT) 방식을 통해 특정 시기의 데이터만을 선별해 학습, 현대 개념이 포함되지 않도록 설계
- 역사적 언어모델 연구와 시대별 인공지능 언어 재현 가능성을 보여주는 실험적 프로젝트