Hypura

애플 실리콘용 저장 계층 인식 LLM 추론 스케줄러

About

GPU·RAM·NVMe 간 텐서 배치를 최적화해 대형 언어 모델을 실행하는 저장 계층 인식형 추론 스케줄러
32GB 맥 미니에서 Mixtral 8x7B(31GB) 모델을 2.2 tok/s, Llama 70B(40GB) 모델을 0.3 tok/s 속도로 실행 가능
접근 패턴과 하드웨어 대역폭을 분석해 물리 메모리를 초과하는 모델도 안정적으로 구동, 기존 llama.cpp가 OOM으로 실패하던 모델까지 처리 가능
MoE 구조의 전문가 라우팅, 뉴런 캐시, 프리패치를 통해 I/O를 최대 75% 절감하고 캐시 적중률 99.5% 달성
모델 크기와 하드웨어에 따라 Full-resident, Expert-streaming, Dense FFN-streaming 모드를 자동 선택해 최적 성능 유지
Ollama 호환 HTTP API를 제공해 OpenClaw 등과 연동 가능하며, SSD는 읽기 전용으로 사용해 수명 저하 없이 NVMe 기반 추론을 지원