Vision-language-action model
VLA 모델(Vision-Language-Action Model)은 텍스트, 비디오, 시연(Demonstration)등의 인풋을 받아 액션을 생성하는 로봇 파운데이션 모델들을 일컫는다. 즉, 인공지능 로봇에 들어가는 일종의 생성형 인공지능이다.
Keywords
- 비디오로부터 학습하는 휴머노이드
- VLA 모델의 물리세계 적응과 온디바이스 가속
- 산업용 로봇 자동화 시스템의 인지 및 제어 기능 강화
- AI 모델 경량화 및 최적화
- VLA 기반 영상 관제 솔루션
- High-level Reasoning vs Low-level Control (VLA 아키텍처의 속도 불균형 문제)
- VLA 과적합 문제와 데이터 병목 문제
- Physical Skill Foundation: Sim-to-Real과 Foundation Model 기반 접근
- 모방학습 기반 물체 조작 작업 사례 및 고찰
- 인간형 핸드에 VLA 적용 사례 공유
- 멀티모달 입력 처리를 위한 멀티스테이지 VLA 아키텍쳐
- 산업 현장 적용을 위한 작업 계획 및 로봇 행동 실행 기술
- 작업 환경 이해를 위한 2D, 3D 비전 인식 기술