Vision-language-action model

VLA 모델(Vision-Language-Action Model)은 텍스트, 비디오, 시연(Demonstration)등의 인풋을 받아 액션을 생성하는 로봇 파운데이션 모델들을 일컫는다. 즉, 인공지능 로봇에 들어가는 일종의 생성형 인공지능이다.

Keywords

비디오로부터 학습하는 휴머노이드
- VLA 모델의 물리세계 적응과 온디바이스 가속
변화하는 환경에 적응하는 로봇 행동 (Adapting actions to changing environment)
제조산업 현장의 VLA 기반 온디바이스 AI 개발과 상용화 방안
- 산업용 로봇 자동화 시스템의 인지 및 제어 기능 강화
- AI 모델 경량화 및 최적화
- VLA 기반 영상 관제 솔루션
로봇 행동 학습을 위한 VLM/VLA 모델의 최신 동향과 적용 사례
- High-level Reasoning vs Low-level Control (VLA 아키텍처의 속도 불균형 문제)
Zero-shot 로봇 작업을 향한 Physical AI: 제조 현장 적용 전략
- VLA 과적합 문제와 데이터 병목 문제
- Physical Skill Foundation: Sim-to-Real과 Foundation Model 기반 접근
휴머노이드를 위한 VLA 모델 적용방안
- 모방학습 기반 물체 조작 작업 사례 및 고찰
- 인간형 핸드에 VLA 적용 사례 공유
산업 현장 적용을 위한 멀티스테이지 VLA 아키텍처와 Physical AI 구현 기술
- 멀티모달 입력 처리를 위한 멀티스테이지 VLA 아키텍쳐
- 산업 현장 적용을 위한 작업 계획 및 로봇 행동 실행 기술
- 작업 환경 이해를 위한 2D, 3D 비전 인식 기술