Vision-language-action model
VLA 모델(Vision-Language-Action Model)은 텍스트, 비디오, 시연(Demonstration)등의 인풋을 받아 액션을 생성하는 로봇 파운데이션 모델들을 일컫는다. 즉, 인공지능 로봇에 들어가는 일종의 생성형 인공지능이다.
VLA 모델(Vision-Language-Action Model)은 텍스트, 비디오, 시연(Demonstration)등의 인풋을 받아 액션을 생성하는 로봇 파운데이션 모델들을 일컫는다. 즉, 인공지능 로봇에 들어가는 일종의 생성형 인공지능이다.