Robotic arm
로봇 팔은 일반적으로 프로그래밍 가능한 기계 팔 의 일종으로, 인간의 팔 과 유사한 기능을 가지고 있습니다.
ROS2 로봇팔 제어를 위한 AI 모델 추천
로봇팔 제어 목적과 방식에 따라 적합한 모델이 달라진다. 아래는 주요 접근법별 정리이다.
강화학습 (Reinforcement Learning) 기반
가장 널리 쓰이는 접근법이다.
- Stable Baselines3 (SAC, PPO, TD3) - ROS2와 Gymnasium(구 OpenAI Gym) 연동이 잘 되어 있고, 연속 행동 공간(joint angle/torque) 제어에 적합하다. 특히 SAC(Soft Actor-Critic)이 로봇팔 제어에서 가장 안정적인 성능을 보여준다.
- NVIDIA Isaac Lab (구 Orbit) - GPU 가속 시뮬레이션으로 대규모 병렬 학습이 가능하고, sim-to-real transfer 파이프라인이 잘 갖춰져 있다. ROS2 브리지도 지원한다.
모방학습 (Imitation Learning) 기반
사람이 시연한 동작을 학습하는 방식이다.
- ACT (Action Chunking with Transformers) - 텔레오퍼레이션 데이터로 미세한 manipulation 작업을 학습한다. ALOHA 프로젝트에서 검증되었다.
- Diffusion Policy - Diffusion 모델을 로봇 정책에 적용한 것으로, 멀티모달 행동 분포를 잘 표현하며 복잡한 조작 작업에 강하다.
Foundation Model 기반
최신 트렌드로 대규모 사전학습 모델을 활용하는 방식이다.
- π₀ (Pi-Zero, Physical Intelligence) - VLM 기반으로 언어 명령을 받아 로봇팔을 제어하는 범용 모델이다. Fine-tuning으로 다양한 작업에 적용 가능하다.
- RT-2 / Octo - Google DeepMind의 로봇 트랜스포머 모델로, 비전-언어-행동을 통합한다. Octo는 오픈소스로 공개되어 접근성이 좋다.
- GR00T (NVIDIA) - Humanoid 중심이지만 manipulation에도 적용 가능한 foundation model이다.
기존 모션 플래닝 + AI 하이브리드
- MoveIt2 + ML - MoveIt2의 모션 플래닝을 기본으로 사용하면서, grasp pose 예측이나 장애물 회피에만 AI 모델을 결합하는 실용적 접근이다. 산업 현장에서 가장 안정적이다.
포인트 클라우드 기반 로봇팔 제어 AI 모델
포인트 클라우드를 입력으로 활용하면 3D 공간 정보를 직접 사용할 수 있어 선택지가 넓어진다.
Grasp Pose 예측 (물체 파지)
가장 실용적이고 즉시 적용 가능한 영역이다.
- AnyGrasp / GraspNet - 포인트 클라우드에서 직접 6-DoF grasp pose를 예측한다. 미지의 물체에도 동작하며, ROS2 래퍼가 커뮤니티에 존재한다. 가장 추천하는 시작점
- Contact-GraspNet - NVIDIA에서 공개한 모델로, 단일 뷰 포인트 클라우드에서 contact 기반 grasp을 생성한다. Isaac Sim 연동 용이
- VGN (Volumetric Grasping Network) - TSDF 볼륨으로 변환 후 grasp 품질을 예측한다. 클러터 환경에서 강점.
포인트 클라우드 특징 추출 백본
위 모델들의 기반이 되는 3D 인코더이다.
- PointNet++ / PointNext - 가장 검증된 포인트 클라우드 처리 네트워크이다. 실시간 처리 가능하고 로봇 분야에서 레퍼런스가 풍부하다. 표준 백본
- Point Transformer v3 - 트랜스포머 기반으로 정확도가 높다. 추론 속도와 trade-off
- MinkowskiEngine (Sparse Conv) - 3D sparse convolution 기반으로, 대규모 포인트 클라우드에서 효율적이다. 대규모 데이터 처리
포인트 클라우드 + 조작 정책 (End-to-End)
포인트 클라우드를 직접 정책 입력으로 사용하는 최신 모델들이다.
- DP3 (Diffusion Policy 3D) - 3D 포인트 클라우드를 직접 입력으로 받는 Diffusion Policy로, 카메라 뷰에 독립적이라 sim-to-real transfer가 용이하다. 가장 주목할 모델
- PerAct / PerAct2 - 포인트 클라우드를 voxel로 변환 후 Perceiver Transformer로 처리한다. 언어 명령과 결합 가능하며 다양한 manipulation 작업을 하나의 모델로 수행한다. 언어 명령 결합 가능.
- Act3D - 3D feature field 위에서 행동을 예측하며, PerAct보다 높은 해상도로 정밀 작업에 유리하다. 정밀 작업.
- 3D Diffuser Actor - 3D 장면 표현과 diffusion 모델을 결합한 최신 연구이다. 최신 연구.
포인트 클라우드 기반 장면 이해
- SAM3D / OpenScene - 3D 포인트 클라우드에서 open-vocabulary 세그멘테이션을 수행한다. "빨간 컵을 집어" 같은 자연어 명령 처리 시 물체 특정에 유용하다. 자연어 물체 특정.
- FoundationPose - NVIDIA의 6-DoF 물체 포즈 추정 모델로, 포인트 클라우드/depth에서 동작하며 CAD 모델 없이도 사용 가능하다. CAD 모델 불필요.
실용적 파이프라인 추천
파이프라인 구성도
포인트 클라우드 (ROS2 sensor_msgs/PointCloud2)
│
├─ 간단한 pick-and-place ──→ AnyGrasp + MoveIt2
│ (빠르게 구현 가능, 산업용에 적합)
│
├─ 복잡한 조작 작업 ────→ DP3 (Diffusion Policy 3D)
│ (비정형 작업, 높은 범용성)
│
└─ 언어 명령 기반 ─────→ PerAct2 + SAM3D
(자연어로 작업 지시)
추천 시작 경로
- AnyGrasp + MoveIt2 + ROS2 조합으로 pick-and-place를 먼저 구현한다.
- 이후 DP3 또는 PerAct2로 확장하여 복잡한 작업을 처리한다.
작업 유형별 추천 요약
| 작업 유형 | 추천 모델 | 난이도 |
| Pick-and-place (정형) | AnyGrasp + MoveIt2 | ★★☆☆☆ |
| Pick-and-place (비정형) | Contact-GraspNet + MoveIt2 | ★★★☆☆ |
| 복잡한 조작 (조립 등) | DP3 (Diffusion Policy 3D) | ★★★★☆ |
| 자연어 명령 기반 제어 | PerAct2 + SAM3D | ★★★★☆ |
| 범용 로봇 제어 | π₀ / Octo | ★★★★★ |
See also
- robot
- ros2
- moveit2
- Point Cloud (포인트 클라우드)
- 3D printing
- Articulated robot
- Offline programming
- Robot simulator
- European Robotic Arm
- Mars Curiosity Rover - Robotic Arm
- Open-hardware robotics
- Telerobotics
- Robotic surgery
- Prosthetics
- Robotics suite
- Working envelope
- 강화학습
- 모방학습
- Diffusion Policy
- 로봇공학
- 컴퓨터 비전