RF-DETR: 실시간 탐지 트랜스포머를 위한 신경 아키텍처 검색
원제: RF-DETR: Neural Architecture Search for Real-Time Detection Transformers
arXiv: 2511.09554
저자: Isaac Robinson¹, Peter Robicheaux¹, Matvei Popov¹, Deva Ramanan², Neehar Peri²
- ¹Roboflow
- ²Carnegie Mellon University
초록
본 논문은 개방형 어휘 탐지기(open-vocabulary detectors)가 COCO에서 인상적인 성능을 보이지만, 사전 학습에서 찾아볼 수 없는 분포 외 클래스를 가진 실제 데이터셋으로 일반화하는 데 실패한다는 점을 지적한다.
주요 기여:
- RF-DETR 소개: 가중치 공유 신경 아키텍처 검색(weight-sharing NAS)을 통해 대상 데이터셋에 대한 정확도-지연시간 파레토 곡선을 발견하는 경량 전문가 탐지 트랜스포머
- COCO에서 RF-DETR(nano): 48.0 AP 달성, D-FINE(nano)을 5.3 AP 상회
- Roboflow100-VL에서 RF-DETR(2x-large): GroundingDINO(tiny)를 1.2 AP 능가하면서 20배 빠른 속도
- RF-DETR(2x-large)은 COCO에서 60 AP를 초과하는 첫 번째 실시간 탐지기
1. 서론
1.1 주요 문제 제기
개방형 어휘 탐지기의 한계:
- GroundingDINO, YOLO-World 등은 일반적 범주에서 강한 제로샷 성능 보유
- 최첨단 비전-언어 모델(VLM)은 사전 학습에서 찾아볼 수 없는 분포 외 클래스, 작업, 이미징 모달리티로 일반화하는 데 여전히 어려움
전문가 탐지기 vs 개방형 탐지기:
- VLM 미세 조정: 도메인 내 성능 향상이지만 런타임 효율성 및 개방형 어휘 일반화 감소
- D-FINE, RT-DETR 같은 전문가 탐지기: 실시간 추론 달성하나 미세 조정된 VLM 성능 미달
1.2 핵심 논점
전문가 탐지기가 COCO에 과도하게 최적화되었는가?
논문은 PASCAL VOC와 COCO 같은 표준화된 벤치마크가 진전을 이루었지만, 최첨단 전문가 탐지기는 맞춤형 모델 아키텍처, 학습률 스케줄러, 증강 스케줄러를 통해 COCO에 암묵적으로 과적합된다고 주장한다.
실제로 YOLOv8 같은 탐지기는 COCO와 상이한 분포의 실제 데이터셋으로의 일반화가 부진하다.
1.3 신경 아키텍처 검색(NAS) 재검토
NAS의 기존 적용:
- 이미지 분류(EfficientNet, OFA) 및 탐지 백본, FPN 같은 부분 요소에 주로 적용
- 기존 탐지 프레임워크에서 표준 백본을 NAS 백본으로 단순 대체하는 방식
RF-DETR의 접근:
- 객체 탐지 및 분할을 위한 엔드-투-엔드 가중치 공유 NAS 최초 탐색
- 훈련 중 이미지 해상도, 패치 크기 같은 모델 입력 변경
- 추론 시 디코더 계층 수, 쿼리 토큰 수 같은 추론 구성 수정 가능
- 검색 공간 평가는 기본 모델이 대상 데이터셋에서 완전히 훈련된 후 실시
- 모든 가능한 서브넷(검색 공간 내 모델 구성)이 추가 미세 조정 없이 강한 성능 달성
흥미롭게도 훈련 중 명시적으로 보지 못한 서브넷도 높은 성능을 달성하여 보지 못한 아키텍처로의 일반화 가능성을 시사한다.
1.4 분할(Segmentation) 확장
RF-DETR-Seg: 경량 인스턴스 분할 헤드 추가로 실시간 인스턴스 분할을 위한 파레토 최적 아키텍처 발견 가능.
1.5 지연시간 평가 표준화
현재의 비일관성: 각 논문이 선행 연구의 지연시간을 재벤치마크하면 D-FINE의 LW-DETR 지연시간 평가가 원래 보고된 것보다 25% 빠르다.
- 주요 원인: GPU 전력 스로틀링
- 해결책: 버퍼링을 통해 순방향 통과 간 전력 과다 사용 제한
1.6 주요 기여
세 가지 주요 기여:
- RF-DETR 제시: RF100-VL에서 최첨단을 능가하고 COCO에서 지연시간 ≤40ms인 실시간 방법 중 최첨단 달성. RF-DETR은 COCO에서 60 mAP를 초과하는 첫 번째 실시간 탐지기
- 가중치 공유 NAS의 조정 가능한 노브 탐색: 엔드-투-엔드 객체 탐지를 위한 정확도-지연시간 트레이드오프 개선. 대규모 사전 학습을 활용하여 소규모 데이터셋으로 효과적인 전이 학습
- 지연시간 측정 벤치마킹 프로토콜 재검토: 재현성 개선을 위한 표준화된 절차 제시
2. 관련 연구
2.1 신경 아키텍처 검색(NAS)
초기 NAS:
- NASNet, AmoebaNet: 정확도 최대화 중심, 효율성 고려 미흡으로 계산 비용 높음
하드웨어 인식 NAS:
- ProxylessNAS, MNASNet, FBNet: 검색 과정에 하드웨어 피드백 직접 통합
- 각 새로운 하드웨어 플랫폼마다 검색 및 훈련 과정 반복 필요
OFA(One-For-All):
- 가중치 공유 NAS로 훈련과 검색 분리
- 동시에 서로 다른 정확도-지연시간 트레이드오프를 가진 수천 개 서브넷 최적화
- RF-DETR은 OFA에 영감을 받아 훈련 중 이미지 해상도, 패치 크기 같은 모델 입력을 변경
2.2 실시간 객체 탐지기
진화 과정:
- 과거: Mask-RCNN, Hybrid Task Cascade(정확도 우선, 높은 지연시간) vs YOLO, SSD(속도 우선)
- 현재: RT-DETR 같은 현대 탐지기는 두 축 모두 동시 개선
YOLO 계열:
- 아키텍처, 데이터 증강, 훈련 기법 혁신으로 정확도 유지하며 빠른 추론 달성
- NMS(비최대 억제) 의존으로 추가 지연시간 발생
DETR 계열:
- 초기 DETR: NMS, 앵커 박스 같은 수공적 요소 제거하나 런타임 높음
- RT-DETR, LW-DETR: 고성능 DETR을 실시간 응용으로 성공적 적응
2.3 비전-언어 모델(VLM)
특징:
- 대규모 약감독 이미지-텍스트 쌍으로 훈련
- 개방형 어휘 객체 탐지의 핵심 활성화 기술
사례들:
- GLIP: 단일 텍스트 쿼리를 이용한 구문 기반 탐지
- Detic: ImageNet 감독으로 롱테일 탐지 증진
- MQ-Det: 다중 모달 프롬팅 가능한 학습 가능 모듈 확장
한계:
- 이러한 모델들이 사전 학습에서 찾아볼 수 없는 범주에서 성능이 부진함이 발견됨
- 추가 미세 조정 필요
- 많은 VLM은 실시간 작업에 사용하기 어려울 정도로 느림
RF-DETR의 위치: RF-DETR은 실시간 탐지기의 빠른 추론과 VLM의 인터넷 규모 사전학습을 결합
3. RF-DETR: 기초 모델과 함께한 가중치 공유 NAS
3.1 기초 모델 아키텍처
주요 개선사항:
RF-DETR은 LW-DETR을 현대화하여 다양한 대상 도메인으로의 일반화 개선:
- 백본 변경: CAEv2 → DINOv2
- DINOv2 사전 학습 가중치 초기화가 소규모 데이터셋의 탐지 정확도를 크게 개선
- CAEv2: 10 계층, 패치 크기 16 vs DINOv2: 12 계층
- DINOv2가 더 느리지만 NAS로 지연시간 보충
- 소비자급 GPU 친화적: 배치 정규화 → 계층 정규화
- 그래디언트 누적으로 훈련 용이
3.2 실시간 인스턴스 분할
RF-DETR-Seg 설계 (MaskDINO 영감):
- 경량 인스턴스 분할 헤드 추가로 고품질 분할 마스크 동시 예측
- 인코더 출력을 선형 보간으로 업샘플링
- 경량 프로젝터로 픽셀 임베딩 맵 생성
- 모든 프로젝션된 쿼리 토큰 임베딩(각 디코더 계층 출력의 FFN 변환)과 픽셀 임베딩 맵의 내적으로 분할 마스크 생성
- 픽셀 임베딩을 분할 프로토타입으로 해석 가능(YOLACT 스타일)
사전 학습: Objects-365를 SAM2(Segment Anything Model 2)로 의사 레이블링하여 탐지 및 분할 헤드 동시 사전 학습
MaskDINO와 달리 다중 규모 백본 특성을 통합하지 않아 지연시간을 최소화함.
3.3 엔드-투-엔드 신경 아키텍처 검색
NAS 검색 공간:
가중치 공유 NAS는 다양한 입력 이미지 해상도, 패치 크기, 윈도우 어텐션 블록, 디코더 계층 수, 쿼리 토큰 수를 평가하는 수천 개 모델 구성을 훈련한다.
모든 훈련 반복에서 임의의 모델 구성을 균등 샘플링하고 그래디언트 업데이트를 수행하여 여러 서브넷을 병렬로 효율적으로 훈련할 수 있다 (드롭아웃을 이용한 앙상블 학습과 유사).
흥미롭게도 이 가중치 공유 NAS가 "아키텍처 증강"으로 작용하여 정규화 및 일반화를 개선한다.
조정 가능한 노브들:
- 패치 크기: 작은 패치 → 높은 정확도, 높은 계산 비용
- FlexiViT 스타일 변환으로 훈련 중 패치 크기 간 보간
- 디코더 계층 수: 모든 디코더 계층 출력에 회귀 손실 적용(최근 DETR들처럼)
- 추론 시 모든 디코더 블록 제거 가능
- 제거 시 단일 단계 탐지기처럼 작동(YOLO 스타일)
- 세그멘테이션 브랜치 크기도 축소로 분할 지연시간 제어
- 쿼리 토큰 수: 공간 사전정보 학습으로 경계 박스 회귀, 분할
- 테스트 시 신뢰도 기준(인코더 출력에서 클래스 로짓의 최대 시그모이드)으로 쿼리 토큰 제거로 최대 탐지 개수 변경, 추론 지연시간 감소
- 파레토 최적 쿼리 수는 대상 데이터셋의 이미지당 평균 객체 수 통계를 암묵적으로 인코딩
- 이미지 해상도: 높은 해상도 → 소형 객체 탐지 개선, 낮은 해상도 → 빠른 런타임
- 가장 큰 해상도÷최소 패치 크기에 해당하는 NN 위치 인코딩 사전 할당
- 더 작은 해상도 또는 더 큰 패치 크기를 위해 이들 임베딩 보간
- 윈도우 어텐션 블록당 윈도우 수: 윈도우 어텐션 → 고정 이웃 토큰만 처리
- 블록당 윈도우 추가/제거로 정확도, 전역 정보 혼합, 계산 효율성 균형
추론 시: 정확도-지연시간 파레토 곡선의 특정 운영점 선택으로 모델 구성 결정. 동일 매개변수 수도 현저히 다른 지연시간이 가능.
미세 조정 이점: OFA와 유사하게 COCO 미세 조정 이점은 제한적이지만, RF100-VL에서는 modest한 개선을 보인다 (아키텍처 증강 정규화가 소규모 데이터셋에서 100 에포크 이상 수렴을 필요로 함).
3.4 훈련 스케줄러와 증강의 편향
문제점: 최첨단 탐지기는 표준 벤치마크 성능 최대화를 위해 신중한 하이퍼 파라미터 튜닝이 필요하나, 이러한 맞춤형 훈련 절차는 특정 데이터셋 특성(예: 이미지 수)에 암묵적 편향이 있다.
코사인 스케줄의 한계: 코사인 스케줄은 알려진 고정 최적화 지평을 가정하는데, 다양한 대상 데이터셋에는 비현실적이다. (DINOv3과 동시 관찰)
데이터 증강의 편향:
- 증강은 데이터셋 특성 사전 지식을 가정
- 공격적 증강(VerticalFlip, RandomFlip, RandomResize, RandomCrop, YOLOXHSVRandomAug, CachedMixUp)으로 효과적 데이터셋 크기 증가
- 하지만 VerticalFlip 같은 증강이 안전 중요 도메인에 부정적 편향이 될 수 있음
- 예: 자율 주행 차량의 보행자 탐지기는 웅덩이 반사에서 거짓 긍정 방지를 위해 VerticalFlip을 사용하지 않아야 함
배치 수준 리사이즈:
- LW-DETR: 이미지별 임의 리사이즈, 배치 내 최대 이미지에 맞게 패딩
- 결과: 대부분 이미지에 상당 패딩 → 윈도우 인공물, 패딩 영역 계산 낭비
4. 실험
4.1 데이터셋 및 평가 지표
평가 데이터셋:
- COCO: 공정한 선행 연구 비교
- RF100-VL(Roboflow100-VL): 100개 데이터셋의 다양성으로 인한 실제 데이터셋 일반화 능력 평가
- 논문 가정: RF100-VL 전체 성능은 임의의 대상 도메인 전이 가능성 프록시
평가 메트릭:
- pycocotools로 표준 평가지표: 평균 정밀도(mAP)
- 세부 분석: AP50, AP75, APSmall, APMedium, APLarge
- 효율성: NVIDIA T4 GPU(TensorRT 10.4, CUDA 12.4)에서 GFLOPs, 매개변수 수, 추론 지연시간
4.2 지연시간 벤치마킹 표준화
분산의 주 원인은 전력 스로틀링과 GPU 과열이다. 순방향 통과 간 200ms 버퍼링으로 완화 가능하다.
해당 접근은 지속적 처리량 측정이 아니라 재현성 높은 지연시간 측정을 보장한다.
관찰된 문제점:
- YOLOv8, YOLOv11을 TensorRT에서 mAP 결과 재현 불가 (다중 클래스 NMS로 평가하되 단일 클래스 NMS만 추론에 사용 가정)
- 표준 NMS 조정 신뢰도 임계값 0.01 사용
- FP32에서 FP16 양자화 시 성능 저하 (D-FINE: 55.1 AP → 0.5 AP)
- 해결: ONNX opset 17로 변경
| 모델 | 보고된 AP | 보고된 지연시간 | 버퍼링 FP32 AP | 버퍼링 FP32 지연시간 |
| YOLOv8(M) | 50.2 | 5.86ms | 49.3 | 14.8ms |
| YOLOv11(M) | 51.5 | 4.7ms | 49.7 | 18.7ms |
| RT-DETR(R18) | 49.0 | 4.61ms | 49.0 | 12.2ms |
| LW-DETR(M) | 52.5 | 5.6ms | 52.6 | 26.8ms |
| D-FINE(M) | 55.1 | 5.62ms | 55.1 | 13.9ms |
| RF-DETR(M) | 54.8 | 20.5ms | 54.7 | 4.4ms |
4.3 COCO 탐지 평가
| 모델 | 매개변수 | GFLOPs | 지연시간(ms) | AP |
| 실시간 탐지(NMS 포함) | ||||
| YOLOv8(N) | 3.2M | 8.7 | 2.1 | 35.2 |
| YOLOv11(N) | 2.6M | 6.5 | 2.2 | 37.1 |
| YOLOv8(S) | 11.2M | 28.6 | 2.9 | 42.4 |
| YOLOv11(S) | 9.4M | 21.5 | 3.2 | 44.1 |
| YOLOv8(M) | 25.9M | 78.9 | 5.4 | 47.3 |
| YOLOv11(M) | 20.1M | 68.0 | 5.1 | 48.3 |
| 개방형 어휘 탐지(완전 감독 미세 조정) | ||||
| GroundingDINO(T) | 173.0M | 1008.3 | 427.6ms* | 58.2 |
| 엔드-투-엔드 실시간 탐지 | ||||
| LW-DETR(T) | 12.1M | 21.4 | 1.9 | 42.9 |
| D-FINE(N) | 3.8M | 7.3 | 2.1 | 42.7 |
| RF-DETR(N) | 30.5M | 31.9 | 2.3 | 48.0 |
| LW-DETR(S) | 14.6M | 31.8 | 2.6 | 48.0 |
| D-FINE(S) | 10.2M | 25.2 | 3.5 | 50.6 |
| RF-DETR(S) | 32.1M | 59.8 | 3.5 | 52.9 |
| RT-DETR(R18) | 36.0M | 100.0 | 4.4 | 49.0 |
| LW-DETR(M) | 28.2M | 83.9 | 4.4 | 52.6 |
| D-FINE(M) | 19.2M | 56.6 | 5.4 | 55.0 |
| RF-DETR(M) | 33.7M | 78.8 | 4.4 | 54.7 |
| RF-DETR(2XL) | 126.9M | 438.4 | 17.2 | 60.1 |
주요 발견:
- RF-DETR(nano)은 D-FINE(nano)과 LW-DETR(nano)을 5 AP 이상 상회
- S, M 크기에서도 일관된 추세
- RF-DETR(nano)이 YOLOv8, YOLOv11 중형과 성능 동등
- GroundingDINO는 mmdetection 구현 사용(TensorRT 미지원 표시 *로 표기)
4.4 COCO 인스턴스 분할 평가
| 모델 | 매개변수 | GFLOPs | 지연시간(ms) | AP |
| 실시간 인스턴스 분할(NMS 포함) | ||||
| YOLOv8(N) | 3.4M | 12.6 | 3.5 | 28.3 |
| YOLOv11(N) | 2.9M | 10.4 | 3.6 | 30.0 |
| YOLOv8(S) | 11.8M | 42.6 | 4.2 | 34.0 |
| YOLOv11(S) | 10.1M | 35.5 | 4.6 | 35.0 |
| YOLOv8(M) | 27.3M | 110.2 | 7.0 | 37.3 |
| YOLOv11(M) | 22.4M | 123.3 | 6.9 | 38.5 |
| 엔드-투-엔드 인스턴스 분할 | ||||
| RF-DETR-Seg(N) | 33.6M | 50.0 | 3.4 | 40.3 |
| RF-DETR-Seg(S) | 33.7M | 70.6 | 4.4 | 43.1 |
| FastInst(R50) | 29.7M | 99.7 | 39.6ms* | 34.9 |
| MaskDINO(R50) | 52.1M | 586 | 242ms* | 46.3 |
| RF-DETR-Seg(M) | 35.7M | 102.0 | 5.9 | 45.3 |
| RF-DETR(2XL) | 38.6M | 435.3 | 21.8 | 49.9 |
주요 발견:
- RF-DETR-Seg(nano)은 모든 보고된 YOLOv8과 YOLOv11 모델 크기 상회
- RF-DETR-Seg(nano)이 FastInst를 4.4% 상회하면서 거의 10배 빠름
- RF-DETR(medium)이 MaskDINO(R50)에 근접하면서 런타임의 극소수
4.5 RF100-VL 평가
RF100-VL은 100개 다양한 데이터셋으로 구성된 도전적 탐지 벤치마크이다.
| 모델 | 매개변수 | GFLOPs | 지연시간(ms) | AP |
| 실시간 탐지(NMS 포함) | ||||
| YOLOv8(N) | 3.2M | 8.7 | 2.6 | 55.0 |
| YOLOv11(N) | 2.6M | 6.5 | 3.0 | 55.5 |
| YOLOv8(S) | 11.2M | 28.6 | 3.1 | 56.3 |
| YOLOv11(S) | 9.4M | 21.5 | 3.3 | 56.4 |
| YOLOv8(M) | 25.9M | 78.9 | 5.4 | 56.5 |
| YOLOv11(M) | 20.1M | 68.0 | 5.1 | 57.0 |
| 개방형 어휘 탐지(완전 감독 미세 조정) | ||||
| GroundingDINO(T) | 173.0M | 1008.3 | 309.9ms* | 62.3 |
| LLMDet(T) | 173.0M | 1008.3 | 308.4ms* | 62.3 |
| 엔드-투-엔드 실시간 탐지 | ||||
| LW-DETR(N) | 12.1M | 21.4 | 1.9 | 57.1 |
| D-FINE(N) | 3.8M | 7.3 | 2.0 | 58.2 |
| RF-DETR(N) | 31.2M | 34.5 | 2.5 | 57.6 |
| RF-DETR(N) w/ Fine-Tuning | 31.2M | 34.5 | 2.5 | 58.7 |
| LW-DETR(S) | 14.6M | 31.8 | 2.6 | 57.4 |
| D-FINE(S) | 10.2M | 25.2 | 3.5 | 60.3 |
| RF-DETR(S) | 33.5M | 62.4 | 3.7 | 60.7 |
| RF-DETR(S) w/ Fine-Tuning | 33.5M | 62.4 | 3.7 | 61.0 |
| RT-DETR(M) | 36.0M | 100.0 | 4.3 | 59.6 |
| LW-DETR(M) | 28.2M | 83.9 | 4.3 | 59.8 |
| D-FINE(M) | 19.2M | 56.6 | 5.6 | 60.6 |
| RF-DETR(M) | 33.5M | 86.7 | 4.6 | 61.5 |
| RF-DETR(M) w/ Fine-Tuning | 33.5M | 86.7 | 4.6 | 61.9 |
| RF-DETR(2XL) | 123.5M | 410.2 | 15.6 | 63.3 |
| RF-DETR(2XL) w/ Fine-Tuning | 123.5M | 410.2 | 15.6 | 63.5 |
주요 발견:
- RF-DETR(2x-large)이 GroundingDINO와 LLMDet을 능가하면서 런타임은 극소수
- 흥미롭게도 RT-DETR이 D-FINE(같은 기반 위 구축)을 mAP50에서 능가 → D-FINE의 하이퍼파라미터가 COCO에 과적합되었을 가능성 시사
- RF-DETR이 더 큰 백본 크기로 확장에 이점
- YOLOv8, YOLOv11은 일관되게 DETR 기반 탐지기에 미달, 더 큰 크기로 확장해도 RF100-VL 성능이 개선되지 않음
4.6 신경 아키텍처 검색의 영향
| 모델 구성 | 매개변수 | GFLOPs | 지연시간(ms) | AP | AP50 | AP75 | APS | APM | APL |
| LW-DETR(M) | 28.2M | 83.7 | 4.4 | 52.6 | 72.0 | 56.6 | 32.5 | 57.6 | 70.5 |
| + 온순 하이퍼파라미터 | 28.2M | 83.7 | 4.4 | 51.6 | 71.1 | 55.5 | 31.7 | 56.4 | 69.4 |
| + DINOv2 백본 | 32.3M | 78.2 | 4.7 | 53.6 | 72.7 | 58.0 | 34.3 | 58.3 | 72.4 |
| + 추가 O365 사전 학습 | 32.3M | 78.2 | 4.7 | 54.3 | 73.4 | 58.8 | 35.8 | 59.2 | 72.3 |
| + 가중치 공유 NAS | 32.3M | 78.2 | 4.7 | 54.6 | 73.4 | 59.3 | 36.3 | 59.3 | 72.1 |
| + 패치 크기 14→16, 해상도 560→640 | 32.3M | 78.5 | 4.7 | 54.4 | 73.2 | 59.1 | 35.9 | 59.2 | 72.1 |
| + 이미지 해상도 640→576 | 32.2M | 64.2 | 4.0 | 53.6 | 72.4 | 58.2 | 34.8 | 58.6 | 72.0 |
| + 블록당 윈도우 4→2 | 32.2M | 63.7 | 4.3 | 54.3 | 73.3 | 58.8 | 35.6 | 59.4 | 73.2 |
| + 디코더 계층 3→4 | 33.7M | 64.8 | 4.4 | 54.6 | 73.5 | 59.1 | 36.0 | 59.8 | 73.7 |
| + 쿼리 토큰 300→300 | 33.7M | 64.8 | 4.4 | 54.6 | 73.5 | 59.1 | 36.0 | 59.8 | 73.7 |
주요 발견:
- 온순 하이퍼파라미터(더 작은 배치 크기, 낮은 학습률, 배치 정규화 → 계층 정규화) 도입은 LW-DETR 대비 1% 성능 저하
- DINOv2 백본 교체로 손실 성능 회수 및 추가 2% 개선
- 낮은 학습률이 특히 DINOv2 사전학습 지식 보존에 도움
- 추가 Objects-365 사전 학습이 느린 최적화를 보충
- 가중치 공유 NAS 도입이 기본 구성 성능 개선 (패치 크기 14가 검색 공간에 없음에도 불구하고)
4.7 백본 아키텍처 및 사전 학습의 영향
| 모델(백본) | 매개변수 | GFLOPs | 지연시간(ms) | AP | AP50 | AP75 | APS | APM | APL |
| LW-DETR(M) + 온순 하이파 + CAEv2 ViT/S-16 | 28.3M | 83.7 | 4.4 | 52.3 | 71.4 | 56.3 | 32.3 | 56.4 | 70.0 |
| + DINOv2 ViT/S-14 | 32.3M | 78.2 | 4.7 | 54.3 | 73.4 | 58.8 | 35.8 | 59.2 | 72.3 |
| + SigLIPv2 ViT/B-32* | 105.1M | 81.6 | 4.8 | 50.4 | 70.4 | 53.7 | 28.0 | 55.3 | 73.0 |
| + SAM2 Hiera-S* | 44.0M | 109.1 | 11.2 | 53.6 | 72.4 | 57.9 | 33.3 | 58.3 | 71.0 |
주요 발견:
- DINOv2는 최고 성능 달성, CAEv2 대비 2.4% 상회
- SigLIPv2, SAM2는 FP16 양자화 시 성능 부진 (FP16 TensorRT 지연시간, FP32 ONNX 정확도 상한으로 보고)
- SAM2 Hiera-S가 더 적은 매개변수에도 불구하고 현저히 느림
- 최첨단 비전 트랜스포머 계열들은 일반적으로 경량 ViT-S, ViT-T 변형을 발매하지 않아 실시간 응용 재용도가 어려움
4.8 표준 정확도 벤치마킹 관행 재검토
문제점: 유효성 검사 세트만 의존한 모델 선택 및 평가는 과적합을 야기할 수 있다.
예: D-FINE(RT-DETR 기반)이 COCO 검증 세트에 대한 광범위 하이퍼파라미터 스윕을 수행하고 최적 모델을 보고. 그러나 RF100-VL 테스트 세트 평가 시 D-FINE이 RT-DETR에 미달.
대조: RF-DETR이 RF100-VL 및 COCO 모두에서 모든 실시간 탐지기 중 최첨단을 달성하여 강건성을 입증.
향후 권고: 향후 탐지기는 RF100-VL 같이 공개 검증-테스트 분할을 가진 데이터셋도 평가해야 함
4.9 한계
GPU 과열 전력 스로틀링 제어에도 불구하고, TensorRT 컴파일 중 비결정론적 행동으로 인해 지연시간 측정이 여전히 최대 0.1ms 분산이 가능하다.
구체적으로 TensorRT는 컴파일 중 전력 스로틀링을 도입할 수 있어 결과 엔진에 영향을 미치고 지연시간의 랜덤 변동을 야기한다.
주어진 TensorRT 엔진 측정은 일반적으로 일관되나, 동일 ONNX 아티팩트 재컴파일이 다른 지연시간 결과를 산출할 수 있다.
따라서 소수점 이하 한 자리 정밀도로만 지연시간을 보고한다.
5. 결론
논문은 대상 데이터셋 및 하드웨어 플랫폼을 위한 전문가 엔드-투-엔드 객체 탐지기를 미세 조정하기 위한 최첨단 NAS 기반 방법 RF-DETR을 소개한다.
주요 성과:
- COCO와 RF100-VL에서 선행 실시간 방법의 최첨단을 능가
- COCO에서 D-FINE(nano) 대비 5% AP 개선
- 현재 아키텍처, 학습률 스케줄러, 증강 스케줄러가 COCO 성능 최대화를 위해 조정됨을 강조
- 커뮤니티는 COCO 암묵 과적합 방지를 위해 다양하고 대규모 데이터셋 벤치마킹 필요
- 전력 스로틀링으로 인한 지연시간 벤치마킹의 높은 분산을 강조
- 재현성 개선을 위한 표준화된 절차 제시
부록
A. 구현 세부사항
훈련 하이퍼파라미터: LW-DETR 확장으로 주요 차이점:
- Objects365를 SAM2로 의사 레이블링해 분할/탐지 헤드 동시 사전 학습
- 학습률: 1e-4 (LW-DETR: 4e-4)
- 배치 크기: 128
- EMA 스케줄러 사용 (DINOv3처럼)
- 학습률 워밍업 생략
- 그래디언트 클리핑: 0.1 초과 클립
- 계층별 승법 감쇠: 0.8 (정보 보존, 특히 초기 DINOv2 백본 계층)
- 윈도우 어텐션 블록 배치: {0, 1, 3, 4, 6, 7, 9, 10} (LW-DETR: {0, 1, 3, 6, 7, 9})
- 다중 규모 해상도 훈련: 0.5~1.5 배(LW-DETR: 0.7~1.4)
지연시간 평가:
- CUDA 그래프 사용으로 TensorRT 내 모든 커널 사전 큐잉 (CPU 직렬 발사 불필요)
- 표준 추론 최적화
- LW-DETR 지연시간 개선, D-FINE 미개선
B. 쿼리 토큰 및 디코더 계층 아블레이션
RF-DETR(nano)에 대한 추론 시 쿼리 드롭 영향 평가.
훈련은 300 객체 쿼리, 표준 실시간 DETR 관행 준수.
많은 데이터셋이 이미지당 300개 미만 객체를 포함. 모든 300 쿼리 처리는 계산 낭비가 될 수 있다.
LW-DETR(tiny)는 더 적은 쿼리로 훈련이 지연시간-정확도 트레이드오프를 개선할 수 있음을 시연.
RF-DETR은 인코더 출력에서 신뢰도 기준으로 최저 신뢰도 쿼리를 폐기하여 재훈련 없이 테스트 시 쿼리 드롭이 가능:
100 최저 신뢰도 쿼리 드롭이 성능의 현저한 감소 없이 의미 있는 지연시간-정확도 트레이드오프를 산출한다.
또한 각 디코더 계층이 독립 감독(훈련 중)을 받으므로 테스트 시 디코더 계층 프루닝이 가능하다.
흥미롭게도 전체 디코더 계층 제거가 가능 → 초기 쿼리 제안만 의존:
- 교차 어텐션 인코더 상태 없음
- 쿼리 간 자기 어텐션 없음
- 상당 런타임 감소
- 결과 모델 YOLO 스타일 단일 단계 아키텍처 (NMS 없음)
최종 디코더 계층 제거로 지연시간 10% 감소, 성능 2 mAP 저하만.
C. FLOPs 벤치마킹
PyTorch의 FlopCounterMode로 RF-DETR, GroundingDINO, YOLO-E에 대한 FLOPs 벤치마크.
FlopCounterMode가 YOLOv11, D-FINE, LW-DETR에 대한 사용자 정의 벤치마킹 도구의 FLOPs 수를 밀접하게 재현.
또한 CalFLOPs보다 더 신뢰성 높은 결과 제공.
흥미롭게도 LW-DETR의 FLOPs가 원래 보고된 결과의 약 2배 → LW-DETR이 MACs 대신 FLOPs를 보고했을 가능성.
| 모델 | 크기 | 보고됨 | CalFLOPs | FlopCounterMode |
| D-FINE | S | 25.2M | 25.2M | 25.5M |
| LW-DETR | S | 16.6M | 22.9M | 31.8M |
| YOLO11 | S | 21.5M | 23.9M | 21.6M |
D. 개방형 어휘 탐지기의 클래스명 영향
GroundingDINO 같은 VLM을 RF100-VL에서 클래스명 vs 클래스 인덱스로 미세 조정 영향 평가.
직관적으로 VLM 비전-언어 사전 학습은 클래스명(예: 자동차, 트럭, 버스)으로 프롬팅 시 더 유용해야 한다.
반대로 클래스 인덱스(0, 1, 2) 프롬팅 시는 모델에 기초 데이터 정보 제공이 감소한다.
그러나 RF100-VL에서 GroundingDINO 미세 조정 결과:
- 클래스명: 62.3 AP
- 클래스 인덱스: 62.5 AP (거의 동등)
→ 천진한 엔드-투-엔드 모델 미세 조정이 인터넷 규모 사전 학습 이점을 완화.
향후 연구 방향: VLM 미세 조정 시 기초 사전 학습 보존 방법 조사 필요.
E. 대형 모델 변형 벤치마킹
LW-DETR, D-FINE 같은 탐지기가 더 큰 변형을 수동 설계.
대조적으로 NAS 기반 아키텍처 RF-DETR이 그리드 기반 검색을 통해 자동 스케일링 전략 발견.
RF-DETR의 두 모델 계열 분석:
- DINOv2-S 백본 기반
- DINOv2-B 백본 기반
| 방법(백본) | S | M | L | XL |
| RF-DETR(DINOv2-S) | +2.3 | +0.9 | -0.4 | -1.1 |
| RF-DETR(DINOv2-B) | -3.1 | -1.3 | -1.2 | -0.7 |
주요 발견:
- DINOv2-S 백본 계열이 처음에는 D-FINE을 능가하나 더 큰 모델 크기에서 장점 상실
- DINOv2-B 백본 계열은 반대 추세: D-FINE과의 성능 차이가 지연시간 증가에 따라 축소
- 실제로 RF-DETR(2x-large)이 D-FINE 능가
- D-FINE 계열 확장은 상당한 추가 엔지니어링 필요
- RF-DETR 계열 확장은 간단: 더 높은 지연시간 변형을 동일 NAS 검색에서 재훈련 없이 샘플링 가능
| 모델 | 매개변수 | GFLOPs | 지연시간(ms) | AP |
| RF-DETR(L) | 33.9M | 125.6 | 6.8 | 56.5 |
| RF-DETR(XL) | 126.4M | 299.3 | 11.5 | 58.6 |
| RF-DETR(2XL) | 126.9M | 438.4 | 17.2 | 60.1 |
| RF-DETR(Max) | 132.4M | 1742.5 | 98.0 | 61.8 |
주목: D-FINE(x-large)이 RF-DETR(x-large)을 mAP 50:95에서 능가. 하지만 RF-DETR(2x-large)이 D-FINE을 0.8 AP 능가, 첫 번째 실시간 탐지기로 COCO에서 60 AP를 초과한다.
F. COCO 미세 조정의 NAS 영향
COCO NAS 후 미세 조정이 제한된 이점만 제공.
가설: NAS "아키텍처 증강"이 강력한 정규화제로 작용, 추가 훈련 중 정규화 제거는 과적합 유도.
| 모델 | 기본 AP | 미세 조정 후 AP 개선 |
| RF-DETR(N) | 48.0 | +0.4 |
| RF-DETR(S) | 52.9 | +0.1 |
| RF-DETR(M) | 54.7 | +0.0 |
| RF-DETR(L) | 56.5 | +0.0 |
| RF-DETR(XL) | 58.6 | +0.3 |
| RF-DETR(2XL) | 60.1 | +0.1 |
추세: 더 큰 모델에서 미세 조정 이점 제한. 흥미롭게도 RF100-VL 모델이 더 큰 미세 조정 이점이 가능 (100 에포크 이상 수렴 필요).
G. RF100-VL의 고정 아키텍처 영향
COCO 최적화 아키텍처를 RF100-VL로 전이 평가로 고정 아키텍처 모델의 이점 확인.
고정 아키텍처가 RF100-VL에 조정되지 않았음에도 LW-DETR을 능가, RF-DETR(large) 고정 아키텍처가 선행 실시간 모델 중 최고 성능 달성.
그러나 데이터셋 특이 NAS는 상당한 추가 이점 제공.
| 모델 | 크기 | 매개변수 | GFLOPs | 지연시간(ms) | AP | AP50 | AP75 |
| RF-DETR 고정 | N | 30.5M | 31.9 | 2.3 | 57.7 | 85.0 | 61.9 |
| RF-DETR | N | 30.8M | 36.3 | 2.5 | 57.6 | 84.9 | 62.1 |
| RF-DETR w/ Fine-Tuning | N | 30.8M | 36.3 | 2.5 | 58.7 | 85.6 | 63.5 |
주요 발견:
- 고정 아키텍처가 강력한 성능 유지
- 데이터셋 특이 NAS가 이점 추가
- 더 작은 모델에서 미세 조정이 특히 강력한 개선 산출
H. 주목할 발견된 아키텍처 논의
패치 크기 수렴: 파레토 최적 모델이 동일 패치 크기 사용 경향.
- RF-DETR DINOv2-S: 최적 패치 크기 16으로 수렴
- RF-DETR DINOv2-B: 패치 크기 20
- RF-DETR-Seg DINOv2-S: 패치 크기 12
동시 인코더-디코더 스케일링: 파레토 최적 모델들이 인코더와 디코더 모두 계산을 스케일. 지연시간 증가에 따라 해상도 스케일.
윈도우 수: 파레토 최적이 일반적으로 2 윈도우 선호 (LW-DETR: 4)
- RF-DETR의 DINOv2 백본이 클래스 토큰 의존, LW-DETR의 CAEv2는 클래스 토큰 생략
- 윈도우 어텐션 호환을 위해 각 윈도우에 클래스 토큰 복제
- 추가 윈도우로 스케일 시 클래스 토큰 복제가 런타임 효율성 저하 유도
공간 위치와 해상도/패치 크기 상호작용: RF-DETR 성능이 개별 해상도나 패치 크기보다는 공간 위치 수(해상도÷패치 크기)에 의존.
해상도를 패치 크기 고정하며 스케일과 패치 크기를 해상도 고정하며 스케일이 유사 결과 산출.
대안 계열 구성으로 검증:
- RF-DETR(nano): 640×640, 패치 크기 27 (훈련 중 미노출)
- RF-DETR(small): 640×640, 패치 크기 21 (미노출)
- RF-DETR(medium): 640×640, 패치 크기 18 (미노출)
결과: 파레토 최적 계열과 거의 동등 → RF-DETR의 강력한 미노출 패치 크기로의 일반화 입증
RF-DETR-Seg의 미묘한 상호작용: 분할 헤드 특성이 항상 입력 이미지 해상도의 1/4 스케일에서 업샘플링되므로 해상도가 공간 위치 수와 헤드 해상도 모두에 영향.
예:
- RF-DETR-Seg(nano): 312×312, 패치 크기 12 → 분할 헤드 78×78, 26×26 공간 위치
- RF-DETR-Seg(small): 384×384, 패치 크기 12 → 분할 헤드 96×96, 32×32 공간 위치
- RF-DETR-Seg(medium): 432×432, 패치 크기 12 → 분할 헤드 108×108, 36×36 공간 위치
데이터셋 특성이 최적 아키텍처에 영향: RF100-VL 데이터셋에서 NAS 실행 시 등가 지연시간의 COCO 모델보다 더 적은 쿼리 사용.
- RF100-VL: 더 적은 객체/이미지 경향 → 더 적은 쿼리 필요
I. 모델 예측 시각화
RF-DETR(nano) 탐지와 LW-DETR(tiny) 비교: RF-DETR(nano)이 더 적은 거짓 긍정(예: 표지판주를 사람으로 착각)
RF-DETR-Seg(nano) 분할과 YOLOv11(nano) 비교: RF-DETR-Seg(nano)이 더 정밀한 객체 경계 예측
그림 설명
그림 1: 정확도-지연시간 파레토 곡선
COCO 탐지 검증 세트(상단 좌, 하단 좌), COCO 분할 검증 세트(상단 우), RF100-VL 테스트 세트(하단 우)에 대한 실시간 탐지기의 파레토 정확도-지연시간 경계 도표.
RF100-VL이 100 서로 다른 데이터셋을 포함하므로, 각 N, S, M, L, XL, 2XL 구성에 대한 목표 지연시간 선택, RF-DETR 변형을 목표의 10% 내 지연시간으로 검색, 수렴까지 미세 조정 후 평균 성능 보고.
중요: RF-DETR의 COCO 연속 파레토 곡선의 모든 점이 단일 훈련 실행 결과에서 도출.
그림 2: RF-DETR 아키텍처
RF-DETR이 사전 학습 ViT 백본으로 입력 이미지의 다중 규모 특성 추출. 윈도우와 비윈도우 어텐션 블록을 교대로 정렬해 정확도-지연시간 균형. 특히 변형 교차 어텐션 계층과 분할 헤드 모두 프로젝터 출력의 쌍선형 보간을 사용하여 특성의 일관된 공간 조직 보장. 마지막으로 탐지, 분할 손실을 모든 디코더 계층에 적용하여 추론 시 디코더 드롭아웃 용이.
그림 3: NAS 검색 공간
(a) 패치 크기, (b) 디코더 계층 수, (c) 쿼리 수, (d) 이미지 해상도, (e) 어텐션 블록당 윈도우 수 변화.
수천 개 네트워크 구성을 병렬 훈련에 더해, 이 "아키텍처 증강"이 정규화제로 작용하여 일반화 개선.
그림 4: 디코더 계층 vs 쿼리 토큰 영향
RF-DETR(nano)에 대한 추론 시 쿼리 드롭으로 정확도-지연시간 트레이드오프 평가.
흥미롭게 100 최저 신뢰도 쿼리 드롭이 성능의 현저한 저하 없이 의미 있는 지연시간 개선 산출.
모든 디코더 계층 제거 시(단일 단계 탐지기 같음) 지연시간 10% 감소, 성능 2 mAP 저하만.
그림 5: RF100-VL 고정 아키텍처 아블레이션
COCO 최적화 NAS 아키텍처를 RF100-VL로 전이의 이점 평가. 고정 아키텍처가 LW-DETR을 능가하나 데이터셋 특이 NAS가 유의미한 추가 이득 산출. 특히 더 작은 모델에서, 미세 조정이 일관되게 모든 모델 크기에서 이득 산출.
Documentation
- https://arxiv.org/abs/2511.09554
- [2511.09554] RF-DETR - Neural Architecture Search for Real-Time Detection Transformers
See also
Favorite site
Category:컴퓨터 비전 Category:객체 탐지 Category:신경 아키텍처 검색 Category:실시간 처리 Category:딥러닝