Skip to content

DeepSeek

Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd., trading as DeepSeek, is a Chinese artificial intelligence company, based in Hangzhou, Zhejiang, that develops open-source large language models (LLMs). It is owned and funded by Chinese hedge fund High-Flyer, and was founded by Liang Wenfeng, who established the company in 2023 and serves as its CEO.

DeepSeek v3 vs GPT-4o vs 3.5 Sonnet

최종 평가
추론: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
수학: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
코딩: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o
창작: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o
누가 Deepseek v3를 사용해야 할까?
대부분의 작업에서 GPT-4o를 대체 가능
애플리케이션 구축한다면 최적. 비용 대비 성능이 뛰어나 사용자 애플리케이션 개발에 적합함
Open-weight 여서 자체 호스팅 가능, 더 큰 제어권 제공

DeepSeek-V3.2

  • DeepSeek-V3.2 공개 - 오픈 대형 언어 모델의 한계를 확장하다 | GeekNews
  • DeepSeek-V3.2는 높은 계산 효율성과 추론·에이전트 성능을 결합한 오픈소스 대형 언어 모델
  • 새로운 DeepSeek Sparse Attention(DSA) 구조로 긴 문맥에서도 성능을 유지하며 계산 복잡도를 크게 절감
  • 확장 가능한 강화학습(RL) 프레임워크를 통해 GPT-5 수준의 성능을 달성, 고성능 버전은 Gemini-3.0-Pro와 동등한 추론력 확보
  • 대규모 에이전트형 작업 합성 파이프라인으로 1,800개 환경과 85,000개 프롬프트를 생성, 복잡한 상호작용 환경에서 일반화와 명령 수행력 향상
  • 오픈모델이 폐쇄형 모델과의 격차를 좁히며, 비용 효율적 대안으로 자리매김

DeepSeek가 대규모에선 저렴하지만 로컬에서는 비싼 이유

DeepSeek-V3와 같은 일부 AI 모델은 대규모 제공 시 저렴하고 빠르지만 로컬 실행 시에는 느리고 비쌈.

  • 그 이유는 GPU 활용 효율과 관련된 throughput(처리량)과 latency(지연시간) 의 근본적 트레이드오프에 있음.
  • 배치 크기를 키우면 GPU가 효율적으로 동작하지만, 사용자는 토큰이 모일 때까지 대기해야 해 지연시간 증가 현상 발생
  • Mixture-of-Experts 구조와 딥 파이프라인을 가진 모델은 높은 배치와 지연시간을 필요로 함
  • 로컬 단일 사용자 환경에서는 충분히 큰 배치 형성이 어려워 성능 저하 및 비용 증가 문제 발생
  • OpenAI, Anthropic 등은 아키텍처 자체의 효율화, 고도의 배치 전략, 또는 과도한 GPU 투입 등으로 빠른 응답을 구현

See also

  • LLM
  • DeepScaleR - RL을 활용한 1.5B 모델로 O1-Preview 능가하기
  • DeepEP - an efficient expert-parallel communication library
  • FlashMLA - Hopper GPU를 위한 효율적인 MLA 디코딩 커널
  • DeepGEMM - FP8 행렬 곱셈(GEMM) 을 효율적으로 수행하는 라이브러리로, DeepSeek-V3에서 제안된 미세 조정 스케일링(fine-grained scaling) 방식을 지원함
  • 3FS - DeepSeek의 분산 파일 시스템
  • DeepSeek OCR
  • DeepSeek Math
  • GLM-5 - 복잡한 시스템 엔지니어링과 장기 에이전트 작업을 목표로 하는 모델

Favorite site