목차
1. AI 서버의 메모리 선택, 왜 중요한가?
AI 학습 및 추론 워크로드는 대규모 병렬 연산과 초저지연 데이터 접근이 핵심입니다.
메모리 대역폭과 지연은 전체 시스템 성능을 제한하며, 일반 DDR/DIMM 메모리로는 데이터를 빠르게 공급할 수 없습니다.
이를 해결하기 위해 최근에는 HBM(High Bandwidth Memory)과 GDDR6 두 기술이 주로 사용되며, 각각의 특성과 장단점을 고려한 AI 서버 아키텍처 설계가 필수입니다.
2. HBM 구조와 성능 특성
핵심 구조:
- 3D 스택 적층 (HBM3: 8–16층, HBM4: 최대 16층)
- TSV(Through‑Silicon Via) 기반 수직 연결
- 실리콘 인터포저로 GPU/SoC와 고속 연결
- 와이드 버스 (최대 2048bit) + 채널 병렬 구조
대표 성능:
- HBM3 E: 1.2 TB/s 이상
- HBM4: 최대 2 TB/s 스택당 Semiconductor Engineering+15 위키백과+15 Reddit+15 arXiv+4 위키백과+4 Reuters+4fibermall.com +7 Rambus+7 arXiv+7+15 위키백과+15 Reddit+15 arXiv+4 위키백과+4 Reuters+4fibermall.com +7 Rambus+7 arXiv+7 위키백과+15 Reddit+15 arXiv+4 위키백과+4 Reuters+4fibermall.com +7 Rambus+7 arXiv+7
- 전력 효율에서도 GDDR6 대비 3~4배 우위 Rambus위키백과
3. GDDR6 구조와 특성 비교
핵심 구조:
- 기존 PCB 실장형 칩
- 32–64bit 버스 × 다중칩 구성
- 고속 클럭 (최대 16–21 Gbps/pin)
대표 성능:
- GDDR6 384bit 구성에서 ~768 GB/s 위키백과+1exxactcorp.com +1 Reddit+2 위키백과+2 위키백과+2 위키백과+1exxactcorp.com
- 클록 기반 대역폭 증가, 단일 칩 성능은 HBM보다 우수하지만 병렬성 제한
4. 대역폭 비교 – 병렬 vs 클록 기반
버스폭 | 1024–2048bit | 256–384bit |
클록 속도 | 6–9.8 Gbps/pin | 16–21 Gbps/pin |
스택당 대역폭 | ~819 GB/s (HBM3), ~1.2 TB/s (HBM3E) directmacro.com+10fibermall.com+10Massed Compute+10Massed Compute위키백과+2arXiv+2Reuters+2Massed Compute+9위키백과+9위키백과+9 | ~768 GB/s (384bit 구성) BittWare위키백과 |
병렬 처리 | 뛰어남 | 한계 있음 |
→ HBM은 병렬 처리 중심, GDDR6는 클록 기반 고속 처리에 최적합
5. 전력 효율과 공간 효율
HBM:
- 사용 전력 낮음 (TSV‑짧은 경로 + 와이드 신호) Rambus+15 Massed
- 패키지 내 통합으로 보드 면적 절감 위키백과 fibermall.com
GDDR6:
- PIN당 전력 소모 큼, 저전력 설계 한계
- PCB 위 칩 구성으로 보드 공간 소모 커짐
결국 전력비와 열 관리 측면에서 HBM이 AI 서버 설계에 보다 유리합니다.
6. 지연과 안정성 비교
HBM:
- 짧은 TSV 경로, 칩팹 내 가까운 연결
- 지연 감소, 동시에 신호 왜곡 최소화
GDDR6:
- PCB 기반 긴 트레이스 적용
- PCB 트레이스→지연·EMI 증가 가능
결론: AI용 실시간 추론, 초저지연 워크로드에는 HBM이 우세
7. 비용 및 복잡성
- HBM: 패키징(인터포저, TSV), 적층 공정 등으로 단가 높고 복잡도 높음
- GDDR6: 범용 생산 및 모듈러 PCB 구조로 비용 절감 및 공급 안정성 우수
→ 예산, 수요에 따라 적절한 밸런스가 필요
8. AI 워크로드 특성에 따른 선택 기준
- 훈련/슈퍼컴퓨팅: 대규모 병렬 워크로드 → HBM 추천
- 실시간 추론/엔드포인트: 고속 응답 + 비용 고려 → GDDR6 또는 LPDDR6 적합 Semiconductor Engineering
9. 최근 적용 사례 및 시장 동향
- NVIDIA H100/H200, AMD MI300X, Intel Ponte Vecchio 등 AI 슈퍼컴에 HBM3/3E 적용
- NVIDIA DGX H100 8 GPU, 3 TB/s HBM3 메모리 탑재 Massed Compute+6fibermall.com+6 위키백과+6 위키백과+6fibermall.com+6 위키백과+6 위키백과 fibermall.com+6 위키백과+6 위키백과
- Samsung HBM3/3E, SK하이닉스 HBM4 등 차세대 메모리 출시 중. 다만 Samsung은 발열·전력 테스트 일부 실패 사례 존재 Reuters
10. 향후 전망 – GDDR7과 HBM4/5 경쟁
- GDDR7: PAM‑3 기반, 최대 32 Gbps/pin, 온‑칩 ECC, ~1.5 TB/s 위키백과
- HBM4/5: 병렬 구조 고도화, PIM 통합, CXL 확장, 스택당 대역폭 >2 TB/s
→ 고성능 워크로드는 HBM4/5가 우위
→ 코스트 민감 워크로드는 GDDR7이 현실적 대안
결론 – 최적 메모리 설정 전략
- 초대형 AI 모델 > 유닛 기반 연산 → HBM 필수
- 실시간 엔드포인트/에지 서버 → → GDDR6/7 적합
- 중간 수준 하이브리드 서버 → → HBM + GDDR6 조합 설계 고려
- 미래지향 전략: HBM5, CXL, PIM 도입 대비 및 GDDR7 모듈화 활용
맺음말
HBM과 GDDR6/7은 AI 서버의 워크로드와 예산 목표에 따라 선택되어야 하며, 각 시스템의 대역폭, 지연, 전력, 공간, 비용, 확장성 등 시스템 관점에서 종합 설계 전략이 필요합니다.
특히 AI 트레이닝/추론 분야에서는 HBM 기반 아키텍처가 성능 우위와 투자 대비 효과를 동시에 제공해 줍니다.
📌 관련 글도 함께 읽어보면 도움이 됩니다!
[반도체 기술/AI 반도체 및 서버] - HBM 메모리의 내부 구조와 동작 원리 – AI 서버 설계자를 위한 가이드
[반도체 기술/AI 반도체 및 서버] - AI 서버의 열을 잡는 HBM 구조 설계와 냉각 기술
[반도체 기술/AI 반도체 및 서버] - HBM이 바꾼 AI 서버 생태계 – 고대역폭 구조의 전략 분석
'반도체 기술 > AI 반도체 및 서버' 카테고리의 다른 글
왜 AI 서버는 HBM이 필요한가? 고대역폭 구조의 모든 것 (4) | 2025.08.09 |
---|---|
HBM 스택 구조와 TSV 기술 – AI 메모리 혁신의 실체 (4) | 2025.08.09 |
AI 서버의 열을 잡는 HBM 구조 설계와 냉각 기술 (2) | 2025.08.08 |
HBM이 바꾼 AI 서버 생태계 – 고대역폭 구조의 전략 분석 (5) | 2025.08.07 |
HBM4의 병렬 구조가 AI 학습 속도에 미치는 영향 (2) | 2025.08.06 |