2025년 5월 2일
RoCE (RDMA over Converged Ethernet)
1. RoCE (RDMA over Converged Ethernet)의 개념/특징
개념 | 초고속 데이터 전송을 위해 OS 커널을 경유하지 않고 이더넷 네트워크를 통해 원격 호스트 내 메모리 읽기/쓰기를 직접 수행하는 RDMA 기반 네트워크 프로토콜 | |
---|---|---|
특징 | 원격 호스트의 메모리에 직접 데이터 읽기/쓰기 | – 로컬 Application에서 멀리 떨어진 원격 호스트의 메모리에 직접 데이터 읽기/쓰기 가능 |
App 간 데이터 직접 전송 | – CPU 개입 없이 애플리케이션 간 데이터 전송 | |
데이터 처리 성능 향상 및 낮은 오버헤드 | – 높은 대역폭, 낮은 지연 시간, 낮은 오버헤드의 통신 가능 |
- RoCE는 이더넷을 통해 원격 호스트 내 메모리에 직접 읽기/쓰기(RDMA)하여 AI 데이터센터 등에서 데이터 전송 손실을 최소화하고 대량의 데이터 초고속 전송을 지원
2. RoCE의 데이터 전송 과정 및 주요 구성 요소
(1) 데이터 전송 과정
![]() |
(3) 주요 구성 요소
구분 | 구성 요소 | 역할 |
---|---|---|
시스템 구성 측면 | RNIC | – RDMA-enabled NIC – RoCE를 통해 메모리 직접 전송을 지원하는 네트워크 인터페이스 카드 – 이더넷 기반 지연 시간 최소화, 데이터 처리량 극대화 |
QoS | – Quality of Service – 트래픽과 대역폭을 정책적으로 관리하여 네트워크 서비스 품질 보장 – IntServ/DiffServ, Traffic Policing/Shaping, 혼잡 회피, 패킷 스케줄링 | |
DCB | – Data Center Bridging – 이더넷을 데이터센터 네트워크 인프라 통합 패브릭으로 설정 – PFC, ETS, DCBx, ECN 등 트래픽 관리 | |
트래픽 관리 측면 | PFC | – Priority Flow Control – 특정 트래픽 클래스만 선택적으로 일시 정지하여 손실 없는 전송 보장 |
ETS | – Enhanced Transmission Selection – 각 트래픽 클래스에 최소 대역폭을 할당하여 손실 없는 트래픽이 대역폭 부족으로 중단되지 않도록 보장 | |
DCBx | – Data Center Bridging Exchange – NIC와 스위치 간 DCB 설정 자동 동기화 | |
QCN | – Quantized Congestion Notification – L2 네트워크에서 혼잡 발생 시 송신 측에 알림을 보내 전송 속도 조절 | |
ECN | – Explicit Congestion Notification – L3 네트워크에서 혼잡을 패킷에 표시하여 송신 측이 전송 속도를 조절 |
- RoCE를 지원하는 NIC(Network Interface Card)가 필요하며 Mellanox, Broadcom, QLogic 등에서 제조하며, 최근 AI 데이터센터에서 인공지능 모델 훈련 및 추론 성능이 비약적으로 향상
3. RoCE의 패킷 구조, 버전 간 비교
(1) 패킷 구조
![]() | |
LRH (Local Routing Header) | – 데이터 링크 계층에서 로컬 식별자(LID)로 주소 지정 |
GRH (Global Routing Header) | – 네트워크 외부 라우팅 시 네트워크 계층 글로벌 식별자(GID)로 주소 지정 |
BTH (Base Transport Header) | – 패킷 시퀀스 번호(PSN)로 패킷을 추적하고, 수신기는 순서대로만 패킷 수용 |
(2) RoCEv1과 v2 비교
비교 항목 | RoCEv1 | RoCEv2 |
---|---|---|
계층 | Layer 2 | Layer 3 (IP 기반) |
전송 프로토콜 | InfiniBand 전송 계층 | UDP |
네트워크 범위 | 동일 브로드캐스트 도메인 | IP 네트워크 전반 |
확장성 | 제한적 | 높은 확장성 |
지연 시간 | 매우 낮음 | 낮음 |
관리 및 보안 | 제한적 | IP 기반 다양한 기능 활용 가능 |
- RoCE v1은 데이터 링크 계층(Layer 2)만 지원하므로 동일 네트워크 내에서만 데이터 전송 가능
- RoCE v2는 네트워크 계층(Layer 3)까지 지원하므로 다른 네트워크로 데이터 전송 가능
4. RoCE 활용 사례 및 유사 통신 기술 비교
(1) RoCE 활용 사례
구분 | 활용 사례 | 세부 활용 내용 |
---|---|---|
데이터센터 서비스 측면 | AIDC AI 모델 훈련/추론 성능 향상 | – 인공지능 데이터센터에서 GPU의 HBM 간 데이터 직접 전송이 가능하므로 인공지능 모델 훈련 및 추론 성능이 비약적으로 향상 |
클라우드 컴퓨팅 시스템 성능 향상 | – VMware, MS Azure, Redhat KVM, Citrix Xen, Amazon EC2 등에서 RDMA/RoCE를 활용하여 SLA 개선, 확장성, CPU 사용률 감소, 처리 속도 향상 | |
스토리지 데이터 전송 성능 향상 | – Microsoft SMB Direct, Lustre 등에서 RDMA/RoCE로 전송량 증가, 지연 시간 감소, CPU 사용률 감소 | |
데이터 처리 성능 측면 | 데이터 웨어하우징 | – Oracle RAC, IBM DB2 PureScale, Microsoft SQL 등에서 I/O 성능과 확장성 향상 |
초저지연 금융 서비스 | – 초저지연이 중요한 금융 시스템에서 InfiniBand 및 RoCE 활용 | |
Web 2.0 빅데이터 | – Hadoop, Memcached, Cassandra 등에서 응답 시간 단축 및 I/O 성능 개선 |
(2) 유사 통신 기술 비교
비교 항목 | RoCE | InfiniBand | iWARP |
---|---|---|---|
성능 | 고성능 | 고성능 | 일반 성능 |
비용 | 적정 비용 | 고비용 | 비용 효율 |
안정성 | 매우 안정적 | 안정적 | 불안정 |
스위치 | 이더넷 스위치 | 전용 스위치 | 이더넷 스위치 |
표준 | 이더넷 표준 | 표준 없음 | 이더넷 표준 |
Ecosystem | 오픈 생태계 | 폐쇄적 | 오픈 생태계 |
- 기존 초고속 네트워크 인프라는 인피니밴드와 특정 업체가 시장을 독점했지만, NVIDIA의 Mellanox 인수 등으로 보아 앞으로는 비용 이슈 해소 및 편리한 운영 관리가 가능한 표준 기반의 RDMA 방식인 RoCE가 인피니밴드 기술을 대체할 것으로 전망
[참고]
- NVIDIA, RDMA over Converged Ethernet (RoCE)
- Aruba, RDMA OVER CONVERGED ETHERNET (ROCE) DESIGN GUIDE