RoCE (RDMA over Converged Ethernet)

1. RoCE (RDMA over Converged Ethernet)의 개념/특징

개념초고속 데이터 전송을 위해 OS 커널을 경유하지 않고 이더넷 네트워크를 통해 원격 호스트 내 메모리 읽기/쓰기를 직접 수행하는 RDMA 기반 네트워크 프로토콜
특징원격 호스트의 메모리에
직접 데이터 읽기/쓰기
– 로컬 Application에서 멀리 떨어진 원격 호스트의 메모리에 직접 데이터 읽기/쓰기 가능
App 간 데이터 직접 전송– CPU 개입 없이 애플리케이션 간 데이터 전송
데이터 처리 성능 향상
및 낮은 오버헤드
– 높은 대역폭, 낮은 지연 시간, 낮은 오버헤드의 통신 가능
  • RoCE는 이더넷을 통해 원격 호스트 내 메모리에 직접 읽기/쓰기(RDMA)하여 AI 데이터센터 등에서 데이터 전송 손실을 최소화하고 대량의 데이터 초고속 전송을 지원

 

2. RoCE의 데이터 전송 과정 및 주요 구성 요소

(1) 데이터 전송 과정

(3) 주요 구성 요소

구분구성 요소역할
시스템 구성
측면
RNICRDMA-enabled NIC
– RoCE를 통해 메모리 직접 전송을 지원하는 네트워크 인터페이스 카드
– 이더넷 기반 지연 시간 최소화, 데이터 처리량 극대화
QoS– Quality of Service
– 트래픽과 대역폭을 정책적으로 관리하여 네트워크 서비스 품질 보장
IntServ/DiffServ, Traffic Policing/Shaping, 혼잡 회피, 패킷 스케줄링
DCB– Data Center Bridging
– 이더넷을 데이터센터 네트워크 인프라 통합 패브릭으로 설정
– PFC, ETS, DCBx, ECN 등 트래픽 관리
트래픽 관리
측면
PFC– Priority Flow Control
– 특정 트래픽 클래스만 선택적으로 일시 정지하여 손실 없는 전송 보장
ETS– Enhanced Transmission Selection
– 각 트래픽 클래스에 최소 대역폭을 할당하여 손실 없는 트래픽이 대역폭 부족으로 중단되지 않도록 보장
DCBx– Data Center Bridging Exchange
– NIC와 스위치 간 DCB 설정 자동 동기화
QCN– Quantized Congestion Notification
– L2 네트워크에서 혼잡 발생 시 송신 측에 알림을 보내 전송 속도 조절
ECN– Explicit Congestion Notification
– L3 네트워크에서 혼잡을 패킷에 표시하여 송신 측이 전송 속도를 조절
  • RoCE를 지원하는 NIC(Network Interface Card)가 필요하며 Mellanox, Broadcom, QLogic 등에서 제조하며, 최근 AI 데이터센터에서 인공지능 모델 훈련 및 추론 성능이 비약적으로 향상

 

3. RoCE의 패킷 구조, 버전 간 비교

(1) 패킷 구조

LRH (Local Routing Header)– 데이터 링크 계층에서 로컬 식별자(LID)로 주소 지정
GRH (Global Routing Header)– 네트워크 외부 라우팅 시 네트워크 계층 글로벌 식별자(GID)로 주소 지정
BTH (Base Transport Header)– 패킷 시퀀스 번호(PSN)로 패킷을 추적하고, 수신기는 순서대로만 패킷 수용

(2) RoCEv1과 v2 비교

비교 항목RoCEv1RoCEv2
계층Layer 2Layer 3 (IP 기반)
전송 프로토콜InfiniBand 전송 계층UDP
네트워크 범위동일 브로드캐스트 도메인IP 네트워크 전반
확장성제한적높은 확장성
지연  시간매우 낮음낮음
관리 및 보안제한적IP 기반 다양한 기능 활용 가능
  • RoCE v1은 데이터 링크 계층(Layer 2)만 지원하므로 동일 네트워크 내에서만 데이터 전송 가능
  • RoCE v2는 네트워크 계층(Layer 3)까지 지원하므로 다른 네트워크로 데이터 전송 가능

 

4. RoCE 활용 사례 및 유사 통신 기술 비교

(1) RoCE 활용 사례

구분활용 사례세부 활용 내용
데이터센터
서비스 측면
AIDC AI 모델
훈련/추론 성능 향상
– 인공지능 데이터센터에서 GPUHBM 간 데이터 직접 전송이 가능하므로 인공지능 모델 훈련 및 추론 성능이 비약적으로 향상
클라우드 컴퓨팅
시스템 성능 향상
– VMware, MS Azure, Redhat KVM, Citrix Xen, Amazon EC2 등에서 RDMA/RoCE를 활용하여 SLA 개선, 확장성, CPU 사용률 감소, 처리 속도 향상
스토리지 데이터
전송 성능 향상
– Microsoft SMB Direct, Lustre 등에서 RDMA/RoCE로 전송량 증가, 지연 시간 감소, CPU 사용률 감소
데이터 처리
성능 측면
데이터 웨어하우징– Oracle RAC, IBM DB2 PureScale, Microsoft SQL 등에서 I/O 성능과 확장성 향상
초저지연 금융 서비스– 초저지연이 중요한 금융 시스템에서 InfiniBand 및 RoCE 활용
Web 2.0 빅데이터– Hadoop, Memcached, Cassandra 등에서 응답 시간 단축 및 I/O 성능 개선

(2) 유사 통신 기술 비교

비교 항목RoCEInfiniBandiWARP
성능고성능고성능일반 성능
비용적정 비용고비용비용 효율
안정성매우 안정적안정적불안정
스위치이더넷 스위치전용 스위치이더넷 스위치
표준이더넷 표준표준 없음이더넷 표준
Ecosystem오픈 생태계폐쇄적오픈 생태계
  • 기존 초고속 네트워크 인프라는 인피니밴드와 특정 업체가 시장을 독점했지만, NVIDIA의 Mellanox 인수 등으로 보아 앞으로는 비용 이슈 해소 및 편리한 운영 관리가 가능한 표준 기반의 RDMA 방식인 RoCE가 인피니밴드 기술을 대체할 것으로 전망

 
[참고]

  • NVIDIA, RDMA over Converged Ethernet (RoCE)
  • Aruba, RDMA OVER CONVERGED ETHERNET (ROCE) DESIGN GUIDE

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^