X

RoCE (RDMA over Converged Ethernet)

1. RoCE (RDMA over Converged Ethernet)의 개념/특징

개념 초고속 데이터 전송을 위해 OS 커널을 경유하지 않고 이더넷 네트워크를 통해 원격 호스트 내 메모리 읽기/쓰기를 직접 수행하는 RDMA 기반 네트워크 프로토콜
특징 원격 호스트의 메모리에
직접 데이터 읽기/쓰기
– 로컬 Application에서 멀리 떨어진 원격 호스트의 메모리에 직접 데이터 읽기/쓰기 가능
App 간 데이터 직접 전송 – CPU 개입 없이 애플리케이션 간 데이터 전송
데이터 처리 성능 향상
및 낮은 오버헤드
– 높은 대역폭, 낮은 지연 시간, 낮은 오버헤드의 통신 가능
  • RoCE는 이더넷을 통해 원격 호스트 내 메모리에 직접 읽기/쓰기(RDMA)하여 AI 데이터센터 등에서 데이터 전송 손실을 최소화하고 대량의 데이터 초고속 전송을 지원

 

2. RoCE의 데이터 전송 과정 및 주요 구성 요소

(1) 데이터 전송 과정

(3) 주요 구성 요소

구분 구성 요소 역할
시스템 구성
측면
RNIC RDMA-enabled NIC
– RoCE를 통해 메모리 직접 전송을 지원하는 네트워크 인터페이스 카드
– 이더넷 기반 지연 시간 최소화, 데이터 처리량 극대화
QoS – Quality of Service
– 트래픽과 대역폭을 정책적으로 관리하여 네트워크 서비스 품질 보장
IntServ/DiffServ, Traffic Policing/Shaping, 혼잡 회피, 패킷 스케줄링
DCB – Data Center Bridging
– 이더넷을 데이터센터 네트워크 인프라 통합 패브릭으로 설정
– PFC, ETS, DCBx, ECN 등 트래픽 관리
트래픽 관리
측면
PFC – Priority Flow Control
– 특정 트래픽 클래스만 선택적으로 일시 정지하여 손실 없는 전송 보장
ETS – Enhanced Transmission Selection
– 각 트래픽 클래스에 최소 대역폭을 할당하여 손실 없는 트래픽이 대역폭 부족으로 중단되지 않도록 보장
DCBx – Data Center Bridging Exchange
– NIC와 스위치 간 DCB 설정 자동 동기화
QCN – Quantized Congestion Notification
– L2 네트워크에서 혼잡 발생 시 송신 측에 알림을 보내 전송 속도 조절
ECN – Explicit Congestion Notification
– L3 네트워크에서 혼잡을 패킷에 표시하여 송신 측이 전송 속도를 조절
  • RoCE를 지원하는 NIC(Network Interface Card)가 필요하며 Mellanox, Broadcom, QLogic 등에서 제조하며, 최근 AI 데이터센터에서 인공지능 모델 훈련 및 추론 성능이 비약적으로 향상

 

3. RoCE의 패킷 구조, 버전 간 비교

(1) 패킷 구조

LRH (Local Routing Header) – 데이터 링크 계층에서 로컬 식별자(LID)로 주소 지정
GRH (Global Routing Header) – 네트워크 외부 라우팅 시 네트워크 계층 글로벌 식별자(GID)로 주소 지정
BTH (Base Transport Header) – 패킷 시퀀스 번호(PSN)로 패킷을 추적하고, 수신기는 순서대로만 패킷 수용

(2) RoCEv1과 v2 비교

비교 항목 RoCEv1 RoCEv2
계층 Layer 2 Layer 3 (IP 기반)
전송 프로토콜 InfiniBand 전송 계층 UDP
네트워크 범위 동일 브로드캐스트 도메인 IP 네트워크 전반
확장성 제한적 높은 확장성
지연  시간 매우 낮음 낮음
관리 및 보안 제한적 IP 기반 다양한 기능 활용 가능
  • RoCE v1은 데이터 링크 계층(Layer 2)만 지원하므로 동일 네트워크 내에서만 데이터 전송 가능
  • RoCE v2는 네트워크 계층(Layer 3)까지 지원하므로 다른 네트워크로 데이터 전송 가능

 

4. RoCE 활용 사례 및 유사 통신 기술 비교

(1) RoCE 활용 사례

구분 활용 사례 세부 활용 내용
데이터센터
서비스 측면
AIDC AI 모델
훈련/추론 성능 향상
– 인공지능 데이터센터에서 GPUHBM 간 데이터 직접 전송이 가능하므로 인공지능 모델 훈련 및 추론 성능이 비약적으로 향상
클라우드 컴퓨팅
시스템 성능 향상
– VMware, MS Azure, Redhat KVM, Citrix Xen, Amazon EC2 등에서 RDMA/RoCE를 활용하여 SLA 개선, 확장성, CPU 사용률 감소, 처리 속도 향상
스토리지 데이터
전송 성능 향상
– Microsoft SMB Direct, Lustre 등에서 RDMA/RoCE로 전송량 증가, 지연 시간 감소, CPU 사용률 감소
데이터 처리
성능 측면
데이터 웨어하우징 – Oracle RAC, IBM DB2 PureScale, Microsoft SQL 등에서 I/O 성능과 확장성 향상
초저지연 금융 서비스 – 초저지연이 중요한 금융 시스템에서 InfiniBand 및 RoCE 활용
Web 2.0 빅데이터 – Hadoop, Memcached, Cassandra 등에서 응답 시간 단축 및 I/O 성능 개선

(2) 유사 통신 기술 비교

비교 항목 RoCE InfiniBand iWARP
성능 고성능 고성능 일반 성능
비용 적정 비용 고비용 비용 효율
안정성 매우 안정적 안정적 불안정
스위치 이더넷 스위치 전용 스위치 이더넷 스위치
표준 이더넷 표준 표준 없음 이더넷 표준
Ecosystem 오픈 생태계 폐쇄적 오픈 생태계
  • 기존 초고속 네트워크 인프라는 인피니밴드와 특정 업체가 시장을 독점했지만, NVIDIA의 Mellanox 인수 등으로 보아 앞으로는 비용 이슈 해소 및 편리한 운영 관리가 가능한 표준 기반의 RDMA 방식인 RoCE가 인피니밴드 기술을 대체할 것으로 전망

 
[참고]

  • NVIDIA, RDMA over Converged Ethernet (RoCE)
  • Aruba, RDMA OVER CONVERGED ETHERNET (ROCE) DESIGN GUIDE
Categories: 네트워크
도리: