온디바이스 AI (On-Device AI)

1. 온디바이스 AI (On-Device AI)의 개요

(1) 온디바이스 AI 부각 배경

  • 항공기, 오지 등 인터넷 서비스 이용이 어려운 환경에서 AI 서비스 요구 증가
  • 디바이스 센서, 배터리, 연산장치 등 관련 기술 발달에 따른 온디바이스 AI 실현 가속화
  • 지능형 반도체, AI 기술 발전으로 저전력화, 고효율화, 소형화 기반 자체 고수준 AI 분석 수행

(2) 온디바이스 AI의 개념 및 특징

개념특징
인터넷 연결 없이 클라우드로 데이터를 전송하지 않고 디바이스 내부에서 자체적으로 AI 연산을 처리하는 방식– AI 서비스에 인터넷 연결 불필요
– AI 통번역 등 실시간 AI 서비스 가능
– 개인 정보 외부 유출 방지, 보안 강화
– 네트워크 통신 등 에너지 소모 절감
  • 사물인터넷(IoT)의 발달과 폭발적인 데이터 증가로 인해 데이터센터와의 통신 병목이 발생하지 않는 디바이스 자체 AI 서비스가 부각되고 있으며 엣지(Edge) AI의 대표적인 방식으로 사용중
  • 온디바이스 AI는 디바이스에서 자체적으로 초기 모델부터 생성하는 방식은 아니며, 클라우드 데이터센터에서 최초 모델 생성/압축 후 배포 되어야 이후 인터넷 연결없이 디바이스 자체 AI 서비스 가능

 

2. 온디바이스 AI 학습/추론 메커니즘 및 주요 기술

(1) 온디바이스 AI 학습/추론 메커니즘

메커니즘구현 절차
① CPU 유형, RAM/ROM 크기, 주변 디바이스, 기본 소프트웨어 등 디바이스 정보 수집
② 적합한 머신러닝 컴파일러 선택 및 모델 저장소에서 AI 모델 다운로드
③ 매개변수 기반 컴파일된 머신러닝 추론 모듈 생성
④ 생성된 머신러닝 추론 모듈 배포, 디바이스에서 배포된 모듈 기반 AI 알고리즘 실행
  • 온디바이스 AI 구현 위해 클라우드에서 AI 모델 생성/압축 이후 배포되어 디바이스 자체 AI 서비스

(2) 온디바이스 AI 학습/추론 주요 기술

구분주요 기술기능 및 세부 기술
인공지능
기반 기술
엣지 AI 프레임워크– 단말 장치용 초소형 엣지 머신러닝 모델 개발 프레임워크
TensorFlow Lite, Embedded Learning Library, ARM-NN 등
AutoML– 데이터 준비, 모델 생성, 모델 평가 등 주요 단계 자동화
– AutoKeras, Edge Impulse, NNI(NeuralNetworkIntelligence)
단말 장치 AI
모델 압축
모델 양자화– 모델 파라미터 크기나 연산 수 최소화 위한 가중치 정밀화
– 신경망 가중치 이진화(Binarization), int4/int2 변환 등
인지형 가지치기– 낮은 중요도 및 중복되는 뉴런 제거를 통한 압축 모델 생성
– 필터/채널 제거(구조적), 개별 가중치 선택(비구조적)
인지형 NAS (Neural Architecture Search)– 대상 H/W 특성 기반 최적 성능 적응형 신경망 설계 자동화
– 지연시간, 전력소비 등 성능지표와 정확도 간 균형모델설계
디바이스
적용 /운영
엣지 AI 모델 컴파일– 코드 최적화, H/W 파편화에 따른 명령어 세트 대응 컴파일
– NET-C, TensorFlow XLA, ONNC, nGraph,Glow,TVM,PlaidML
MLOps– 무중단 업데이트, 지속 전달 및 피드백 루프 배포주기 조정
– 머신러닝CI/CD파이프라인에 CT(Continuous Training)추가
  • 온디바이스 AI 구현 위해 NPU, 뉴로모픽 반도체 등 하드웨어와 소형 언어 모델(sLM) 등 소프트웨어가 필요하며, 디바이스 자체 AI 서비스를 위한 최적 모델 생성 필요

 

3. 온디바이스 AI 구현 기술 및 모델 생성 접근 방법

(1) 온디바이스 AI 구현을 위한 H/W, S/W 기술

구분주요 기술세부 기술
하드웨어
측면
GPU (Graphic Processing Unit)– 부동소수점 연산 기반 병렬 처리 특화 처리
– SP, SM, TPC, 파이프라인, 부동소수점 연산
NPU (Neural Processing Unit)– ,AI 애플리케이션 가속화, 통신 불필요
– 범용성은 부족하나 딥러닝 연산에 특화
뉴로모픽 반도체 (Neuromorphic chip)– 뉴런-시냅스 구조 모방, 연산, 저장, 통신 융합
– 입/출력 뉴런, 시냅틱 크로스, spike, PRNG
소프트웨어
측면
소형 언어 모델 (small Language Model)– 학습 데이터셋이 작거나 모델 구조 단순
– 매개변수 수가 적어 온디바이스 AI에 적합
경량화 언어 모델 (smaller Large Language Model)– 방대한 양의 데이터를 학습해 자연어 (NLP) 처리
– 대규모 언어 모델 보다 작은 매개변수 크기로 운영

(2) 온디바이스 AI 모델 생성을 위한 접근 방법

구분접근 방법메커니즘
경량 AI
모델
모델 구조 변경
(ResNet, DenseNet, SqueezeNet)
– 잔여 블록, 밀집 블록 등 신규 계층 구조를 이용하여 파라미터 축소 및 모델 성능을 개선
합성곱 필터 변경
(MobileNet, ShuffleNet)
– 합성곱 신경망의 가장 큰 계산량을 요구하는 합성곱 필터의 연산을 효율적으로 감소
자동 모델 탐색
(NetAdapt, MNasNet)
– 특정 요소(지연시간, 에너지 소모 등)가 주어진 경우, 강화 학습을 통해 최적 모델을 자동 탐색
AI 모델
경량화
모델 압축
(Deep Compression, XNOR-Net)
– 가중치 가지치기, 양자화/이진화, 가중치 공유 기법을 통해 파라미터의 불필요한 표현력을 감소
모델 압축 자동 탐색
(PocketFlow, AMC)
– 알고리즘 경량화 연구 중 일반적인 모델 압축 기법을 적용한 강화 학습 기반의 최적 모델 자동 탐색
  • AI 서비스는 네트워크 코어에서 엣지로 꾸준히 이동하고 있어 초소형 디바이스 지능화를 위한 머신러닝 기술이 발전되고 있으나 하드웨어 파편화 및 성능 제약에 따라 클라우드 AI와 상호 보완 필요

 

3. 온디바이스 AI와 클라우드 AI 장단점, 상호 보완 방안

비교 항목온디바이스 AI클라우드 AI
장점신속한 응답 속도, 저전력,
저비용, 개인정보보호
대용량, 대규모 모델,
AI 추론 성능 극대화
단점실시간 추론 성능
상대적 저하
인터넷 연결 필요,
NW 병목 현상 발생 가능
상호 보완
방안
  • 온디바이스 AI는 정보보호, 신속한 AI 서비스, 오프라인 가용성 확보 등의 장점이 있지만 AI 모델 적용 및 디바이스 사양에 따른 한계가 존재하므로 클라우드 AI와 상호 보완하는 형태로 발전 예상

 
[참고]

  • 한국저작권위원회, 온디바이스 AI 산업현황 보고서
  • 한국전자통신연구원(ETRI), 서비스형 엣지 머신러닝 기술 동향
  • 정보통신정책연구원(KISDI), 클라우드 기반 AI에 대한 엣지 AI의 도전과 영향

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^