2024년 9월 22일
온디바이스 AI (On-Device AI)
1. 온디바이스 AI (On-Device AI)의 개요
(1) 온디바이스 AI 부각 배경
|
(2) 온디바이스 AI의 개념 및 특징
개념 | 특징 |
---|---|
인터넷 연결 없이 클라우드로 데이터를 전송하지 않고 디바이스 내부에서 자체적으로 AI 연산을 처리하는 방식 | – AI 서비스에 인터넷 연결 불필요 – AI 통번역 등 실시간 AI 서비스 가능 – 개인 정보 외부 유출 방지, 보안 강화 – 네트워크 통신 등 에너지 소모 절감 |
- 사물인터넷(IoT)의 발달과 폭발적인 데이터 증가로 인해 데이터센터와의 통신 병목이 발생하지 않는 디바이스 자체 AI 서비스가 부각되고 있으며 엣지(Edge) AI의 대표적인 방식으로 사용중
- 온디바이스 AI는 디바이스에서 자체적으로 초기 모델부터 생성하는 방식은 아니며, 클라우드 데이터센터에서 최초 모델 생성/압축 후 배포 되어야 이후 인터넷 연결없이 디바이스 자체 AI 서비스 가능
2. 온디바이스 AI 학습/추론 메커니즘 및 주요 기술
(1) 온디바이스 AI 학습/추론 메커니즘
메커니즘 | 구현 절차 |
---|---|
① CPU 유형, RAM/ROM 크기, 주변 디바이스, 기본 소프트웨어 등 디바이스 정보 수집 | |
② 적합한 머신러닝 컴파일러 선택 및 모델 저장소에서 AI 모델 다운로드 | |
③ 매개변수 기반 컴파일된 머신러닝 추론 모듈 생성 | |
④ 생성된 머신러닝 추론 모듈 배포, 디바이스에서 배포된 모듈 기반 AI 알고리즘 실행 |
- 온디바이스 AI 구현 위해 클라우드에서 AI 모델 생성/압축 이후 배포되어 디바이스 자체 AI 서비스
(2) 온디바이스 AI 학습/추론 주요 기술
구분 | 주요 기술 | 기능 및 세부 기술 |
---|---|---|
인공지능 기반 기술 | 엣지 AI 프레임워크 | – 단말 장치용 초소형 엣지 머신러닝 모델 개발 프레임워크 – TensorFlow Lite, Embedded Learning Library, ARM-NN 등 |
AutoML | – 데이터 준비, 모델 생성, 모델 평가 등 주요 단계 자동화 – AutoKeras, Edge Impulse, NNI(NeuralNetworkIntelligence) | |
단말 장치 AI 모델 압축 | 모델 양자화 | – 모델 파라미터 크기나 연산 수 최소화 위한 가중치 정밀화 – 신경망 가중치 이진화(Binarization), int4/int2 변환 등 |
인지형 가지치기 | – 낮은 중요도 및 중복되는 뉴런 제거를 통한 압축 모델 생성 – 필터/채널 제거(구조적), 개별 가중치 선택(비구조적) | |
인지형 NAS (Neural Architecture Search) | – 대상 H/W 특성 기반 최적 성능 적응형 신경망 설계 자동화 – 지연시간, 전력소비 등 성능지표와 정확도 간 균형모델설계 | |
디바이스 적용 /운영 | 엣지 AI 모델 컴파일 | – 코드 최적화, H/W 파편화에 따른 명령어 세트 대응 컴파일 – NET-C, TensorFlow XLA, ONNC, nGraph,Glow,TVM,PlaidML |
MLOps | – 무중단 업데이트, 지속 전달 및 피드백 루프 배포주기 조정 – 머신러닝CI/CD파이프라인에 CT(Continuous Training)추가 |
- 온디바이스 AI 구현 위해 NPU, 뉴로모픽 반도체 등 하드웨어와 소형 언어 모델(sLM) 등 소프트웨어가 필요하며, 디바이스 자체 AI 서비스를 위한 최적 모델 생성 필요
3. 온디바이스 AI 구현 기술 및 모델 생성 접근 방법
(1) 온디바이스 AI 구현을 위한 H/W, S/W 기술
구분 | 주요 기술 | 세부 기술 |
---|---|---|
하드웨어 측면 | GPU (Graphic Processing Unit) | – 부동소수점 연산 기반 병렬 처리 특화 처리 – SP, SM, TPC, 파이프라인, 부동소수점 연산 |
NPU (Neural Processing Unit) | – ,AI 애플리케이션 가속화, 통신 불필요 – 범용성은 부족하나 딥러닝 연산에 특화 | |
뉴로모픽 반도체 (Neuromorphic chip) | – 뉴런-시냅스 구조 모방, 연산, 저장, 통신 융합 – 입/출력 뉴런, 시냅틱 크로스, spike, PRNG | |
소프트웨어 측면 | 소형 언어 모델 (small Language Model) | – 학습 데이터셋이 작거나 모델 구조 단순 – 매개변수 수가 적어 온디바이스 AI에 적합 |
경량화 언어 모델 (smaller Large Language Model) | – 방대한 양의 데이터를 학습해 자연어 (NLP) 처리 – 대규모 언어 모델 보다 작은 매개변수 크기로 운영 |
(2) 온디바이스 AI 모델 생성을 위한 접근 방법
구분 | 접근 방법 | 메커니즘 |
---|---|---|
경량 AI 모델 | 모델 구조 변경 (ResNet, DenseNet, SqueezeNet) | – 잔여 블록, 밀집 블록 등 신규 계층 구조를 이용하여 파라미터 축소 및 모델 성능을 개선 |
합성곱 필터 변경 (MobileNet, ShuffleNet) | – 합성곱 신경망의 가장 큰 계산량을 요구하는 합성곱 필터의 연산을 효율적으로 감소 | |
자동 모델 탐색 (NetAdapt, MNasNet) | – 특정 요소(지연시간, 에너지 소모 등)가 주어진 경우, 강화 학습을 통해 최적 모델을 자동 탐색 | |
AI 모델 경량화 | 모델 압축 (Deep Compression, XNOR-Net) | – 가중치 가지치기, 양자화/이진화, 가중치 공유 기법을 통해 파라미터의 불필요한 표현력을 감소 |
모델 압축 자동 탐색 (PocketFlow, AMC) | – 알고리즘 경량화 연구 중 일반적인 모델 압축 기법을 적용한 강화 학습 기반의 최적 모델 자동 탐색 |
- AI 서비스는 네트워크 코어에서 엣지로 꾸준히 이동하고 있어 초소형 디바이스 지능화를 위한 머신러닝 기술이 발전되고 있으나 하드웨어 파편화 및 성능 제약에 따라 클라우드 AI와 상호 보완 필요
3. 온디바이스 AI와 클라우드 AI 장단점, 상호 보완 방안
비교 항목 | 온디바이스 AI | 클라우드 AI |
---|---|---|
장점 | 신속한 응답 속도, 저전력, 저비용, 개인정보보호 | 대용량, 대규모 모델, AI 추론 성능 극대화 |
단점 | 실시간 추론 성능 상대적 저하 | 인터넷 연결 필요, NW 병목 현상 발생 가능 |
상호 보완 방안 |
- 온디바이스 AI는 정보보호, 신속한 AI 서비스, 오프라인 가용성 확보 등의 장점이 있지만 AI 모델 적용 및 디바이스 사양에 따른 한계가 존재하므로 클라우드 AI와 상호 보완하는 형태로 발전 예상
[참고]
- 한국저작권위원회, 온디바이스 AI 산업현황 보고서
- 한국전자통신연구원(ETRI), 서비스형 엣지 머신러닝 기술 동향
- 정보통신정책연구원(KISDI), 클라우드 기반 AI에 대한 엣지 AI의 도전과 영향