파운데이션 모델 (Foundation Model)

1. 파운데이션 모델 (Foundation Model)의 개요

(1) 파운데이션 모델의 개념

개념도
개념맞춤형 AI 서비스의 효율적 구축을 위해 자기 지도 학습과 트랜스포머 아키텍처 기반 다운스트림 작업을 통해 다양한 AI 모델에 최적화 되도록 준비된 범용 AI 기초 모델

(2) 파운데이션 모델의 특징

구분특징특징 설명
학습
측면
자기 지도 학습전이학습 형태로, 데이터의 어노테이션 값 자체 설정
대규모 학습 데이터
및 파라미터
– 일반적 데이터 이해 위한 대규모 데이터 및 파라미터
기능
측면
창발성 (創發性,
emergence)
– 스스로 문제를 해결하기 위한 지식을 도출하는 능력
균일화 (均一化,
homogenization)
– 적용 범위 확대 및 보편적, 범용적으로 활용되는 현상
  • 파운데이션 모델은 자기 지도 학습 후 파인 튜닝을 통해 최적화되는 범용적 AI 시스템 기반 모델이며, 창발성, 균일화 능력은 기존 인공신경망과, 강화 학습, 트랜스포머 기술을 활용

 

2. 파운데이션 모델 기반 AI 모델 구축 절차 및 주요 기술

(1) 파운데이션 모델 기반 AI 모델 구축 절차

(2) 파운데이션 모델 구현을 위한 주요 기술

구분주요 기술역할 및 세부 기술
고성능
컴퓨팅 환경
구축 측면
GPU 기반 병렬 처리– 다중 코어 병렬 연산 기반 고성능 데이터 처리
GPU, GPGPU, 클라우드 GPU 가상화, HBM
TPU 기반 텐서 연산– ASIC 기반 인공신경망 데이터 고속 연산
TPU, HBM, TensorFlow, RNN
뉴로모픽 반도체– 연산, 저장, 통신 융합 기반 컴퓨팅 병목 제거
– 입출력 뉴런, 시냅틱 크로스, spike, PRNG
대용량
학습 데이터
구축 측면
웹 크롤링– 블로그, 뉴스, 웹 문서 등 웹 기반 자료 수집
DOM, Open API, HTML 파싱, URL 정규화
데이터 정제– 개인정보 필터링, 학습 데이터 품질 고도화
– 데이터 중복 제거, DQM, ETL, CDC, 암호화
데이터 레이크
(Data Lake)
– 정형/비정형 데이터 수집/전처리/변환/저장
– No Schema, Raw Data 적재, 데이터 후처리
파운데이션
모델 개발
측면
인공신경망– 가중치 조정을 통해 분류/예측, 다수 노드 연결
CNN, RNN, 강화 학습, 활성화 함수, 가중치
인코더/디코더– Encoder 모델: 전체 문장 및 맥락 이해 Task
– Decoder 모델: 다음 단어 및 데이터 예측 Task
– 트랜스포머 아키텍처, 제로샷/퓨샷 러닝
어텐션 메커니즘– 출력 단어 예측 시점 입력 단어 가중치 계산
Seq2Seq, Multi-head Attention, 활성화 함수
응용 모델
최적화/배포
측면
파인 튜닝– 특정 AI에 적합하도록 데이터셋 적용 미세 조정
전이 학습, 하이퍼파라미터 및 토크나이저 튜닝
랭체인– AI 개발/통합 단순화, 개발 프레임워크
– Agent, 워드 임베딩, 벡터DB, LLM
벡터 데이터베이스– 쿼리 벡터 유사도 비교 기반 신속 인덱싱
워드 임베딩, KNN/SPTAG 기반 인덱싱
  • 파운데이션 모델의 출현에 따라 구텐베르크의 인쇄술과 같은 거대한 파급 효과 발생이 예측되므로, 파운데이션 모델 사용에 따른 AI 활용성과 범용성의 폭발적 증가에 대비하여 문제점 신속 해결 필요

 

3. 파운데이션 모델 사용에 따른 문제점 및 해결 방안

구분문제점해결 방안
법적
측면
모델 학습/예측 피해 책임– 학습 데이터셋 저작권, 법적 책임 기준 마련
모델 출력물 법적 보호 불확실– AI 모델 소유권 주체에 대한 정의 기준 마련
환경적
측면
고성능 컴퓨팅 탄소 배출 증가데이터센터 액체 냉각 등 탄소 저감 방안 수립
비용 효율성 편익 분석 미흡– 사회적/환경적 비용에 대한 편익 분석 고려
사회적
측면
AI로 인한 사회 안전 위협적대적 공격 등 발생 가능 위험 안전 기준 수립
데이터 보호 주권 확보 어려움소버린 AI 위한 범정부 데이터 플랫폼 구축
기술적
측면
편향성, 환각 현상 발생 가능– 인공지능 역기능 방지 윤리 규범 정의 및 준수
결과물 도출 과정 분석 어려움XAI 등 해석 가능 체계, 의사결정 투명성 확보
  • 이 외에도 악의적 데이터 입력 및 오용 방지를 위해 Data Poisoning, Biased Model, Extrinsic Harm 등 탐지하여 파운데이션 모델의 안전하고 효과적인 사용 필요

 
[참고]

  • 한국지능정보사회진흥원(NIA), 파운데이션 모델의 이해와 미래 전망
  • Ada Lovelace Institute, What is a foundation model

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^