대규모 언어 모델 (LLM, Large Language Model)

1. 대규모 언어 모델 (LLM, Large Language Model) 개요

(1) 대규모 언어 모델의 등장 배경

(2) 대규모 언어 모델의 개념 및 특징

개념특징
인간의 언어 이해와 생성을 위해 대량의 언어 데이터 학습, 파인튜닝하여 생성된 인공신경망 기반 생성형AI 언어 모델– LLM은 대량의 언어 데이터로 훈련하여 맥락 파악 후 적절한 응답을 생성
– 한 단어가 끝나고 다음 단어 예측 시 단어 사이 유사성, 문맥 파악하여 정확한 의미 생성
  • 대규모 언어 모델(거대 언어 모델)은 생성형AI의 한 분야이며, 인공신경망 기반 대량의 언어 데이터 학습을 통해 높은 수준의 언어 이해/생성 가능

 

2. 대규모 언어 모델(LLM)의 구조 및 유형

(1) 대규모 언어 모델의 Encoder-Decoder 구조

(2) 대규모 언어 모델의 유형

유형메커니즘주요 모델
Encoder 모델– Transformer의 encoder만 사용
– encoder의 어텐션 레이어가 초기 문장의 모든 단어에 접근
– 주어진 문장 중 임의 단어 masking 후 원래 문장을 찾거나 복원
– 전체 문장의 이해를 요구하는 task에 적합
– BERT
(Google)
Decoder 모델– Transformer의 decoder만 사용
– decoder의 어텐션 레이어는 문장 내 단어 바로 앞 단어만 접근
– 문장의 다음 단어 예측 중심, 텍스트 생성 관련 task에 적합
– GPT
(OpenAI)
– LLaMA
(Meta)
Encoder-Decoder 모델– Transformer의 encoder와 decoder를 모두 사용
– encoder의 어텐션 레이어는 초기 문장 모든 단어에 접근
– decoder의 어텐션 레이어는 입력에 주어진 단어 앞 단어만 접근
– 새로운 문장을 생성하는 요약, 번역, 생성적 질문 답변에 적합
– BART
(Meta)

 

3. 대규모 언어 모델(LLM)의 구성 요소  및 기술 요소

(1) 대규모 언어 모델의 구성 요소

구분구성 요소역할
기반 요소파라미터– 신경망 모델의 가중치를 결정하는 매개변수
토큰– LLM이 인식하는 문자 데이터 단위(형태소)
파운데이션 모델– 일반 작업을 수행할 수 있는 기초 AI모델
인공신경망임베딩 레이어– 입력 텍스트로부터 의미론적 임베딩 생성
순환 신경망– 현재/과거 데이터를 고려하여 순차 데이터 처리
어텐션 메커니즘– 입력 시퀀스의 다양한 부분에 가중치를 부여

(2) 대규모 언어 모델의 기술 요소

구분기술 요소메커니즘
학습 모델제로샷 러닝– 프롬프트를 통해 명시적 훈련 없이 요청에 응답
퓨샷 러닝– 적은 데이터를 통해 새로운 작업, 도메인 학습
파인튜닝– 용도에 따라 LLM 미세 조정 과정(후처리)
프레임워크랭체인– 에이전트, 콜백 등 기능 연결 및 통합 간소화
벡터DB– 벡터 임베딩, 유사도 기반 신속 인덱싱 DB
프롬프트 엔지니어링– 원하는 결과 제공받기 위해 프롬프트 설계, 제작

 

4. 대규모 언어 모델의 서비스 계보 및 문제점/대응방안

(1) 대규모 언어 모델의 서비스 계보 (2018~2023)

(2) 대규모 언어 모델 활용 시 문제점/대응 방안

문제점대응 방안
– 검증되지 않은 응답 생성(환각 현상)
– 훈련 데이터 확보 어려움, 개인정보 유출
– 편향된 결과 및 응답 품질 저하 발생
– 대규모 언어 모델 확장/배포 어려움
– 신뢰 지식베이스 기반 검색 증강 생성(RAG)
– 개인 정보 없이 실제와 유사한 합성데이터 사용
프롬프트 엔지니어링 기반 최적 입력 설계
랭체인, 벡터DB 등 기반 프레임워크 적용
  • 대규모 언어 모델은 인공신경망 기반으로 동작하므로 정확한 동작 메커니즘은 아직 알려지지 않았으며, 윤리적인 문제 발생 가능성에 대비하여 생성형 AI 윤리 가이드를 통해 부작용 방지 필요

[참고]

  • 한국인공지능협회, 초대규모 모델 의 AI (GPT-3) 부상과 대응 방안
  • Amazon Web Services, 대규모 언어 모델(LLM)이란 무엇인가요

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^