멀티모달 인공지능 (Multimodal AI)

1. 멀티모달 인공지능 (Multimodal AI)의 개념

개념도
개념 텍스트, 이미지, 오디오 등 서로 다른 유형의 데이터를 동시에 처리하고 분석하는 인공지능 기술
  • 예를 들어, 사용자가 텍스트로 상황을 기술하면, 이를 기반으로 이미지나 동영상을 생성할 수 있으며, 최근 입력과 출력 양식이 다른 크로스 모달 형태가 주목 받고 있음

 

2. 멀티모달 인공지능의 주요 유형 및 구성요소

(1) 멀티모달 인공지능의 주요 유형

(2) 멀티모달 인공지능의 구성요소

구성요소 역할
입력 모듈
(Input Module)
– 다양한 유형의 데이터를 입력으로 받아서 전처리하거나 개별 양식을 위한 인코딩을 생성
융합 모듈
(Fusion Module)
– 양식별 처리된 정보를 다양한 융합 기법을 활용하여 통합
출력 모듈
(Output Module)
– 통합된 데이터 분석에 따른 결과를 텍스트, 이미지, 오디오, 동영상 등을 포함하는 다양한 양식으로 출력
  • 여러 유형의 데이터를 결합하면 더 정확한 예측과 결정이 가능하며, 특정 유형의 데이터가 부족하면 다른 유형의 데이터로 보완이 가능하여 데이터 부족 문제에도 강한 특징을 가짐
  • 데이터 통합은 일반적으로 데이터 전처리 → 특징 추출 → 공통 표현 학습 → 통합 분석의 절차 수행

 

3. 멀티모달 인공지능의 핵심 기술

구분 핵심 기술 동작 방식
데이터 퓨전 – 각 양식의 데이터 간 관계를 파악하고 의미 있는 정보를 추출
Early
Fusion
– 데이터 처리 과정 초기 단계에 다양한 양식 데이터 결합
– 모델에 데이터를 입력하기 전에 다양한 데이터 소스를 통합하여 단일의 통합된 특징 집합을 생성
Intermediate
Fusion
– 각 양식에서 추출된 특징들을 모델 중간 단계에 결합
– 각 양식의 데이터를 먼저 독립적으로 처리하여 특징을 추출하고, 이렇게 추출된 특징들을 나중에 결합
Late
Fusion
– 각 양식의 데이터를 독립적으로 처리하고, 각 예측 결정 후 결과를 결합하여 최종 결정
– 각 양식에서 도출된 결론이나 예측을 통합
모달리티
특정 인코딩
– 이미지, 텍스트, 음성, 영상 등 다양한 양식의 데이터를 활용하여 인식하고 학습
이미지 인코딩 CNN을 이용하여 데이터의 특징을 추출
텍스트 인코딩 NLP 기술을 사용하여 텍스트의 특징을 추출
음성/영상인코딩 RNN, 컴퓨터 비전 등 처리 기술을 활용하여 특징 추출
크로스-모달
학습
– 서로 다른 양식의 데이터를 함께 학습하여 모델의 성능을 향상
공통 표현 방식
변환
– 서로 다른 양식의 데이터를 공통된 표현 방식으로 변환
집중 부분 조절 – 데이터 중요도를 고려, 학습 과정에 집중할 부분을 조절
다른 양식으로
정보 변환
– 한 양식 정보를 다른 양식의 정보로 변환하여 학습
  • 효율적인 학습을 위해 사전 학습된 양식별 모델을 사용하며, 공통 임베딩 공간 학습, 데이터 증강 및 정규화, 지식 증류, 전이 학습, 공동 학습 등 수행

 

4. 멀티모달 인공지능의 활용 방식 및 사례

구분 활용 방식 활용 사례
창의적
콘텐츠
생성
이미지 생성 – 사용자가 제공한 텍스트 설명을 바탕으로 고품질 이미지 생성
– OpenAI DALL·E, Midjourney, Stable Diffusion
동영상 생성 – 텍스트 설명 기반 동영상을 생성하여 멀티미디어 콘텐츠 제작
– Meta Make-A-Video, OpenAI Sora
강화된
사용자
인터페이스
질문/답변 및
정보 제공
– 다양한 양식의 데이터 입력, 사용자 질문에 답변 및 정보 제공
– Flamingo, CLIP
사용자 인터페이스 제공 – 텍스트, 음성 등 사용자 맥락에 맞추어 인터페이스 제공
– Google Assistant, Apple Siri
향상된
분석 능력
의료 분야
활용
– 환자의 의료 이미지와 기록을 종합 분석하여 진단의 정확성을 높이고, 특정 치료법에 대한 추천을 제공
– IBM Watson
모빌리티
분야 활용
– 카메라, 레이더, 초음파 센서 등 멀티모달 센서 배열 기반 주행 상황 분석, 차선 변경, 속도 조절 등의 기능을 자동으로 수행
– Tesla Autopilot
  • 인공지능이 생성한 결과에 따른 위험성이 높으므로 신뢰성을 높이기 위해 다양한 기술적 조치 필요
  • 특히, 알고리즘 편향성 최소화, 콘텐츠 출처 감지, 가짜 콘텐츠 최소화, 지식재산권 문제 해결 등 멀티모달 인공지능 기술의 발전이 사회에 긍정적으로 기여할 수 있도록 보장 필수

 
[참고]

  • 김말희, 정보통신기획평가원(IITP), 인간을 닮은 인공지능, 멀티모달 인공지능 기술 동향, 2024
  • 김말희, TTA 저널, 지각의 새로운 지평을 연 멀티모달 AI, 2024
Categories: 알고리즘/AI
도리:
whatsapp
line