1. 멀티모달 인공지능 (Multimodal AI)의 개념
개념도 | ![]() ![]() |
---|---|
개념 | 텍스트, 이미지, 오디오 등 서로 다른 유형의 데이터를 동시에 처리하고 분석하는 인공지능 기술 |
- 예를 들어, 사용자가 텍스트로 상황을 기술하면, 이를 기반으로 이미지나 동영상을 생성할 수 있으며, 최근 입력과 출력 양식이 다른 크로스 모달 형태가 주목 받고 있음
2. 멀티모달 인공지능의 주요 유형 및 구성요소
(1) 멀티모달 인공지능의 주요 유형
![]() ![]() |
(2) 멀티모달 인공지능의 구성요소
구성요소 | 역할 |
---|---|
입력 모듈 (Input Module) | – 다양한 유형의 데이터를 입력으로 받아서 전처리하거나 개별 양식을 위한 인코딩을 생성 |
융합 모듈 (Fusion Module) | – 양식별 처리된 정보를 다양한 융합 기법을 활용하여 통합 |
출력 모듈 (Output Module) | – 통합된 데이터 분석에 따른 결과를 텍스트, 이미지, 오디오, 동영상 등을 포함하는 다양한 양식으로 출력 |
- 여러 유형의 데이터를 결합하면 더 정확한 예측과 결정이 가능하며, 특정 유형의 데이터가 부족하면 다른 유형의 데이터로 보완이 가능하여 데이터 부족 문제에도 강한 특징을 가짐
- 데이터 통합은 일반적으로 데이터 전처리 → 특징 추출 → 공통 표현 학습 → 통합 분석의 절차 수행
3. 멀티모달 인공지능의 핵심 기술
구분 | 핵심 기술 | 동작 방식 |
---|---|---|
데이터 퓨전 | – 각 양식의 데이터 간 관계를 파악하고 의미 있는 정보를 추출 | |
Early Fusion | – 데이터 처리 과정 초기 단계에 다양한 양식 데이터 결합 – 모델에 데이터를 입력하기 전에 다양한 데이터 소스를 통합하여 단일의 통합된 특징 집합을 생성 | |
Intermediate Fusion | – 각 양식에서 추출된 특징들을 모델 중간 단계에 결합 – 각 양식의 데이터를 먼저 독립적으로 처리하여 특징을 추출하고, 이렇게 추출된 특징들을 나중에 결합 | |
Late Fusion | – 각 양식의 데이터를 독립적으로 처리하고, 각 예측 결정 후 결과를 결합하여 최종 결정 – 각 양식에서 도출된 결론이나 예측을 통합 | |
모달리티 특정 인코딩 | – 이미지, 텍스트, 음성, 영상 등 다양한 양식의 데이터를 활용하여 인식하고 학습 | |
이미지 인코딩 | – CNN을 이용하여 데이터의 특징을 추출 | |
텍스트 인코딩 | – NLP 기술을 사용하여 텍스트의 특징을 추출 | |
음성/영상인코딩 | – RNN, 컴퓨터 비전 등 처리 기술을 활용하여 특징 추출 | |
크로스-모달 학습 | – 서로 다른 양식의 데이터를 함께 학습하여 모델의 성능을 향상 | |
공통 표현 방식 변환 | – 서로 다른 양식의 데이터를 공통된 표현 방식으로 변환 | |
집중 부분 조절 | – 데이터 중요도를 고려, 학습 과정에 집중할 부분을 조절 | |
다른 양식으로 정보 변환 | – 한 양식 정보를 다른 양식의 정보로 변환하여 학습 |
4. 멀티모달 인공지능의 활용 방식 및 사례
구분 | 활용 방식 | 활용 사례 |
---|---|---|
창의적 콘텐츠 생성 | 이미지 생성 | – 사용자가 제공한 텍스트 설명을 바탕으로 고품질 이미지 생성 – OpenAI DALL·E, Midjourney, Stable Diffusion |
동영상 생성 | – 텍스트 설명 기반 동영상을 생성하여 멀티미디어 콘텐츠 제작 – Meta Make-A-Video, OpenAI Sora | |
강화된 사용자 인터페이스 | 질문/답변 및 정보 제공 | – 다양한 양식의 데이터 입력, 사용자 질문에 답변 및 정보 제공 – Flamingo, CLIP |
사용자 인터페이스 제공 | – 텍스트, 음성 등 사용자 맥락에 맞추어 인터페이스 제공 – Google Assistant, Apple Siri | |
향상된 분석 능력 | 의료 분야 활용 | – 환자의 의료 이미지와 기록을 종합 분석하여 진단의 정확성을 높이고, 특정 치료법에 대한 추천을 제공 – IBM Watson |
모빌리티 분야 활용 | – 카메라, 레이더, 초음파 센서 등 멀티모달 센서 배열 기반 주행 상황 분석, 차선 변경, 속도 조절 등의 기능을 자동으로 수행 – Tesla Autopilot |
- 인공지능이 생성한 결과에 따른 위험성이 높으므로 신뢰성을 높이기 위해 다양한 기술적 조치 필요
- 특히, 알고리즘 편향성 최소화, 콘텐츠 출처 감지, 가짜 콘텐츠 최소화, 지식재산권 문제 해결 등 멀티모달 인공지능 기술의 발전이 사회에 긍정적으로 기여할 수 있도록 보장 필수
[참고]
- 김말희, 정보통신기획평가원(IITP), 인간을 닮은 인공지능, 멀티모달 인공지능 기술 동향, 2024
- 김말희, TTA 저널, 지각의 새로운 지평을 연 멀티모달 AI, 2024