Track D - Session 10
Multimodal RAG가 여는 새로운 가능성
Session Overview
본 강연에서는 다양한 형태의 데이터를 통합하여 AI 응답의 정확성과 신뢰도를 높이는 멀티모달 검색·증강 생성(Multimodal RAG)의 핵심 원리를 다룹니다. 이미지를 텍스트로 변환하던 초기 단계를 넘어, 여러 유형의 데이터를 직접 검색하고 통합하는 최신 아키텍처의 기술적 발전 과정을 살펴봅니다. 이론적 개념부터 실제 산업 활용 사례, 나아가 멀티모달 임베딩과 에이전트 시스템의 미래 발전 방향까지 다룹니다.
What you’ll learn
- 텍스트만으로 포착하기 어려운 시각적 정보(차트·다이어그램·이미지), 오디오, 비디오 등 다양한 데이터 유형을 직접 이해하여 AI 응답의 신뢰도와 완성도를 높이는 접근
- 모든 형태의 데이터를 공유 벡터 공간에서 통합하는 멀티모달 임베딩의 원리와 이를 적용하는 최신 아키텍처
- 여러 산업의 복잡한 문서 분석 및 질의응답 시스템에서의 멀티모달 RAG 적용 사례
Speaker

김한얼
Senior Software Engineer
Unity Technologies
김한얼 연사는 다양한 산업 분야에 AI/ML 기술을 적용하는 소프트웨어 엔지니어입니다. 서울대학교 연구원으로 경력을 시작하여 삼성메디슨에서 의료 영상 진단 AI 솔루션 개발을 주도하며 비전 AI 분야의 전문성을 쌓았습니다. 현재는 Unity Technologies의 Senior Software Engineer로 APAC 지역의 게임, 자동차, 건축, 미디어 등 여러 산업에 AI/ML 기술 컨설팅을 제공하고 있습니다.