From Black-Box to Benchmarked: Building Trustworthy Gen AI Applications

AI Summit Seoul 2025 20 min

Session Overview

이번 세션에서는 생성형 AI 애플리케이션의 신뢰성과 품질을 보장하기 위해 ‘평가(evaluation)’가 왜 필수적인가를 다룬다. 블랙박스 접근을 넘어, 모델의 추론력(reasoning), 안정성(stability), 일관성(consistency)을 체계적으로 측정하고 개선하기 위한 평가 프레임워크의 필요성을 강조한다.

또한 W&B Weave를 기반으로 데이터, 모델, 코드의 전 과정을 추적할 수 있는 재현 가능한 검증 환경(reproducible validation)을 소개한다. 이러한 평가 중심 워크플로우는 LLM과 에이전틱 AI 시스템이 직면한 롱테일 문제와 일반화 한계를 해결하는 핵심 접근법으로 작용한다.

궁극적으로, 본 세션은 체계적인 평가가 투명하고 신뢰할 수 있는 GenAI 시스템 구축으로 이어지는 과정을 보여준다.

Speaker

오현우

시니어 AI 솔루션 엔지니어

Weights & Biases

오현우는 글로벌 AI 플랫폼 기업 Weights & Biases(W&B)의 시니어 AI 솔루션 엔지니어로, 아시아 태평양(APAC) 지역 전반의 조직들이 확장 가능하고 효율적인 AI 개발 워크플로우를 구축할 수 있도록 이끌고 있다. 특히 대규모 언어모델(LLM)과 생성형 AI(GenAI) 개발에 초점을 맞추어, 기업의 AI 환경을 진단하고 각 조직의 워크플로우에 최적화된 W&B 솔루션 도입을 지원하고 있다.

W&B에 합류하기 전에는 도쿄대학에서 학업을 마친 후 VUNO와 NAVER에서 의료 영상 분석 분야 및 대규모 검색 시스템에 AI 기술을 적용했다.