Track B - Session 9
생성형 AI 추론의 확장: 기술, 최적화, 그리고 실전 교훈
Session Overview
생성형 AI의 도입이 가속화되고 Agentic AI 시스템이 새로운 추론 수요를 만들어내면서, 가장 큰 과제는 프로토타입을 넘어 실제 프로덕션 환경으로 워크로드를 확장하는 데 있습니다. 이 과정에서 비용, 지연 시간, GPU 관리의 복잡성이 종종 비즈니스 성장을 가로막는 장애물이 되곤 합니다.
이번 발표에서는 양자화(quantization), 배치 처리(batching), 캐싱(caching)과 같은 핵심 추론 최적화 기술을 중심으로, 실제 서비스에서의 시스템 성능과 안정성을 확보하는 방법을 다룹니다. FriendliAI가 대규모 추론 서비스 경험을 통해 얻은 교훈을 공유하며, 이러한 기술이 어떻게 더 높은 처리량, 더 낮은 비용, 그리고 예측 가능한 성능을 달성하도록 돕는지, FriendliAI가 이를 어떻게 활용하는지를 소개합니다.
Speaker

전병곤
대표
프렌들리AI
연사 정보는 곧 공개됩니다.