실무 중심 AI의 현재와 미래, 그리고 AIE 월드페어에서 논의된 13가지 핵심 주제를 정리했습니다. 실제 사례와 엔지니어링 트렌드, eval, GraphRAG, 음성 에이전트, 그리고 PM과 인프라 등 실제 AI 구축에 필요한 인사이트를 만날 수 있습니다.
실제 실무형 AI의 미래를 알고 싶다면 샌프란시스코에서 열린 AI 엔지니어 월드페어(AIE)가 바로 그 현장입니다. 엔지니어, PM, 전문가 등 실전 감각의 리더들이 내년쯤이면 모두가 따라갈 트렌드와 방법론을 직접 만들어가고 있는 자리죠.
올해 컨퍼런스의 주요 화두는 다음과 같습니다(인기순): 에이전트 신뢰성, MCP, 인프라, 평가(evals), (그래프)RAG, AI 제품 관리, SWE 에이전트, 포춘 500 내 AI/UX 디자인, 바이브 코딩, 보안, 음성 에이전트 등입니다.
컨퍼런스 트랙을 좌우한 커뮤니티 설문 결과
이번 글에서는 행사에서 논의된 가장 인사이트 깊은 내용을 요약해 참석하지 못한 분들에게 정리하고, 참석자에겐 팀 공유용 리소스를 제공하려 합니다.
소프트웨어는 Agile, CI/CD, TDD 같은 신뢰도 높은 모델이 있지만, AI는 아직 명확한 표준이 없습니다.
키노트에서 swyx는 아직 AI 엔지니어링에 명확한 표준이 정해지지 않았다고 강조했습니다.
키노트에서 제시된 또 다른 포인트는 AI 제품의 가치를 어떻게 평가할 것인가였습니다. AI의 ‘에이전트성’이 중요한 게 아니라, "인간의 입력 한 단위당 얼마나 큰 결과가 나오는가"가 핵심 레버리지라는 의미죠.
실제 관찰 예시:
Greg Brockman에 따르면, 바이브 코딩은 굉장한 엔지니어 empowerment 도구로, 목표가 없는 인터랙티브 루프형 코딩 개념에서, 앞으로는 기존 레거시 시스템을 AI가 진짜로 뜯어고치는 변혁의 계기가 될 것이라고 했습니다.
예를 들어 Codex와 같은 요소도, 실제로는 동료처럼 100개의 에이전트를 병렬로 돌려 실제 업무를 같이 하는 게 최종 목표라 합니다.
Greg는 "에이전트성 코딩"이 바이브 코딩을 가로채며 향후 개발은 전부 AI 동료가 수행할 것이라고 말했습니다.
Anthropic은 대규모 커뮤니티 피드백을 반영해 MCP를 대폭 개선했고, 최근엔 스트리밍 HTTP 지원까지 추가했습니다. 이젠 HTTP POST와 선택적 SSE 스트림으로 더 풍부한 기능을 지원합니다. 새로운 방향성 둘러보기.
인증 변경, 중앙집중화된 서버 레지스트리, 사용자와의 정보 요청 프로토콜 등도 나왔습니다.
Anthropic에 따르면, MCP 관련 초기 스타트업 기회는 세로형 서버(에이전트를 서버로 모으는 구조) 구축, 빌드 단순화(MCP 자동 빌드), 엔터프라이즈용 AI 평가·관찰성 지원 강화에 있습니다.
Microsoft의 Harald Kirschner는 MCP 툴링에서 “질이 양보다 중요”하다는 점을 강조합니다.
Roots, Resources, Sampling 활용법은 이 발표에서 확인하세요.
📺 풀 MCP 트랙 영상 (2:30~)
Dex Horthy가 발표한 12 팩터 에이전트는 이 분야의 실제 경험에서 나온 인사이트입니다. 대부분의 AI 제품이 실제로는 결정론적 코드에 몇 단계 LLM 액션만 딸려 있고, 진짜 ‘에이전트’가 아니라고 강조합니다. (녹음본 미공개, 글로 보기)
AI 제품을 만들거나 AI 중심 스타트업을 한다면, 무엇보다 평가(evals)를 잘해야 합니다. 이번 행사에서 가장 많이 논의된 트랙이기도 했죠. 그리고 모든 발표자가 평가가 여전히 수동·어렵다고 토로했습니다.
전체 평가 트랙 영상: 바로보기
제품 관리자(PM)는 신뢰할 수 있는 AI 구축에 있어 핵심입니다. PM은 요구사항, 맥락, 사용자에게 드러나는 데이터/출력을 소유해야 합니다. 현재는 엔지니어에 의존하지 않고 PM이 주도적으로 동작을 컨트롤할 수 있는 도구가 부족합니다.
지식 그래프(knowledge graph)가 드디어 주목을 받기 시작했습니다. Microsoft의 GraphRAG 논문 이후, 점점 복잡한 AI 에이전트가 등장하면서 계층적 지원/설명력과 데이터 설명가능성의 니즈가 커졌습니다.
Retrieval + Search 토크 영상: 클릭
GraphRAG 관련 영상: 클릭
음성 AI 분야가 새 트렌드로 급상승 중입니다. 통합 및 구현이 한결 쉬워지고, 이제 진짜 어려운 건 중단·자연스러운 대화 처리 등입니다. 여러 스타트업이 이 분야 혁신 제품/서비스를 선보였죠. 예를 들어 Eleven Labs는 새 TTS 모델 “Eleven v3”를, Vapi는 에이전트 설계용 비주얼+프로그래머블 레이어 “Vapi Workflows”를 공개했습니다.
팔로우 할 만한 인물: Tom(라이브킷), Philip(베이스텐), Peter(인터컴), Jordan(Vapi)
지난 1년간 모델 수준에서 인프라가 집약되었습니다. 이번 행사에서 Logan Kilpatrick이 표명한 핵심은 "이젠 모델 자체가 에이전트가 되고 있다"는 점.
이제는 모델이 체계화되고, reasoning(추론) 단계가 이 가능성을 열어줬습니다. 대부분의 scaffold(외부 로직)는 앞으로 모델 수준에서 해결될 것이라는 것이죠. Anthropic의 "Building effective agents"도 같은 주장을 했습니다.
Windsurf는 하루 9천만 줄 코드를 생성 중. 이들의 "비법"은 바로 "인간 & AI 타임라인 공유"입니다. SWE 에이전트는 IDE 외 개발 환경에서도 개발자를 도와야 한다는 철학을 갖고 있죠.
SWE 에이전트 필수조건:
SWE 에이전트화 전략을 강화하며, end-to-end SWE 전용 신모델 SWE-1도 공개했습니다.
최근 6개월간 30개 이상의 주요 모델이 공개됐지만, 실제로 간단명료하게 각 모델의 성능을 평가하긴 여전히 어렵습니다.
Simon Willison이 제안한 이 실험은, 모든 모델에게 “자전거 탄 펠리컨의 SVG를 그려보라”는 미션을 제시하는 방식입니다. 펠리컨이 자전거를 당연히 못 타기에, 두 대상을 조합해 그림을 그리게 하는 것이 난이도가 높죠.
결과: Gemini 2.5 Pro Preview가 최고, 그 뒤로 o3, Claude 4 Sonnet, Gemini 2.0 Flash, Gemini 2.5 Flash, GPT 4.1, 그리고 마지막은 Llama 3.3-70b-instruct 순("발표 및 슬라이드")
[George](https://www.linkedin.com/in/georgecameron/, Artificial Analysis)은 오늘날 중요한 두 축이 바로 추론(reasoning) 가능한 모델과 그렇지 않은 모델임을 공유. 평가시 반드시 reasoning, 지연(latency), 추론 속도, 비용 등 구체적 수치를 비교해야 자신에게 맞는 최적 모델을 찾을 수 있습니다. 글로벌 벤치마크 맹신은 금물, 실제 쓰는 목적에 맞는 평가를 스스로 해야 합니다.
Amplify Partners가 추천하는, AI 뉴스레터/팟캐스트 리스트. 강력추천!
Vellum에서 저는 규제가 많은 산업군의 기업들과 협업하며, 팀 업스킬 및 혁신을 추구하면서도 신뢰성 있는 AI로 빠르게 성장하는 노하우를 배우고 있습니다.
우리 플랫폼은 AI 엔지니어링 전 단계의 다양한 실무자에게 최적화:
Vellum에서 하는 일을 더 알고 싶다면 홈페이지에서 확인하세요. 제품 빌드 중 고민이 있다면 트위터 DM 또는 AI 전문가 상담 예약 가능합니다.
읽어주셔서 감사합니다!
Anita Kirkovska
Founding Growth Lead
AI 전문가, ML·GenAI·LLM 교육, 전 Fulbright 장학생, Vellum에서 성과 있는 AI 제품 설계와 확산을 이끌고 있습니다. LLM 평가와 AI 실무 베스트 프랙티스 칼럼을 집필하며, 비즈니스 리더의 AI 도입을 지원합니다.