AI 엔지니어 월드페어의 주요 인사이트

실제 실무형 AI의 미래를 알고 싶다면 샌프란시스코에서 열린 AI 엔지니어 월드페어(AIE)가 바로 그 현장입니다. 엔지니어, PM, 전문가 등 실전 감각의 리더들이 내년쯤이면 모두가 따라갈 트렌드와 방법론을 직접 만들어가고 있는 자리죠.

올해 컨퍼런스의 주요 화두는 다음과 같습니다(인기순): 에이전트 신뢰성, MCP, 인프라, 평가(evals), (그래프)RAG, AI 제품 관리, SWE 에이전트, 포춘 500 내 AI/UX 디자인, 바이브 코딩, 보안, 음성 에이전트 등입니다.

컨퍼런스 트랙을 좌우한 커뮤니티 설문 결과

이번 글에서는 행사에서 논의된 가장 인사이트 깊은 내용을 요약해 참석하지 못한 분들에게 정리하고, 참석자에겐 팀 공유용 리소스를 제공하려 합니다.

1. AI 엔지니어링의 표준 모델은?

소프트웨어는 Agile, CI/CD, TDD 같은 신뢰도 높은 모델이 있지만, AI는 아직 명확한 표준이 없습니다.

키노트에서 swyx는 아직 AI 엔지니어링에 명확한 표준이 정해지지 않았다고 강조했습니다.

LLM OS (Karpathy의 버전, LLM이 OS를 관리)
SDLC (테스트 주도 개발, 직접 소개함)
효과적인 에이전트 빌딩 (소개글)
DSPy (프롬프트가 아닌 LLM 프로그래밍)
DocETL/Petals (무거운 프로세스의 분산화)
에이전트 엔지니어링 IMPACT (설명 영상)

2. AI 제품의 "가치"란?

키노트에서 제시된 또 다른 포인트는 AI 제품의 가치를 어떻게 평가할 것인가였습니다. AI의 ‘에이전트성’이 중요한 게 아니라, "인간의 입력 한 단위당 얼마나 큰 결과가 나오는가"가 핵심 레버리지라는 의미죠.

실제 관찰 예시:

1:0.5 (예: Copilot) – AI가 도와주지만 인간의 노력이 더 많이 듦
1:1 (예: ChatGPT) – 인간과 AI가 비슷하게 기여
1:10 (예: O-series, Reasoners 등) – AI가 생산성 크게 증대
1:10,000 (예: Deep Research, NotebookLM) – AI가 거의 모든 생산을 담당
0:1 (예: Ambient Agents) – 사용자의 입력 없이 AI가 스택에 연동되어 작동

3. 바이브 코딩은 미래를 바꾼다

Greg Brockman에 따르면, 바이브 코딩은 굉장한 엔지니어 empowerment 도구로, 목표가 없는 인터랙티브 루프형 코딩 개념에서, 앞으로는 기존 레거시 시스템을 AI가 진짜로 뜯어고치는 변혁의 계기가 될 것이라고 했습니다.

예를 들어 Codex와 같은 요소도, 실제로는 동료처럼 100개의 에이전트를 병렬로 돌려 실제 업무를 같이 하는 게 최종 목표라 합니다.

Greg는 "에이전트성 코딩"이 바이브 코딩을 가로채며 향후 개발은 전부 AI 동료가 수행할 것이라고 말했습니다.

Greg가 참여한 전체 패널 보기.

4. MCP 성숙의 신호

Anthropic은 대규모 커뮤니티 피드백을 반영해 MCP를 대폭 개선했고, 최근엔 스트리밍 HTTP 지원까지 추가했습니다. 이젠 HTTP POST와 선택적 SSE 스트림으로 더 풍부한 기능을 지원합니다. 새로운 방향성 둘러보기.

인증 변경, 중앙집중화된 서버 레지스트리, 사용자와의 정보 요청 프로토콜 등도 나왔습니다.

→ 다음 단계는 단순화·평가!

Anthropic에 따르면, MCP 관련 초기 스타트업 기회는 세로형 서버(에이전트를 서버로 모으는 구조) 구축, 빌드 단순화(MCP 자동 빌드), 엔터프라이즈용 AI 평가·관찰성 지원 강화에 있습니다.

→ 많은 도구 ≠ 좋은 에이전트

Microsoft의 Harald Kirschner는 MCP 툴링에서 “질이 양보다 중요”하다는 점을 강조합니다.

가능한 한 수동으로 요구 도구 수를 줄일 것
프롬프트에서 도구 언급은, 사용자가 요구할 때만 실제 참고할 것
특정 작업용 도구를 과제별로 재사용하면 효과적

Roots, Resources, Sampling 활용법은 이 발표에서 확인하세요.

📺 풀 MCP 트랙 영상 (2:30~)

5. 대부분의 "에이전트"는 진짜 에이전트가 아니다

Dex Horthy가 발표한 12 팩터 에이전트는 이 분야의 실제 경험에서 나온 인사이트입니다. 대부분의 AI 제품이 실제로는 결정론적 코드에 몇 단계 LLM 액션만 딸려 있고, 진짜 ‘에이전트’가 아니라고 강조합니다. (녹음본 미공개, 글로 보기)

6. "평가"가 전부다

AI 제품을 만들거나 AI 중심 스타트업을 한다면, 무엇보다 평가(evals)를 잘해야 합니다. 이번 행사에서 가장 많이 논의된 트랙이기도 했죠. 그리고 모든 발표자가 평가가 여전히 수동·어렵다고 토로했습니다.

주요 사례

Ankur(Braintrust): 평가 과정은 수동·노가다가 많으나, AI로 데이터셋·자동 스코어링을 만들 수도 있다(발표 영상)
Zapier: 명시적 피드백이 드물기 때문에 유저의 행동, UI, 대화 등간의 암묵적 신호가 더 중요. 실제 핵심 평가는 "트레젝터리 평가"(엔드 투 엔드 평가)를 준비 중. (영상 보기)

[Barr Yaron](https://x.com/barrnanas, Amplify Partners) 설문 결과: 엔지니어가 꼽은 #1 고통은 "평가". 특히 빠른 생태계 변화와 툴 파편화가 고민거리.

전체 평가 트랙 영상: 바로보기

7. 신뢰할 수 있는 AI의 핵심은 PM

제품 관리자(PM)는 신뢰할 수 있는 AI 구축에 있어 핵심입니다. PM은 요구사항, 맥락, 사용자에게 드러나는 데이터/출력을 소유해야 합니다. 현재는 엔지니어에 의존하지 않고 PM이 주도적으로 동작을 컨트롤할 수 있는 도구가 부족합니다.

최고의 PM은 “감 잡기(vibe-check)”를 넘어, 반복 가능한 평가 전략을 직접 운영하며 점점 더 기술적으로 변모함
기존 기능이 아닌, 계정별/사용자별 맞춤 소프트웨어를 직접 디자인, 반복하며 피처를 개선
AI 제품/기능 개발이 점점 복잡해지며, 스펙도 affordance(가능한 행동) 위주로 써놓고, 평가는 반복적으로 쌓아가며 개선

8. GraphRAG 재소환

지식 그래프(knowledge graph)가 드디어 주목을 받기 시작했습니다. Microsoft의 GraphRAG 논문 이후, 점점 복잡한 AI 에이전트가 등장하면서 계층적 지원/설명력과 데이터 설명가능성의 니즈가 커졌습니다.

트랙 하이라이트

[Calvin](https://x.com/calvincongelado, Harvey AI): 도메인 특화 문제는 데이터/모델/인프라 창의적 접근 필요. 반복 속도·유연성 중요
Neo4j팀: GraphRAG 데모 & 과정 설명 데모 영상 / 더 저렴하게, 컨텍스트·설명력 우수(영상)
NVIDIA Mitesh: 하이브리드 RAG (graph와 naive rag 결합, 영상)
[Sam Julien](https://x.com/samjulien, Writer): Graph RAG 기반 아키텍처로 RobustQA 86.31% 정확도, 엔터프라이즈에 적합한 이유, UI에 설명·추적성 제공(영상)
[Vasilije](https://x.com/tricalt, Cognee): 의미론적 그래프 생성 및 개발자 평가용 에이전트 데모, 영상

Retrieval + Search 토크 영상: 클릭

GraphRAG 관련 영상: 클릭

9. 음성 에이전트 시대 도래

음성 AI 분야가 새 트렌드로 급상승 중입니다. 통합 및 구현이 한결 쉬워지고, 이제 진짜 어려운 건 중단·자연스러운 대화 처리 등입니다. 여러 스타트업이 이 분야 혁신 제품/서비스를 선보였죠. 예를 들어 Eleven Labs는 새 TTS 모델 “Eleven v3”를, Vapi는 에이전트 설계용 비주얼+프로그래머블 레이어 “Vapi Workflows”를 공개했습니다.

팔로우 할 만한 인물: Tom(라이브킷), Philip(베이스텐), Peter(인터컴), Jordan(Vapi)

10. 모델이 에이전트가 되는 시대

지난 1년간 모델 수준에서 인프라가 집약되었습니다. 이번 행사에서 Logan Kilpatrick이 표명한 핵심은 "이젠 모델 자체가 에이전트가 되고 있다"는 점.

이제는 모델이 체계화되고, reasoning(추론) 단계가 이 가능성을 열어줬습니다. 대부분의 scaffold(외부 로직)는 앞으로 모델 수준에서 해결될 것이라는 것이죠. Anthropic의 "Building effective agents"도 같은 주장을 했습니다.

11. 에이전트형 IDE의 확장

Windsurf는 하루 9천만 줄 코드를 생성 중. 이들의 "비법"은 바로 "인간 & AI 타임라인 공유"입니다. SWE 에이전트는 IDE 외 개발 환경에서도 개발자를 도와야 한다는 철학을 갖고 있죠.

SWE 에이전트 필수조건:

사내 파일, 명령어 이력, git 로그, 웹검색, 문서 등 다양한 소스 ingest
메타러닝으로 개발자 숙련/워크플로우/선호도 파악
서드파티 연동, API키 관리, 설계문서/PRD/와이어프레임 작성 등 주요 업무 지원

SWE 에이전트화 전략을 강화하며, end-to-end SWE 전용 신모델 SWE-1도 공개했습니다.

SWE에이전트는 개발자 대체가 아니라 역량을 증폭하는 수단임
뛰어난 엔지니어일수록 IDE보단 에이전트 매니징에 시간 집중
SWE에이전트 UI개발은 점점 복잡해지며(백엔드가 하는 일이 많음), Claude Code 개발팀 인사이트

12. 최고의 모델?

최근 6개월간 30개 이상의 주요 모델이 공개됐지만, 실제로 간단명료하게 각 모델의 성능을 평가하긴 여전히 어렵습니다.

자전거 타는 펠리컨 SVG 테스트

Simon Willison이 제안한 이 실험은, 모든 모델에게 “자전거 탄 펠리컨의 SVG를 그려보라”는 미션을 제시하는 방식입니다. 펠리컨이 자전거를 당연히 못 타기에, 두 대상을 조합해 그림을 그리게 하는 것이 난이도가 높죠.

결과: Gemini 2.5 Pro Preview가 최고, 그 뒤로 o3, Claude 4 Sonnet, Gemini 2.0 Flash, Gemini 2.5 Flash, GPT 4.1, 그리고 마지막은 Llama 3.3-70b-instruct 순("발표 및 슬라이드")

추론 모델 vs 비추론 모델?

[George](https://www.linkedin.com/in/georgecameron/, Artificial Analysis)은 오늘날 중요한 두 축이 바로 추론(reasoning) 가능한 모델과 그렇지 않은 모델임을 공유. 평가시 반드시 reasoning, 지연(latency), 추론 속도, 비용 등 구체적 수치를 비교해야 자신에게 맞는 최적 모델을 찾을 수 있습니다. 글로벌 벤치마크 맹신은 금물, 실제 쓰는 목적에 맞는 평가를 스스로 해야 합니다.

발표 영상

13. 추가 리소스

Amplify Partners가 추천하는, AI 뉴스레터/팟캐스트 리스트. 강력추천!

마치며

Vellum에서 저는 규제가 많은 산업군의 기업들과 협업하며, 팀 업스킬 및 혁신을 추구하면서도 신뢰성 있는 AI로 빠르게 성장하는 노하우를 배우고 있습니다.

우리 플랫폼은 AI 엔지니어링 전 단계의 다양한 실무자에게 최적화:

엔지니어는 강력한 SDK로 복잡한 컨트롤 플로우 자동화
PM은 저코드 빌더로 빠른 프로토타이핑
평가와 관찰로 누구나 AI시스템을 지속적으로 개선하고 효과 측정 가능

Vellum에서 하는 일을 더 알고 싶다면 홈페이지에서 확인하세요. 제품 빌드 중 고민이 있다면 트위터 DM 또는 AI 전문가 상담 예약 가능합니다.

읽어주셔서 감사합니다!

Anita Kirkovska
Founding Growth Lead

AI 전문가, ML·GenAI·LLM 교육, 전 Fulbright 장학생, Vellum에서 성과 있는 AI 제품 설계와 확산을 이끌고 있습니다. LLM 평가와 AI 실무 베스트 프랙티스 칼럼을 집필하며, 비즈니스 리더의 AI 도입을 지원합니다.