Agent Bricks는 기업 데이터에 기반한 도메인 특화 에이전트를 쉽게 구축하고 자동으로 최적화하는 Databricks의 새로운 플랫폼입니다. 자동 평가 및 AI 연구 기반의 최적화 기술로 빠르고 비용 효율적인 고품질 에이전트 개발이 가능합니다.
발행일: 2025년 6월 11일
6분 분량
Xiangrui Meng, Kasey Uhlenhuth, Hanlin Tang, Patrick Wendell, Matei Zaharia 작성
지난 해 Mosaic AI가 도입되며 ‘데이터 인텔리전스’—내 데이터로 합리적으로 추론하는 AI—의 약속이 본격화되었습니다. 이후 수천 개의 고객사가 본인의 엔터프라이즈 데이터를 바탕으로 도메인 맞춤 에이전트를 개발하여 실제 운영에 투입했습니다.
예시:
그러나 생성형 AI 기술의 미성숙으로 인해 실제 운영 도입에 있어서는 여전히 다음과 같은 어려움이 많았습니다:
이러한 경험을 바탕으로 Databricks의 팀은 에이전트 구축 방식을 근본적으로 다시 고민했습니다. 이제 Agent Bricks라는 새로운 제품을 발표합니다. 이는 엔터프라이즈가 도메인 맞춤 에이전트를 개발하는 방식을 완전히 바꿉니다. 기존의 복잡한 개발 과정을 직접 관리하는 대신, “이 에이전트가 무엇을 해야 하는지”에만 집중해 자연어로 목적과 품질 피드백을 제시하면 나머지는 모두 Agent Bricks가 자동 처리해줍니다. 평가 세트 생성부터 품질 자동 최적화까지 모두 자동화되어 있습니다.
동작 방식은 다음과 같습니다:
MLflow 3 기반으로 업무 맞춤 평가 데이터셋과 판정기를 Agent Bricks가 자동 생성합니다. 3. 자동 최적화: 프롬프트 엔지니어링, 모델 파인튜닝, 리워드 모델, 테스트 적응 최적화(TAO) 등 다양한 최신 최적화 기법을 자동으로 조합하여 고품질 결과를 도출합니다. 4. 비용과 품질까지 관리: Agent Bricks는 에이전트의 효과뿐 아니라 비용 효율도 자동 보장합니다. 비용 최적화와 품질 최적화 모델을 쉽게 선택할 수 있으며, 대부분 기존 방식 대비 더 높은 품질을 훨씬 저렴하게 달성합니다.
Agent Bricks는 자동 평가로 시행착오를 줄이고, 각종 매개변수 튜닝을 자동화해 최고의 성능으로 운영할 수 있도록 돕습니다. 최종적으로, 이제 비용 효율적이면서 고품질인 에이전트를 며칠 만에 실서비스로 출시할 수 있습니다. Agent Bricks는 구조화 정보 추출, 지식 기반 Q&A, 맞춤형 텍스트 변환, 멀티 에이전트 오케스트레이션 등 다양한 산업 요구에 최적화되어 있습니다.
Agent Bricks는 측정·개선이 쉽고, 지속적으로 품질이 향상되는 에이전트를 만듭니다. 예를 들어, 문서 기반 질의응답 에이전트의 경우 여러 벤치마크에서 평균적으로 타사 제품 대비 월등한 품질을 보여주었습니다(그림 1). 지속적 학습으로 시간이 지날수록 성능이 더 개선됩니다.
그림 1
문서 이해 업무 기준으로도, 기존 프롬프트 최적화 LLM 대비 비용은 낮추고 품질은 높였습니다(그림 2). 문서 파싱 벤치마크에서 최대 10배 저렴한 비용으로 더 뛰어난 품질을 보입니다.
그림 2
이외에도 실제 고객들이 Agent Bricks로 품질 높은 에이전트를 만드신 실제 후기입니다:
"Agent Bricks 덕분에 상용 LLM 대비 의료 정확도를 2배 높였으며 Flo Health의 엄격한 임상 기준, 안전, 프라이버시, 보안 요건도 충족했습니다." — Roman Bugaev, CTO, Flo Health
"Agent Bricks는 오픈소스 초안 대비 LLM·인간 평가 모두에서 훨씬 정확한 결과를 보여주었습니다." — Joel Wasson, Hawaiian Electric
"피드백 루프를 통한 품질개선, 비용-성능 모두 우수한 옵션 도출 등으로 사내 AI 역량 전반이 Agent Bricks로 크게 강화되었습니다." — Chris Nishnick, Director of AI, Lippert
Agent Bricks가 이러한 혁신적 성과를 내는 이유는 Databricks Mosaic AI Research 팀의 최신 AI 연구가 집약된 덕분입니다. 업계에는 수많은 에이전트 최적화 방법이 끊임없이 등장하고 있는데, 당사 연구진은 기존 연구를 엄선해 Agent Bricks에 탑재하는 한편 자체 혁신도 지속합니다. 그 중 대표 혁신이 바로 ALHF(Agent Learning from Human Feedback)입니다.
AI 품질을 높이는 핵심 난제는 실제 피드백을 기준으로 에이전트의 행동을 수정하는 일입니다. 보통은 '좋아요/싫어요' 같은 한정적 피드백이 전부이며, 어떤 시스템 구성 요소를 어떻게 조정해야 반영되는지 알기 어렵습니다. 기존엔 모든 지시사항을 대규모 LLM 프롬프트에 넣는 방식을 썼지만, 이는 복잡한 시스템으로 일반화되지 않습니다.
ALHF에서는 두 가지로 이 문제를 해결합니다. 첫째, "1990년 5월 이전 데이터는 모두 무시"처럼 풍부한 자연어 품질 피드백을 받을 수 있습니다. 둘째, 이런 자연어 피드백을 자동으로 적절한 기술적 최적화—검색 알고리즘 개선, 프롬프트 강화, 벡터DB 필터링, 에이전트 패턴 변경 등—으로 번역하는 알고리즘을 적용했습니다.
이 방식은 도메인 전문가들이 AI 인프라 기술이 없어도 품질 개선에 직접 기여할 수 있게 해줍니다.
"정확도를 지속적으로 평가하고 개선할 수 있다는 점이 Experian 같은 엄격한 규제 산업에서는 특히 중요합니다." — James Lin, Head of AI ML Innovation, Experian
초기 고객들은 이미 Agent Bricks로 정확도를 2배 올리고, 몇 주 걸리던 개발 기간을 단 하루로 단축하는 경험을 얻고 있습니다. 불가능해 보였던 일—지속 가능하면서 확장 가능하고, 비즈니스 가치를 꾸준히 제공하는 AI 시스템 구축—이 이제 현실이 되었습니다.
Agent Bricks는 단순한 툴 혁신에 그치지 않고, 엔터프라이즈급 운영에 적합한 AI 개발의 새로운 패러다임 전환을 의미합니다. 이제 에이전트는 기업 운영의 핵심이 될 것이며, 과거의 ‘직감 의존’ 방식은 한계에 부딪힐 것입니다. 실제 복잡한 경영현장에 맞는, 체계적이고 견고한 지능형 에이전트 최적화 방법이 필수입니다.
이미 수많은 Databricks 고객이 Agent Bricks로 AI 에이전트를 만들었고, 앞으로 어떤 혁신이 이어질지 기대를 모으고 있습니다.
Experian 및 Flo Health 사례 영상 보기
“Agent Bricks 덕분에 코드 한 줄 없이 40만 개 임상시험 문서를 분석, 구조화 데이터를 추출할 수 있었습니다. 겨우 60분 만에 복잡한 비정형 데이터를 분석 가능한 형태로 자동 변환하는 에이전트가 완성됐습니다.” — Joseph Roemer, Head of Data & AI, AstraZeneca
“Agent Bricks로 생산 환경에서 신뢰 가능한 비용 효율적 에이전트를 구축할 수 있었습니다. 맞춤 평가 프레임워크로 구조화 정보 추출 에이전트를 안정적으로 빠르게 완성해, 기존 수작업 최적화 대비 30일 이상 절감할 수 있었습니다." — Ryan Jockers, Assistant Director, North Dakota University System
‘데모 품질’이 아니라 ‘운영 품질’로 한 단계 도약할 준비가 되셨나요? Agent Bricks가 베타로 제공됩니다.
시작 방법:
엔터프라이즈 AI의 미래는 복잡함 관리가 아니라, 중요한 비즈니스 성과에 집중하는 것이어야 하며, 그 과정 전반을 Agent Bricks가 책임집니다.