메모리에 더 많은 사용자 상호작용과 비즈니스 맥락이 축적될수록 AI 에이전트의 성능이 향상되는 메모리 스케일링과 이를 뒷받침하는 실험, 인프라, 향후 비전을 살펴봅니다.
추론 스케일링은 LLM이 올바른 맥락만 주어진다면 대부분의 실용적인 상황을 추론할 수 있는 수준까지 끌어올렸습니다. 많은 실제 에이전트에서 병목은 이제 추론 능력 자체가 아니라, 에이전트를 올바른 정보에 정박시키는 것, 즉 당면한 작업에 필요한 것을 모델에 제공하는 일입니다.
이는 에이전트 설계를 위한 새로운 축을 시사합니다. 더 강력한 모델이나 더 나은 프롬프트에만 집중하는 대신, 우리는 다음과 같이 물을 수 있습니다. 에이전트는 더 많은 정보를 축적할수록 더 나아지는가? 우리는 이를 메모리 스케일링이라고 부릅니다. 이는 과거 대화, 사용자 피드백, 상호작용 궤적(성공과 실패 모두), 그리고 비즈니스 맥락이 메모리에 저장될수록 에이전트 성능이 향상되는 성질입니다. 이 효과는 특히 엔터프라이즈 환경에서 두드러지는데, 암묵지가 풍부하고 하나의 에이전트가 많은 사용자를 서비스하기 때문입니다.
하지만 이것은 선험적으로 자명하지 않습니다. 메모리가 많다고 해서 자동으로 에이전트가 더 나아지는 것은 아닙니다. 품질이 낮은 흔적은 잘못된 교훈을 학습시킬 수 있고, 저장소가 커질수록 검색은 더 어려워집니다. 핵심 질문은 에이전트가 더 큰 메모리를 단순히 축적하는 데 그치지 않고 생산적으로 활용할 수 있는지 여부입니다.
Databricks에서는 인간 피드백을 바탕으로 에이전트 동작을 조정하는 ALHF와 MemAlign, 그리고 검색 에이전트가 복잡한 자연어 지시와 지식 소스 스키마를 정밀하고 구조화된 검색 질의로 변환할 수 있게 하는 Instructed Retriever를 통해 이 방향으로 초기 단계를 밟아왔습니다. 이러한 시스템들은 함께 지속적인 메모리를 통해 에이전트가 더 유용해질 수 있음을 보여줍니다. 이 글에서는 메모리 스케일링 동작을 보여주는 실험 결과를 제시하고, 이를 프로덕션에서 지원하는 데 필요한 인프라를 논의하며, 메모리 기반 에이전트의 미래 비전을 제시합니다.
메모리 스케일링은 에이전트의 외부 메모리가 커질수록 성능이 향상되는 성질입니다. 여기서 “메모리”는 추론 시점에 에이전트가 상호작용할 수 있는 지속적 정보 저장소를 뜻하며, 모델의 가중치나 현재 컨텍스트 윈도와는 구별됩니다.
이 때문에 메모리 스케일링은 파라메트릭 스케일링과 추론 시점 스케일링 모두와 구별되면서도 상호보완적인 축이 됩니다. 이는 모델 크기나 추론 능력만으로는 메울 수 없는 도메인 지식과 그라운딩의 공백을 다룹니다. 메모리 스케일링으로 인한 향상은 답변 품질에만 국한되지 않습니다. 에이전트가 어떤 환경에 대해 관련 스키마, 도메인 규칙, 혹은 과거의 성공적인 행동을 기억하고 있다면, 중복 탐색을 건너뛰고 더 빠르게 질의를 해결할 수 있습니다. 우리의 실험에서는 정확도와 효율성 모두에서 스케일링을 관찰했습니다.
지속 학습은 일반적으로 시간에 따라 모델 파라미터를 업데이트하는 데 초점을 맞추는데, 이는 제한된 환경에서는 잘 작동하지만 동시 사용자가 많고 에이전트가 많으며 프로젝트가 빠르게 바뀌는 상황에서는 계산 비용이 커지고 취약해집니다. 메모리 스케일링은 다른 질문을 던집니다. 수천 명의 사용자를 가진 에이전트가 한 명의 사용자만 가진 에이전트보다 더 잘 수행하는가? LLM 가중치를 고정한 채 에이전트의 공유 외부 상태를 확장하면, 답은 예가 될 수 있습니다. 한 사용자에게서 학습한 워크플로 패턴을 재학습 없이 즉시 다른 사용자에게 검색해 적용할 수 있기 때문입니다. 이는 단일 사용자의 모델 파라미터 업데이트에 초점을 둔 지속 학습이 본래 제공하도록 설계되지 않은 성질입니다.
큰 컨텍스트 윈도는 메모리를 대체하는 것처럼 보일 수 있지만, 둘은 서로 다른 문제를 다룹니다. 수백만 개의 원시 토큰을 프롬프트에 넣으면 지연 시간이 늘고 계산 비용이 증가하며, 관련 없는 토큰들이 주의를 놓고 경쟁하면서 추론 품질이 저하됩니다. 반대로 메모리 스케일링은 선택적 검색에 의존합니다. 즉, 얼마나 많은 컨텍스트를 포함할지뿐 아니라 무엇을 포함할지를 결정하여 현재 작업과 관련된 고신호 정보만 드러냅니다.
모든 메모리가 같은 목적을 수행하는 것은 아닙니다. 실무에서는 두 가지 구분이 중요합니다.
에피소드형 대 의미형. 에피소드형 메모리는 과거 상호작용의 원시 기록입니다. 대화 로그, 도구 호출 궤적, 사용자 피드백 등이 여기에 해당합니다. 의미형 메모리는 이러한 상호작용으로부터 정제된 일반화된 기술과 사실입니다(예: “이 영역의 사용자들은 'quarter'라고 하면 항상 회계 분기를 의미한다”). 각 유형은 서로 다른 저장, 처리, 검색 전략을 요구합니다. 에피소드형 메모리는 직접 검색에 적합하고, 의미형 메모리는 더 넓은 패턴 매칭을 위해 LLM이 정제합니다.
개인 대 조직. 어떤 메모리는 단일 사용자의 선호와 워크플로에 특화되어 있고, 다른 메모리는 명명 규칙, 공통 질의, 비즈니스 규칙 같은 조직 차원의 공유 지식을 나타냅니다. 메모리 시스템은 검색과 업데이트 범위를 적절히 설정해야 합니다. 조직 지식은 넓게 노출하되, 개별 맥락은 권한과 ACL을 존중하며 비공개로 유지해야 합니다.
MemAlign은 AI 에이전트를 위한 단순한 메모리 프레임워크가 어떤 모습일 수 있는지에 대한 우리의 탐구입니다. 이 프레임워크는 과거 상호작용을 에피소드형 메모리로 저장하고, LLM을 사용해 이를 일반화된 규칙과 패턴(의미형 메모리)으로 정제하며, 추론 시점에 가장 관련성 높은 항목을 검색해 에이전트를 안내합니다. 프레임워크의 자세한 내용은 이전 블로그 글에서 확인할 수 있습니다.
우리는 MemAlign을 Databricks Genie Spaces에서 테스트했습니다. 이는 비즈니스 사용자가 평이한 영어로 데이터 질문을 하고 SQL 기반 답변을 받는 자연어 인터페이스입니다. 아래에는 작업 질의와 답변의 예시가 제시되어 있습니다.
우리의 목표는 두 가지 데이터 소스, 즉 정제된 예제(라벨 있음)와 원시 사용자 대화 로그(라벨 없음)를 사용해 더 많은 메모리를 공급할수록 에이전트 성능이 어떻게 스케일하는지 측정하는 것입니다.
우리는 10개의 Genie space에 걸쳐 분포한 미공개 질문에 대해 MemAlign을 평가하면서, 주석이 달린 훈련 예제의 샤드를 점진적으로 에이전트 메모리에 추가했습니다. 기준선은 전문가가 정제한 Genie 지시사항(수동으로 작성한 테이블 스키마, 도메인 규칙, few-shot 예제)을 사용하는 에이전트입니다.

그림 1. 10개의 주석 처리된 Genie space에서 기억된 라벨된 샘플 수에 따른 테스트 점수와 평균 추론 단계 수.
결과는 두 차원 모두에서 일관된 스케일링을 보여줍니다.
정확도. 테스트 점수는 메모리 샤드가 추가될 때마다 꾸준히 증가하여, 거의 0에서 70%까지 상승했고, 최종적으로 전문가 정제 기준선을 약 5% 상회했습니다. 살펴본 결과, 사람이 라벨링한 데이터는 수동으로 작성한 테이블 스키마와 도메인 규칙보다 더 포괄적이어서 더 유용한 것으로 나타났습니다.
효율성. 예제당 평균 추론 단계 수는 메모리가 늘어남에 따라 약 20에서 약 5로 감소했습니다. 에이전트는 데이터베이스를 처음부터 탐색하는 대신 관련 맥락을 직접 검색하는 법을 학습했고, 하드코딩된 지시사항의 효율성(약 3.8단계)에 근접했습니다.
이 효과는 누적적입니다. 기억된 샘플이 10개의 서로 다른 Genie space에 걸쳐 있기 때문에, 각 샤드는 이전 지식 위에 쌓이는 교차 도메인 정보를 기여합니다.
잡음이 있는 실제 데이터에서도 메모리는 스케일할 수 있을까요? 이를 확인하기 위해, 우리는 실제 Genie space에서 MemAlign을 실행하고 정답이 없는 과거 사용자 대화 로그를 공급했습니다. LLM 판정기가 이 로그들의 유용성을 필터링했고, 품질이 높은 것만 기억되었습니다.

그림 2. 실제 Genie Space에서 수집된 사용자 로그 수에 따른 테스트 점수와 평균 추론 단계 수.
스케일링 곡선은 비슷한 패턴을 따르며 초반 기울기가 더 가파릅니다.
정확도. 에이전트는 초기에 급격한 향상을 보였습니다. 첫 번째 로그 샤드 이후, 관련 테이블과 암묵적인 사용자 선호에 대한 핵심 정보를 추출했습니다. 성능은 2.5%에서 50%를 넘는 수준으로 상승했으며, 단 62개의 로그 레코드만으로 전문가 정제 기준선(33.0%)을 넘어섰습니다.
효율성. 추론 단계는 첫 번째 샤드 이후 약 19에서 약 4.3으로 줄었고 안정적으로 유지되었습니다. 에이전트는 초기에 해당 space의 스키마를 내재화했고, 이후 질의들에서는 중복 탐색을 피했습니다.
핵심 요점: 자동화되고 레퍼런스가 없는 판정기로만 필터링한 비정제 사용자 상호작용도, 비용과 시간이 많이 드는 수작업 도메인 지시사항을 대체할 수 있습니다. 이는 또한 정상적인 사용으로부터 지속적으로 개선되고 인간 주석의 한계를 넘어 확장할 수 있는 에이전트를 가리킵니다.
위 실험들은 사용자 상호작용을 통해 메모리 스케일링이 어떻게 일어나는지 보여줍니다. 그러나 엔터프라이즈에는 어떤 사용자 상호작용보다도 앞서 존재하는 지식도 있습니다. 테이블 스키마, 대시보드 질의, 비즈니스 용어집, 내부 문서 등이 그것입니다. 우리는 이 조직 지식을 구조화된 메모리 저장소로 사전 계산해 두는 것이 에이전트 성능을 향상시킬 수 있는지 테스트했습니다.
우리는 이 지식 저장소를 내부 데이터 리서치 벤치마크와 PMBench에서 평가했습니다. PMBench는 제품 관리자 회의 노트와 계획 자료 같은 혼합된 내부 문서 전반에 걸쳐 철저한 사실 검색을 테스트합니다.
우리의 파이프라인은 원시 데이터베이스 메타데이터를 세 단계에 걸쳐 검색 가능한 지식으로 처리합니다. (1) 자산에 대한 정보 추출, (2) 추가 변환을 통한 자산 보강, (3) 보강된 콘텐츠의 인덱싱입니다. 질의 시점에 에이전트는 키워드 검색 또는 계층적 탐색을 통해 엔터프라이즈 맥락을 조회할 수 있습니다. 이는 비즈니스 사용자가 질문을 표현하는 방식(“AI consumption”)과 데이터가 실제로 저장되는 방식(특정 테이블의 특정 컬럼명) 사이의 간극을 메워줍니다.
지식 저장소를 추가하자 두 평가 벤치마크 모두에서 정확도가 약 10% 향상되었습니다. 이 향상은 어휘 연결, 테이블 조인, 컬럼 수준 지식이 필요한 질문에 집중되었습니다. 즉, 에이전트가 스키마 탐색만으로는 발견할 수 없었던 정보들입니다.

그림 3. 엔터프라이즈 자산 집합으로부터 조직 지식 저장소 구축하기
엔터프라이즈 배포에서 메모리 스케일링을 구현하려면 단순한 벡터 저장소를 넘어서는 견고한 인프라가 필요합니다. 아래에서는 이 인프라가 해결해야 할 세 가지 핵심 과제, 즉 확장 가능한 저장, 메모리 관리, 거버넌스를 논의합니다.
가장 단순한 메모리 저장 방식은 파일 시스템입니다. 계층형 폴더 안의 마크다운 파일을 표준 셸 도구로 탐색하고 검색하는 방식입니다. 파일 기반 메모리는 작은 규모와 개별 사용자에게는 잘 맞지만, 인덱싱, 구조화된 질의, 효율적인 유사도 검색이 부족합니다. 메모리가 많은 사용자에 걸쳐 수천 개 항목으로 커지면 검색 성능이 떨어지고 거버넌스 집행도 어려워집니다.
전용 데이터 저장소는 자연스러운 다음 단계입니다. 독립형 벡터 데이터베이스는 의미 검색은 잘 처리하지만 조인과 필터링 같은 관계형 기능이 부족합니다. 현대적인 PostgreSQL 기반 시스템은 보다 통합된 대안을 제공합니다. 하나의 엔진 안에서 구조화된 질의, 전문 검색, 벡터 유사도 검색을 기본적으로 지원합니다.
저장소와 컴퓨트를 분리하고 저비용의 내구성 있는 저장을 제공하는 이 아키텍처의 서버리스 변형은 자연스럽게 잘 맞습니다. 우리는 scale-to-0 비용과 벡터 검색 및 정확 검색 모두에 대한 지원 덕분에 Neon의 서버리스 PostgreSQL 엔진 위에 구축된 Lakebase를 사용해 왔습니다. 내장된 데이터베이스 브랜칭은 개발 주기도 단순화합니다. 엔지니어는 프로덕션에 영향을 주지 않고 테스트를 위해 에이전트의 메모리 상태를 포크할 수 있습니다.
확장 가능한 저장만으로는 충분하지 않습니다. 메모리 시스템은 그 내용도 관리해야 합니다.
메모리는 무상태 에이전트에는 없는 거버넌스 요구사항을 도입합니다. 에이전트가 사용자 선호, 독점적 워크플로, 내부 데이터 패턴을 포함한 깊이 있는 맥락 지식을 축적할수록, 엔터프라이즈 데이터에 적용되는 동일한 거버넌스 원칙이 에이전트 메모리에도 확장되어야 합니다.
접근 제어는 신원 인지형이어야 합니다. 개별 메모리는 비공개로 유지되어야 하고, 조직 지식은 접근 제어된 범위 내에서 공유될 수 있어야 합니다. 이는 Unity Catalog 같은 플랫폼이 데이터 자산에 이미 적용하는 행 수준 보안, 컬럼 마스킹, 속성 기반 접근 제어 같은 세분화된 권한 모델과 자연스럽게 대응됩니다.
이러한 제어를 메모리 항목으로 확장하면, 한 사용자를 위해 맥락을 검색하는 에이전트가 다른 사용자의 비공개 상호작용을 의도치 않게 노출할 수 없게 됩니다.
접근 제어를 넘어, 데이터 계보와 감사 가능성도 중요합니다. 에이전트의 동작이 메모리에 의해 형성된다면, 팀은 어떤 메모리가 특정 응답에 영향을 주었는지, 그리고 그 메모리가 언제 생성되거나 업데이트되었는지 추적할 수 있어야 합니다. 특히 규제 산업에서는 컴플라이언스와 규제 요구사항 때문에 메모리 저장소가 기반 데이터와 동일한 수준의 관측 가능성을 지원해야 합니다. 즉, 완전한 계보 추적, 보존 정책, 그리고 요청 시 특정 항목을 삭제할 수 있는 능력이 필요합니다.
올바른 메모리가 올바른 사용자에게, 그리고 오직 그 사용자에게만 도달하도록 보장하는 것은 대규모 환경에서 핵심 설계 문제입니다.
모든 스케일링 축은 결국 고유한 병목에 부딪힙니다. 파라메트릭 스케일링은 고품질 훈련 데이터의 공급에 제약받습니다. 추론 시점 스케일링은 과도한 숙고로 흘러갈 수 있는데, 긴 추론 사슬이 신호를 추가하지 않은 채 비용만 늘리고 결국 시퀀스 길이가 증가할수록 성능을 저하시킬 수 있습니다. 메모리 스케일링에도 이에 상응하는 한계가 있습니다. 품질, 범위, 접근의 문제입니다.
메모리 품질은 유지하기 어렵습니다. 어떤 메모리는 처음부터 잘못되어 있고, 다른 것들은 시간이 지나며 틀리게 됩니다. 무상태 에이전트는 고립된 실수를 하지만, 메모리를 갖춘 에이전트는 하나의 실수를 저장하고 나중에 근거로 다시 검색함으로써 반복되는 실수로 바꿀 수 있습니다. 우리는 에이전트가 이전 실행에서 나온 노트북을 인용했는데 그 내용 자체가 틀렸고, 그 결과를 더 큰 확신을 가지고 재사용하는 사례를 보았습니다. 노후화는 더 미묘합니다. 지난 분기의 스키마를 학습한 에이전트는 이후 이름이 바뀌거나 삭제된 테이블을 계속 질의할 수 있습니다. 수집 시 필터링은 도움이 되지만, 프로덕션 시스템에는 필터링 이상의 것이 필요합니다. 출처 정보, 신뢰도 추정치, 최신성 신호, 주기적 재검증이 필요합니다.
거버넌스는 정제 과정까지 확장되어야 합니다. 조직 전체에 걸쳐 메모리를 스케일링하려면 반복된 상호작용을 재사용 가능한 의미형 메모리로 정제해야 합니다. 그러나 추상화가 민감성을 제거하는 것은 아닙니다. “회사 Y의 경우 CRM, market-intelligence, partnership 테이블을 조인하라” 같은 메모리는 무해해 보일 수 있지만 여전히 기밀 인수 관심을 드러낼 수 있습니다. 과제는 비공개 패턴을 공유 지식으로 바꾸지 않으면서도 메모리를 널리 유용하게 만드는 것입니다. 접근 제어와 민감도 라벨은 수집 시점뿐 아니라 정제 이후에도 유지되어야 합니다.
유용한 메모리가 여전히 도달 불가능할 수 있습니다. 메모리가 정확하고 최신이라고 해도, 에이전트는 여전히 그것이 존재한다는 사실을 발견해야 합니다. 검색은 본질적으로 메타인지적입니다. 에이전트는 그 안에 무엇이 있는지 알기 전에 메모리 저장소에 무엇을 물을지 결정해야 합니다. 관련 메모리가 도움이 될 수 있다는 점을 미리 예상하지 못하면, 올바른 질의를 발행하지 못하고 느리고 중복적인 탐색으로 되돌아갑니다. 실제로 저장된 지식과 접근 가능한 지식 사이의 격차가 메모리 스케일링의 가장 큰 제한 요인일 수 있습니다.
이것들은 메모리 스케일링에 반대하는 논거가 아닙니다. 오히려 메모리 스케일링을 견고하게 만들기 위해 여전히 해결해야 하는 연구 문제들입니다. 핵심 문제는 단지 더 많은 이력을 저장하는 것이 아니라, 에이전트에게 올바른 메모리를 찾는 법, 그것을 적절히 사용하는 법, 그리고 그것을 최신 상태로 유지하고 적절한 범위로 관리하는 법을 가르치는 것입니다.
위의 실험과 인프라는 자연스러운 설계 패턴을 가리킵니다. 에이전트의 정체성이 모델 가중치가 아니라 메모리에 존재하는 설계입니다.
이 설계에서 에이전트의 맥락은 Lakebase 같은 서버리스 데이터베이스에 저장된 지속적 저장소로부터 구성됩니다. 이 저장소는 세 가지 구성 요소를 담습니다. 시스템 프롬프트와 에이전트 기능(스킬), 구조화된 및 비구조화된 엔터프라이즈 자산(지식), 그리고 조직 및 사용자 수준으로 범위가 설정된 에피소드형 및 의미형 메모리입니다. 이 구성 요소들이 함께 에이전트의 상태를 이룹니다. 지시사항, 검색된 문서, 관련 메모리, 실행 결과(SQL 질의, API 호출, 기타 도구에서 온 결과), 그리고 대화 이력입니다. 이 상태는 각 단계마다 LLM에 입력되고, 각 상호작용 후 업데이트됩니다.
LLM 자체는 교체 가능한 추론 엔진입니다. 더 새로운 모델로 업그레이드하는 일은 간단합니다. 새 모델이 동일한 지속적 저장소에서 읽고, 축적된 모든 맥락의 이점을 즉시 누리기 때문입니다.
기반 모델들의 성능이 수렴할수록, 엔터프라이즈 에이전트의 차별화 요소는 어떤 모델을 호출하느냐보다 어떤 메모리를 축적했느냐가 될 것입니다. 가정적으로, 풍부한 메모리 저장소를 가진 더 작은 모델이 메모리가 더 적은 더 큰 모델보다 뛰어난 성능을 낼 수 있습니다. 그렇다면 메모리 인프라에 대한 투자는 모델 파라미터를 스케일링하는 것보다 더 큰 수익을 가져올 수 있습니다. 조직에 특화된 도메인 지식, 사용자 선호, 운영 패턴은 어떤 기반 모델에도 들어 있지 않습니다. 그것들은 사용을 통해서만 쌓일 수 있으며, 모델 능력과 달리 각 배포에 고유합니다.

그림 4. Lakebase 위에 구축된 메모리 기반 에이전트 프레임워크.
우리는 사용자의 상호작용과 비즈니스 맥락이 메모리에 더 많이 축적될수록 에이전트의 성능이 향상되는 메모리 스케일링을 제안합니다. 우리의 초기 실험은 외부 메모리에 저장된 정보의 양에 따라 정확도와 효율성 모두가 스케일함을 보여줍니다.
이를 프로덕션에서 실현하려면 구조화된 검색과 비구조화된 검색을 통합하는 저장 시스템, 메모리를 일관되게 유지하는 관리 파이프라인, 그리고 접근 범위를 적절히 설정하는 거버넌스 제어가 필요합니다. 이는 현재 기술로 해결 가능한 문제입니다. 그 대가는 지속적인 사용을 통해 진정으로 개선되는 에이전트입니다.
남은 작업은 상당합니다. 메모리는 성장하면서도 정확하고, 최신이며, 접근 가능해야 합니다. 그러나 바로 그것이 메모리 스케일링이 흥미로운 이유입니다. 이는 각 조직과 문제에 특화된 방식으로 지속 사용에 따라 더 나아지는 에이전트를 구축하기 위한 구체적인 시스템 및 연구 의제를 엽니다.
저자: Wenhao Zhan, Veronica Lyu, Jialu Liu, Michael Bendersky, Matei Zaharia, Xing Chen
프로젝트 전반에 걸쳐 귀중한 피드백을 주신 Kenneth Choi, Sam Havens, Andy Zhang, Ziyi Yang, Ashutosh Baheti, Sean Kulinski, Alexander Trott, Will Tipton, Gavin Peng, Rishabh Singh, Patrick Wendell께 감사드립니다.