Google SRE가 에이전트형 AI를 활용해 신뢰성 설계, 이상 탐지, 인시던트 관리와 조사, 위험 관리 전반에서 운영을 어떻게 개선하고 있는지 살펴봅니다.
Google은 20여 년 전 시작된 이래 Site Reliability Engineering (SRE)를 활용해 Search, Gmail, Maps, YouTube, Google Cloud와 같은 서비스를 안정적이고 높은 가용성으로 유지해 왔으며, 신뢰성을 최우선으로 하는 사고방식의 원칙과 실천법을 따라왔습니다.
하지만 최근 AI의 등장은 시스템 복잡성을 여러 단계 끌어올렸습니다. 이제 구성 요소 간 상호작용은 여러 요인으로 인해 훨씬 더 복잡해졌습니다.
마이크로서비스 아키텍처에서는 시스템이 더 넓은 지리적 위치와 더 다양한 하드웨어를 갖춘 데이터 센터 전반에 분산됩니다.
엔터프라이즈 클라우드 제품은 매우 복잡한 제품 집합과 함께 방대한 기능 조합을 제공합니다.
Google 서비스는 이제 더욱 다양한 비즈니스 및 규제 요구사항을 포괄하고 있어 전체 토폴로지와 택소노미가 훨씬 더 복잡해지고 이해하기 어려워졌으며, 이러한 문제는 지속적 배포 파이프라인에서 발생하는 끊임없는 시스템 변경으로 인해 더욱 커지고 있습니다.
AI 코드 생성 기능은 소프트웨어 개발자가 훨씬 더 많은 코드를 제공할 수 있게 했고, 그 결과 신뢰성 문제를 도입할 기회도 더 많아졌습니다.
AI는 어떤 면에서는 SRE 팀의 일을 더 어렵게 만들고 있지만, 동시에 프로덕션 운영을 포함한 소프트웨어 개발 수명주기를 이해하고 개선할 수 있는 새로운 방법도 제공합니다. Google SRE는 통제력을 유지하면서도 AI를 증폭기처럼 활용해 AI와 에이전트형 기술을 완전히 도입하는 길을 걷고 있습니다. 우리는 이를 SRE AI라고 부릅니다.
이 주제를 고려할 때의 핵심 사항을 요약해서 보려면 계속 읽어보세요. 또는 Google SRE가 결정론적 자동화에서 에이전트형 AI로 전환하는 과정을 어떻게 헤쳐 나가고 있는지 심층적으로 다룬 종합 백서 AI in SRE Practice: Moving Beyond Automation at Google를 바로 읽어보실 수도 있습니다.
SRE AI 전략을 정의하는 데 도움을 얻기 위해, 우리는 기회 영역을 찾고자 전체 소프트웨어 개발 수명주기(SDLC)를 검토했습니다.

위 도표는 SRE가 관여하는 각 단계와, SRE AI로 개선할 수 있는 지점을 보여줍니다.
에이전트형 AI의 혜택을 가장 분명하게 볼 수 있는 SRE 영역은 아마도 조사와 완화일 것입니다. 이는 때때로 근본 원인 분석(RCA)이라고도 불리며, 전통적인 SRE 분야의 핵심 요소입니다. 하지만 RCA가 SRE AI의 전부는 결코 아닙니다. SRE AI에 대한 우리의 계획은 RCA와 문제 해결을 훨씬 넘어 전체 SDLC를 다룹니다. 현재 우리가 작업 중인 몇 가지 영역은 다음과 같습니다.
SRE는 설계, 출시, 배포 단계 전반에서 신뢰성이 시스템 설계의 필수 요소가 되도록 보장하기 위해 필요한 정책, 도구, 절차를 마련해 왔습니다. 에이전트형 접근 방식이 반드시 사람을 프로세스에서 배제한다는 뜻은 아닙니다. 특히 더 높은 위험을 가진 서비스와 기능의 경우 더욱 그렇습니다. 하지만 사람이 검토하기 전에 여러 문제를 감지하고 자동으로 해결할 수 있으므로, 사람이 들여야 하는 시간을 크게 줄여줍니다.
인시던트 중 사용되는 런북(플레이북)과 기타 문서는 중요한 프로덕션 산출물입니다. Google SRE는 인시던트 중 실제 사용 방식을 바탕으로 플레이북과 프로덕션 문서를 지속적으로 모니터링하고 개선하는 AI 에이전트를 개발했습니다. AI 에이전트는 인시던트로부터 새로운 플레이북을 생성할 수도 있습니다.
SRE의 핵심 실천법 가운데 하나는 service level indicators (SLIs) and service level objectives (SLOs)를 정의하고, 이에 대한 알림을 구성하는 것입니다. 이 접근 방식은 서비스 사용 사례가 상당히 균일하고 고객 기대와 일치하는 목표를 정의할 수 있을 때는 대체로 잘 작동합니다.
하지만 Google Cloud의 많은 제품처럼 다양한 고객 사용 사례와 워크로드를 지원하는 제품의 경우, 여러 워크로드 전반에 걸쳐 통하는 정적 임곗값을 정의하기가 어려울 수 있습니다. Google SRE는 AI를 통해 보다 전통적인 접근법에 이상 탐지를 보완적으로 추가하고 있으며, 정적으로 미리 정의된 임곗값이 아니라 정상적인 동작에서 벗어나는 이상을 감지해 알림을 생성합니다. 이 접근 방식은 에이전트가 신호를 수집해 모델(예: TimesFM)에 제공하고, 그 모델이 이상 탐지를 수행하는 데 의존합니다. 이전 고객 사례의 과거 신호는 AI 에이전트가 고객 중심 SLO를 예측하는 데 도움을 줍니다. 나아가 AI 기반 이상 탐지는 서비스 자체가 생성한 신호를 넘어서는 출처도 참조할 수 있습니다. 예를 들어 고객 피드백이 그렇습니다.
이 모델에서 SRE AI 에이전트가 이상을 탐지하면 알림을 트리거합니다. 이어서 SRE AI 알림 에이전트가 알림을 그룹화하고, 사전 처리하며, 필요한 맥락과 정보를 보강합니다. 이후 이러한 알림은 자율형 AI 알림 처리기를 거치며, 여러 문제를 해결하거나 완화할 수 있습니다. 이 시스템의 결과는 더 빠른 문제 해결과 함께 SRE가 검토해야 하는 알림 수의 상당한 감소가 될 가능성이 큽니다.
이 에이전트 생태계에서 핵심은 데이터 에이전트가 무엇을 어떤 방식으로 평가하는지에 대해 일관되게 투명해야 한다는 점이며, 프로덕션 상태의 원치 않는 변경을 방지하기 위한 일관된 통제를 갖추는 것입니다.
Google SRE에서 인시던트 관리, 즉 IMAG, 는 명확한 역할과 책임, 그리고 도구를 갖춘 잘 정립된 프로세스입니다. SRE AI에는 현재 IMAG 프로세스 위에 에이전트형 오케스트레이션 계층이 포함되며, 이는 다음을 수행하는 에이전트들로 구성됩니다.
인시던트 중 사용되는 커뮤니케이션 표면(인시던트 대응 도구, 채팅 공간, 영상, 추적 문서)을 모니터링하고 데이터를 통합 및 요약해, 인시던트 동안 커뮤니케이션과 정보 공유를 개선합니다.
필요한 맥락이 담긴 인수인계 문서를 생성해, 인시던트에 참여하는 SRE 간 인수인계를 지원합니다.
인시던트 사후 분석 초안을 자동으로 작성해, 품질을 높이고 SRE의 노력을 줄이며, 관련 정보가 포함되도록 보장합니다.
내부 및 외부 인시던트 커뮤니케이션을 관리합니다.
Google SRE 팀은 인시던트를 조사하고, 경우에 따라서는 문제를 자율적으로 완화하기 위한 에이전트도 만들었습니다.
가설을 세우고 완화 단계를 제안하기 전에, 이러한 에이전트는 관측 가능성 데이터(로깅, 모니터링, 트레이싱)와 시스템 토폴로지, 택소노미, 의존성 데이터를 사용해 도메인과 의도를 파악합니다. 이 에이전트들이 활용하는 다른 구성 요소로는 팀이 만든 별도의 에이전트들이 있으며, 이들은 플레이북 탐색 및 실행, 알림 접근, 이상 탐지 수행, 인시던트 인사이트 도출을 담당합니다.
SRE에는 종단 간 시스템에 대한 이해와 효과적인 완화 솔루션, 과거 인시던트에서 얻은 경험과 교훈, 그리고 위험 관리를 수행하는 능력이 필요합니다. 자율형 AI 에이전트도 프로덕션 환경을 관리하려면 유사한 역량이 필요합니다.
공통 토폴로지 또는 택소노미 시스템은 에이전트에게 종단 간 시스템을 가르칠 수 있고, 잘 문서화되고 설명된 프로덕션 Model Context Protocol (MCP) 도구와 기술은 사용 가능한 도구에 대해 가르칠 수 있습니다. 그러나 과거 문제와 그에 수반되는 위험을 에이전트에게 지속적으로 학습시키는 방법도 필요합니다. 이 문제를 해결하기 위해 Google SRE 팀은 AI Insights를 만들었습니다. 이 시스템은 알려진 인시던트를 지속적으로 검토하고, 그로부터 의미 있는 정보를 추출한 다음, 이를 에이전트가 더 나은 조사와 완화 단계를 수행하도록 활용할 수 있게 제공합니다. Gemini embedding models와 vector-enabled databases가 이 시스템을 구동합니다.
시스템의 다른 한 축은 위험 인사이트입니다. AI 시스템은 각 인시던트에 적절한 위험 범주를 표시하며, 이 범주는 완화 조치를 적용하기 전에 에이전트가 사용할 수도 있고, SRE가 우선적으로 다뤄야 할 중요한 영역을 판단하는 데도 사용할 수 있습니다.
이러한 에이전트를 구축하기 전에 Google SRE는 도입을 위한 몇 가지 상위 원칙을 정의했습니다.
이미 성공적으로 자동화되어 있거나, 고전적인 비AI 기반 시스템으로 쉽게 자동화할 수 있는 프로세스와 운영은 교체할 필요가 없습니다(비즈니스 요구를 충족하는 한).
새로운 AI 기반 시스템은 고객에게 제공하는 강력한 약속을 유지하기 위해 기존 및 향후 정책과 절차를 준수해야 합니다.
SRE AI 에이전트는 현재 시스템과 인간과 마찬가지로 보안, 안전, 개인정보 요구사항을 충족해야 합니다.
SRE AI 에이전트는 강력한 정체성을 가져야 합니다(에이전트에는 역할과 권한이 할당됨).
SRE AI 에이전트는 높은 수준의 신뢰성 SLO를 충족해야 하며, 잘 정의된 백업 옵션(자동 또는 수동)을 갖춰야 합니다.
SRE AI 에이전트는 왜, 어떻게 어떤 행동을 수행했는지뿐 아니라 어떤 선택지를 검토했고 왜 배제했는지도 설명하고 추론할 수 있어야 합니다. 다시 말해, 우리는 블랙박스 자동화보다 투명성을 선호합니다.
비즈니스 연속성 계획에는 잠재적인 AI 실패에 대한 비상 대책이 포함되어야 합니다.
AI 기반 시스템은 올바른 결정을 내리기 위해 프로덕션 데이터에 지속적으로 접근할 수 있어야 합니다.
AI 시스템은 품질 프레임워크에 따라 지속적으로 평가되어야 하며, 보안 도구가 탐지와 대응을 수행할 수 있도록 감사와 보고도 지원해야 합니다.
또한 우리는 SRE AI 시스템이 다음 중 최소 하나를 달성함으로써 사용자와 고객을 위한 Google 서비스를 더욱 향상시켜야 한다고 규정했습니다.
엔지니어를 고되고 반복적인 작업에서 해방한다
엔지니어가 의사결정과 실행의 품질 및 속도를 높이도록 돕는다
SRE가 이전보다 문제를 더 잘 예방, 탐지, 완화할 수 있게 한다
서비스 신뢰성 향상으로 이어지는 자율형 에이전트 피드백 루프를 가능하게 한다
전체 운영 비용을 줄인다
Google SRE AI는 검증된 Google 인프라 위에 구축되어 있습니다.
Gemini: Google SRE AI의 기반이 되는 기본 파운데이션 모델입니다. SRE 팀은 또한 Google 내부 데이터와 지식을 기반으로 한 맞춤형 파인튜닝 Gemini 모델에도 크게 의존합니다.
Gemini Enterprise Agent Platform (formerly Vertex AI): 솔루션 개발을 위한 전체 AI 스택입니다.
Agent Development Kit (ADK): 개발 플랫폼입니다.
MCP 서버: 표준 Google API 인프라 위에서 실행되며, 이는 external customers with MCP support를 제공하는 데 사용되는 것과 동일한 인프라입니다.
표준 내부 관측 가능성 인프라(모니터링, 로깅, 트레이싱).
Google BigQuery에 내장된 AI 및 ML 기능, 그리고 Google vector databases.
우리는 이러한 인프라 구성 요소를 자율 시스템으로 함께 묶습니다. Google은 오랫동안 프로덕션을 관리하기 위해 자율 시스템을 개발하고 사용해 왔습니다. 하지만 오늘날의 AI 기반 자율 시스템은 매우 강력하며 항상 결정론적이지는 않습니다. 시스템이 실제로 얼마나 자율적인지 이해하는 데 도움을 얻기 위해, 우리는 자율 수준을 추적하는 방법을 개발했습니다.
이러한 혁신의 기술 아키텍처와 엄격한 거버넌스 모델을 살펴보고자 하는 엔지니어와 리더를 위해, Google SRE가 결정론적 자동화에서 에이전트형 AI로 전환하는 과정을 심층적으로 소개하는 종합 백서 “AI in SRE Practice: Moving Beyond Automation at Google”을 읽어보시기를 권합니다. 백서는 여기에서 다운로드할 수 있습니다.
게시 위치