Google Cloud 서비스 상태

ko생성일: 2025. 6. 15.갱신일: 2025. 6. 17.

2025년 6월 Google Cloud와 Google Workspace 서비스에서 발생한 503 오류 및 장애에 대한 상세 보고, 영향 받은 서비스, 사고 원인 분석 및 향후 재발 방지 대책.

Google Cloud 서비스 상태

2025년 6월 13일 16:45 PDT 사고 보고

요약

Google Cloud, Google Workspace, Google Security Operations 제품에서 외부 API 요청에 대해 503 오류가 증가하여 고객에게 영향을 미쳤습니다.

이와 같은 장애로 인해 발생한 영향에 대해 진심으로 사과드립니다. Google Cloud의 고객과 그 사용자는 Google을 신뢰하며 비즈니스를 맡기고 있습니다. 저희는 더욱 나아질 것이며, 본 장애로 인해 고객과 그 고객의 사용자 그리고 시스템에 대한 신뢰에 미친 영향에 대해 사과드립니다. 향후 이런 장애를 방지하기 위해 개선에 전념하겠습니다.

무슨 일이 있었나요?

Google 및 Google Cloud API는 Google API 관리 및 컨트롤 플레인을 통해 제공됩니다. 지역별로 분산된 이 관리 및 컨트롤 플레인은 들어오는 각 API 요청이 승인되었는지, 정책 및 적절한 검사(예: 쿼터 체크)를 충족하는지 확인합니다. 이 정책 검사 시스템의 핵심 바이너리를 Service Control이라 부릅니다. Service Control은 지역 서비스로, 각 지역 데이터스토어에서 쿼터 및 정책 정보를 읽어옵니다. 이 데이터스토어의 메타데이터는 Google Cloud와 고객의 쿼터 정책을 관리하기 위해 전 세계에 거의 즉시 복제됩니다.

2025년 5월 29일, Service Control에 추가 쿼터 정책 체크를 위한 새로운 기능이 추가되었습니다. 이 코드 변경 및 바이너리 릴리스는 지역별로 점진적으로 배포되었으나, 실패한 코드 경로는 정책 변경이 있어야만 트리거되는 경로여서 완전한 테스트가 이루어지지 못했습니다. 안전 조치로 해당 서비스 경로를 끄는 레드 버튼이 함께 도입되었습니다. 문제는 이 변경이 적절한 에러 처리와 피처 플래그 보호가 없었다는 데 있었습니다. 에러 처리가 없으면 null 포인터로 인해 바이너리가 크래시합니다. 피처 플래그는 내부 프로젝트부터 지역별 단계적으로 기능을 활성화하며, 이 과정을 통해 문제를 조기에 포착할 수 있습니다. 만약 이 변경이 플래그로 보호되었다면, 스테이징 단계에서 문제가 감지됐을 것입니다.

2025년 6월 12일 오전 10:45경(PDT), Service Control이 정책 관리를 위해 사용하는 지역 Spanner 테이블에 정책 변경이 삽입되었습니다. 쿼터 관리의 글로벌 특성상, 이 메타데이터는 수 초 내에 전 세계적으로 복제되었습니다. 이 정책 데이터에는 의도치 않은 공란 필드가 포함돼 있었습니다. Service Control은 지역별로 각 데이터스토어에서 정책에 대해 쿼터 체크를 진행하면서 공란 필드를 로딩했고, 이로 인해 해당 코드 경로가 null 포인터로 크래시 루프에 빠지게 되었습니다. 각 지역 배포 환경마다 이 문제가 재현되어 전 세계적으로 장애가 일어났습니다.

2분 이내에 SRE 팀이 해당 장애를 트라이에이지했고, 10분 만에 근본 원인을 파악하여 서비스 경로를 비활성화하는 레드 버튼 조치를 준비했습니다. 사고 발생 약 25분 후 레드 버튼이 준비됐고, 40분 만에 롤아웃이 완료되어 작은 지역부터 점진적으로 복구가 시작되었습니다.

일부 대형 지역(us-central-1 등)에서는 Service Control 작업이 재시작되면서 의존 인프라(Spanner 테이블 등)에 허드 효과(herd effect)가 발생해 과부하가 걸렸습니다. Service Control에는 이를 방지할 무작위 지수 백오프가 구현되어 있지 않았습니다. 이로 인해 us-central-1은 복구까지 약 2시간 40분이 소요되었습니다. 작업 생성 속도를 제한하고, 트래픽을 멀티리전 데이터베이스로 우회하여 부하를 줄였습니다. 이 시점에서 모든 지역에서 Service Control 및 API 서비스가 완전히 복구되었습니다. Google과 Google Cloud 제품들도 각 서비스 아키텍처에 따라 복구 시간에 차이가 있었습니다.

즉각적인 대응 계획은?

복구 직후 Service Control 스택 및 수동 정책 푸시의 변경을 모두 동결하였고, 완전한 복구 조치 전까지는 변화가 없습니다.

어떻게 소통했나요?

장애 발생 약 1시간 후, Cloud Service Health에 첫 사고 보고를 게시했습니다. 이는 장애로 인해 Cloud Service Health 인프라도 함께 다운되어 있었기 때문입니다. 일부 고객들은 Google Cloud에서 운영 중이던 모니터링 인프라도 장애로 사용할 수 없어, 본 사고 신호나 비즈니스/인프라 영향 파악이 지연되었습니다. 앞으로 이 점을 반드시 개선하겠습니다.

향후 계획은?

위에서 언급한 동결 외에도 다음 사항을 우선하여 안전하게 진행합니다:

  • Service Control 아키텍처를 모듈화하여 기능을 분리하고, 일부 실패 발생 시에도 API 요청 처리가 가능하도록 fail open 설계로 개선
  • 전 세계에 복제되는 데이터를 소비하는 모든 시스템 점검. 데이터가 거의 즉시 일관되게 전파되는 비즈니스 필요성(예: 쿼터 설정)이 있더라도, 점진적으로 복제하며 충분한 검증 시간을 두어 문제를 감지
  • 주요 바이너리의 모든 변경은 기본적으로 피처 플래그 보호 및 비활성화 상태에서 관리
  • 에러 처리를 정확히 다루고, 필요하다면 fail open이 가능하도록 정적 분석 및 테스트 관행 강화
  • 무작위 지수 백오프 구현 여부를 점검하고 보장
  • 자동/수동 대외 커뮤니케이션 모두 개선하여, 고객이 문제에 즉시 대응하고 시스템 관리 및 자체 고객 지원에 필요한 정보를 신속히 제공
  • Google Cloud 및 주요 모니터링 시스템 다운 상황에서도 모니터링 및 커뮤니케이션 인프라가 운영되도록 개선하여 비즈니스 연속성 보장

2025년 6월 12일 23:34 PDT 간이 사고 보고

이번 서비스 중단이 모든 사용자와 그 고객에게 미친 심각한 영향에 대해 깊이 사과드립니다. 기업의 크고 작음에 상관없이 Google Cloud를 신뢰해 주셨는데, 더 나아지겠습니다. 며칠 내에 사고의 근본 원인, 상세 타임라인, 재발 방지 대책을 담은 전체 사고 보고서를 게재하겠습니다. 이번 사고의 규모와 영향이 커 우선 일부 내용을 안내드립니다.

아래 정보는 게시 시점 기준 최선의 조사 결과이며, 추가 조사에 따라 변경될 수 있습니다. 아래 내용 외의 영향이 있었다면 Google Cloud 지원팀 또는 Google Workspace 지원팀으로 연락해 주십시오.

(모든 시간은 미국 태평양 표준시)

  • 사고 발생: 2025년 6월 12일 10:49
  • us-central1을 제외한 모든 지역 복구: 2025년 6월 12일 12:48
  • 사고 종료: 2025년 6월 12일 13:49
  • 지속 시간: 3시간
  • 영향 지역/존: 전 세계

설명:

여러 Google Cloud 및 Google Workspace 제품에서 외부 API 요청에 대해 503 오류가 증가하여 고객들이 영향을 받았습니다.

초기 분석 결과, API 관리 시스템에 잘못된 자동 쿼터 업데이트가 전 세계로 배포되면서 외부 API 요청이 거부되었습니다. 복구를 위해 문제가 된 쿼터 체크를 우회했고, 대부분의 지역에서는 2시간 내로 복구되었습니다. 단, us-central1의 쿼터 정책 데이터베이스가 과부하되어 복구까지 더 시간이 걸렸습니다. 몇몇 제품은 주요 장애 해소 후 최대 1시간 동안 중간 잔존 영향(예: 백로그)이 있었고, 소수 제품은 이후에 복구되었습니다.

Google은 며칠 내로 사고의 상세 근본 원인을 담은 전체 사고 보고서를 게시할 예정입니다.

고객 영향:

고객들은 해당 서비스에 대해 간헐적인 API 및 사용자 인터페이스 접근 문제를 겪었습니다. 기존 스트리밍 및 IaaS 리소스에는 영향이 없었습니다.

추가 상세:

이번 사고는 발생하지 않았어야 하며, 향후 재발 방지를 위해 아래 조치를 취합니다.

  • API 관리 플랫폼이 잘못된/손상된 데이터로 실패하지 않도록 방지
  • 적절한 보호, 테스트, 모니터링 없이 메타데이터가 전 세계로 전파되지 않도록 방지
  • 잘못된 데이터 처리를 위한 시스템 에러 처리, 포괄적 테스트 개선

영향받은 서비스 및 기능:

Google Cloud 제품

  • Identity and Access Management
  • Cloud Build
  • Cloud Key Management Service
  • Google Cloud Storage
  • Cloud Monitoring
  • Google Cloud Dataproc
  • Cloud Security Command Center
  • Artifact Registry
  • Cloud Workflows
  • Cloud Healthcare
  • Resource Manager API
  • Dataproc Metastore
  • Cloud Run
  • VMWare engine
  • Dataplex
  • Migrate to Virtual Machines
  • Google BigQuery
  • Contact Center AI Platform
  • Google Cloud Deploy
  • Media CDN
  • Colab Enterprise
  • Vertex Gemini API
  • Cloud Data Fusion
  • Cloud Asset Inventory
  • Datastream
  • Integration Connectors
  • Apigee
  • Google Cloud NetApp Volumes
  • Google Cloud Bigtable
  • Looker (Google Cloud core)
  • Looker Studio
  • Google Cloud Functions
  • Cloud Load Balancing
  • Traffic Director
  • Document AI
  • AutoML Translation
  • Pub/Sub Lite
  • API Gateway
  • Agent Assist
  • AlloyDB for PostgreSQL
  • Cloud Firestore
  • Cloud Logging
  • Cloud Shell
  • Cloud Memorystore
  • Cloud Spanner
  • Contact Center Insights
  • Database Migration Service
  • Dialogflow CX
  • Dialogflow ES
  • Google App Engine
  • Google Cloud Composer
  • Google Cloud Console
  • Google Cloud DNS
  • Google Cloud Pub/Sub
  • Google Cloud SQL
  • Google Compute Engine
  • Identity Platform
  • Managed Service for Apache Kafka
  • Memorystore for Memcached
  • Memorystore for Redis
  • Memorystore for Redis Cluster
  • Persistent Disk
  • Personalized Service Health
  • Speech-to-Text
  • Text-to-Speech
  • Vertex AI Search
  • Retail API
  • Vertex AI Feature Store
  • BigQuery Data Transfer Service
  • Google Cloud Marketplace
  • Cloud NAT
  • Hybrid Connectivity
  • Cloud Vision
  • Network Connectivity Center
  • Cloud Workstations
  • Google Security Operations

Google Workspace 제품

  • AppSheet
  • Gmail
  • Google Calendar
  • Google Drive
  • Google Chat
  • Google Voice
  • Google Docs
  • Google Meet
  • Google Cloud Search
  • Google Tasks

2025년 6월 12일 18:27 PDT

Vertex AI Online Prediction이 18:18 PDT 기준 완전히 복구되었습니다.

모든 서비스가 이번 장애에서 완전 복구되었습니다.

내부 조사가 완료되는 대로 본 사고에 대한 분석을 게재할 예정입니다.

문제 해결을 기다려주신 것에 감사드립니다.


2025년 6월 12일 17:59 PDT

Vertex AI Online Prediction: Model Garden의 일부 모델에서 증가된 5xx 오류를 유발하던 문제가 17:05 PDT에 완전히 해결되었습니다. 모든 지역에서 Vertex AI 서비스가 정상화되었으며, europe-west1 및 asia-southeast1 지역만 제외하고 복구 중입니다. 두 지역의 복구를 위해 엔지니어가 적극적으로 작업 중입니다.

두 지역의 정상이용 용량 복구 예상 시간(ETA)은 19:45 PDT입니다.

현황은 2025-06-12 19:45 PDT에 추가로 안내드리겠습니다.


2025년 6월 12일 17:33 PDT

Personalized Service Health의 영향이 해결되어 업데이트에 더 이상 문제가 반영되지 않습니다.

Google Cloud Dataflow 문제도 17:10 PDT 기준 완전히 해결되었습니다.

유일하게 남은 영향은 Vertex AI Online Prediction과 관련한 아래 항목입니다:

Vertex AI Online Prediction: Model Garden 내 일부 모델에서 여전히 5xx 오류가 간헐적으로 발생할 수 있습니다. 엔지니어의 조치로 오류율이 점차 감소하고 있습니다.

해당 오류의 완전 해결 예상 시간(ETA)은 22:00 PDT입니다.

현황은 2025-06-12 22:00 PDT에 추가 안내드리겠습니다.


2025년 6월 12일 17:06 PDT

아래 Google Cloud 제품들은 일부 잔존 영향이 남아 있습니다:

Google Cloud Dataflow: 모든 지역(mid us-central1 제외)에서 데이터플로우 백로그가 해소되었습니다. us-central1에서는 백로그 해소 과정에서 작업 지연이 있을 수 있습니다. 해당 지역의 데이터플로우 복구 예상시간은 없습니다.

Vertex AI Online Prediction: Model Garden 내 일부 모델에 5xx 오류가 간헐적으로 발생합니다. 엔지니어가 완화 조치를 진행 중이며, 오류율이 점차 감소하고 있습니다. 추정 복구 시간은 22:00 PDT입니다.

Personalized Service Health: 해당 서비스의 업데이트가 지연되고 있으니 Cloud Service Health 대시보드를 계속 참고하시기 바랍니다.

위 서비스의 완전 복구 예상시간은 없습니다.

2025-06-12 17:45 PDT에 추가 현황 안내를 제공하겠습니다.


2025년 6월 12일 16:13 PDT

아래 Google Cloud 제품들에서 일부 잔존 영향이 지속 중입니다:

Google Cloud Dataflow: 백로그가 점진적으로 해소되면서 데이터플로우 작업에 지연이 발생할 수 있습니다.

Vertex AI Online Prediction: Model Garden 내 일부 모델에서 5xx 오류가 증가할 수 있습니다.

Personalized Service Health: 관련 업데이트가 지연되고 있으므로 Cloud Service Health 대시보드에서 최신 상황을 확인하시기 바랍니다.

위 서비스의 완전 복구 예상시간은 없습니다.

2025-06-12 17:00 PDT에 추가 현황 안내를 제공하겠습니다.


2025년 6월 12일 15:16 PDT

Google Cloud의 대부분 제품이 13:45 PDT 기준 완전히 복구되었습니다.

현재 대시보드에서 영향을 받는 제품으로 표시된 일부 서비스는 잔존 영향이 있으니 서비스와 대시보드를 통해 개별 복구 상황을 모니터링해 주십시오.

2025-06-12 16:00 PDT에 추가 현황 안내를 제공하겠습니다.


2025년 6월 12일 14:23 PDT

대부분의 Google Cloud 제품이 완전 복구를 확인했습니다.

일부 서비스는 여전히 잔존 영향이 남아 있으며, 각 엔지니어링 팀이 복구 작업을 진행 중입니다.

1시간 이내에 복구가 완료될 것으로 예상합니다.

2025-06-12 15:00 PDT에 추가 현황 안내를 제공하겠습니다.


2025년 6월 12일 14:00 PDT

us-central1 및 multi-region/us에서 문제에 대한 완화 조치를 적용했고, 복구 징후가 관찰되고 있습니다.

내부 모니터링 및 고객사로부터 Google Cloud 제품이 여러 지역에서 복구되고 있으며, us-central1 및 multi-region/us에서도 일부 복구 징후가 있다는 확인을 받았습니다.

복구는 1시간 이내 완료될 것으로 예상합니다.

2025-06-12 14:30 PDT에 추가 현황 안내를 제공하겠습니다.


2025년 6월 12일 13:16 PDT

근본 원인을 파악했고 적절한 완화 조치를 적용했습니다. 모든 지역(단, us-central1 제외)에서 인프라가 복구되었습니다.

영향받은 인프라에 의존하는 Google Cloud 제품들도 여러 위치에서 복구되고 있습니다.

us-central1 및 multi-region/us에서 여전히 문제가 있는 고객을 엔지니어가 인지하고 있으며 복구 작업을 진행 중입니다.

완전 복구 예상 시간은 없습니다.

2025-06-12 14:00 PDT에 추가 현황 안내를 제공하겠습니다.


2025년 6월 12일 12:41 PDT

근본 원인을 파악했고 적절한 완화 조치를 적용했습니다.

기반 종속성이 us-central1을 제외한 모든 지역에서 복구되었으나, 여전히 일부 Google Cloud 제품에서는 영향이 남아 있습니다. 관련 엔지니어링 팀들이 전원 투입되어 복구 중입니다.

완전 복구 예상 시간은 없습니다.

2025-06-12 13:30 PDT에 추가 현황 안내를 제공하겠습니다.


2025년 6월 12일 12:30 PDT

us-central1을 제외한 모든 지역은 완전 복구되었습니다. us-central1은 대부분 복구 완료. 완전 복구 예상 시점은 없습니다.

2025-06-12 13:00 PDT에 추가 현황 안내를 제공하겠습니다.


2025년 6월 12일 12:09 PDT

엔지니어들이 문제 완화 작업을 계속하고 있으며, 일부 지역에서 문제 해결이 확인되었습니다.

완전 복구 예상 시간은 명확하지 않습니다.

2025-06-12 12:45 PDT에 추가 현황 안내드리겠습니다.


2025년 6월 12일 11:59 PDT

요약: 여러 GCP 제품에서 API 요청 관련 서비스 장애 발생

설명: 2025년 6월 12일 10:51 PDT부터 여러 GCP 제품에서 서비스 장애가 발생하고 있습니다.

엔지니어링팀이 지속적으로 원인 조사 중입니다.

2025-06-12 12:15 PDT에 추가 현황 제공하겠습니다.

영향받으신 모든 분께 사과드립니다.

증상: 여러 GCP 제품에서 API 요청에 다양한 수준의 서비스 영향이 있습니다.

우회 방법: 현재 없습니다.


2025년 6월 12일 11:46 PDT

요약: 여러 GCP 제품에서 서비스 장애 발생

설명: 2025년 6월 12일 10:51 PDT부터 여러 GCP 제품에서 서비스 장애가 발생하고 있습니다.

엔지니어링팀이 지속적으로 원인 조사 중입니다.

2025-06-12 12:15 PDT에 추가 현황 제공하겠습니다.

영향받으신 모든 분께 사과드립니다.

증상: 여러 GCP 제품이 다양한 수준의 서비스 영향

우회 방법: 현재 없습니다.