2025년 6월 Google Cloud와 Google Workspace 서비스에서 발생한 503 오류 및 장애에 대한 상세 보고, 영향 받은 서비스, 사고 원인 분석 및 향후 재발 방지 대책.
Google Cloud, Google Workspace, Google Security Operations 제품에서 외부 API 요청에 대해 503 오류가 증가하여 고객에게 영향을 미쳤습니다.
이와 같은 장애로 인해 발생한 영향에 대해 진심으로 사과드립니다. Google Cloud의 고객과 그 사용자는 Google을 신뢰하며 비즈니스를 맡기고 있습니다. 저희는 더욱 나아질 것이며, 본 장애로 인해 고객과 그 고객의 사용자 그리고 시스템에 대한 신뢰에 미친 영향에 대해 사과드립니다. 향후 이런 장애를 방지하기 위해 개선에 전념하겠습니다.
Google 및 Google Cloud API는 Google API 관리 및 컨트롤 플레인을 통해 제공됩니다. 지역별로 분산된 이 관리 및 컨트롤 플레인은 들어오는 각 API 요청이 승인되었는지, 정책 및 적절한 검사(예: 쿼터 체크)를 충족하는지 확인합니다. 이 정책 검사 시스템의 핵심 바이너리를 Service Control이라 부릅니다. Service Control은 지역 서비스로, 각 지역 데이터스토어에서 쿼터 및 정책 정보를 읽어옵니다. 이 데이터스토어의 메타데이터는 Google Cloud와 고객의 쿼터 정책을 관리하기 위해 전 세계에 거의 즉시 복제됩니다.
2025년 5월 29일, Service Control에 추가 쿼터 정책 체크를 위한 새로운 기능이 추가되었습니다. 이 코드 변경 및 바이너리 릴리스는 지역별로 점진적으로 배포되었으나, 실패한 코드 경로는 정책 변경이 있어야만 트리거되는 경로여서 완전한 테스트가 이루어지지 못했습니다. 안전 조치로 해당 서비스 경로를 끄는 레드 버튼이 함께 도입되었습니다. 문제는 이 변경이 적절한 에러 처리와 피처 플래그 보호가 없었다는 데 있었습니다. 에러 처리가 없으면 null 포인터로 인해 바이너리가 크래시합니다. 피처 플래그는 내부 프로젝트부터 지역별 단계적으로 기능을 활성화하며, 이 과정을 통해 문제를 조기에 포착할 수 있습니다. 만약 이 변경이 플래그로 보호되었다면, 스테이징 단계에서 문제가 감지됐을 것입니다.
2025년 6월 12일 오전 10:45경(PDT), Service Control이 정책 관리를 위해 사용하는 지역 Spanner 테이블에 정책 변경이 삽입되었습니다. 쿼터 관리의 글로벌 특성상, 이 메타데이터는 수 초 내에 전 세계적으로 복제되었습니다. 이 정책 데이터에는 의도치 않은 공란 필드가 포함돼 있었습니다. Service Control은 지역별로 각 데이터스토어에서 정책에 대해 쿼터 체크를 진행하면서 공란 필드를 로딩했고, 이로 인해 해당 코드 경로가 null 포인터로 크래시 루프에 빠지게 되었습니다. 각 지역 배포 환경마다 이 문제가 재현되어 전 세계적으로 장애가 일어났습니다.
2분 이내에 SRE 팀이 해당 장애를 트라이에이지했고, 10분 만에 근본 원인을 파악하여 서비스 경로를 비활성화하는 레드 버튼 조치를 준비했습니다. 사고 발생 약 25분 후 레드 버튼이 준비됐고, 40분 만에 롤아웃이 완료되어 작은 지역부터 점진적으로 복구가 시작되었습니다.
일부 대형 지역(us-central-1 등)에서는 Service Control 작업이 재시작되면서 의존 인프라(Spanner 테이블 등)에 허드 효과(herd effect)가 발생해 과부하가 걸렸습니다. Service Control에는 이를 방지할 무작위 지수 백오프가 구현되어 있지 않았습니다. 이로 인해 us-central-1은 복구까지 약 2시간 40분이 소요되었습니다. 작업 생성 속도를 제한하고, 트래픽을 멀티리전 데이터베이스로 우회하여 부하를 줄였습니다. 이 시점에서 모든 지역에서 Service Control 및 API 서비스가 완전히 복구되었습니다. Google과 Google Cloud 제품들도 각 서비스 아키텍처에 따라 복구 시간에 차이가 있었습니다.
복구 직후 Service Control 스택 및 수동 정책 푸시의 변경을 모두 동결하였고, 완전한 복구 조치 전까지는 변화가 없습니다.
장애 발생 약 1시간 후, Cloud Service Health에 첫 사고 보고를 게시했습니다. 이는 장애로 인해 Cloud Service Health 인프라도 함께 다운되어 있었기 때문입니다. 일부 고객들은 Google Cloud에서 운영 중이던 모니터링 인프라도 장애로 사용할 수 없어, 본 사고 신호나 비즈니스/인프라 영향 파악이 지연되었습니다. 앞으로 이 점을 반드시 개선하겠습니다.
위에서 언급한 동결 외에도 다음 사항을 우선하여 안전하게 진행합니다:
이번 서비스 중단이 모든 사용자와 그 고객에게 미친 심각한 영향에 대해 깊이 사과드립니다. 기업의 크고 작음에 상관없이 Google Cloud를 신뢰해 주셨는데, 더 나아지겠습니다. 며칠 내에 사고의 근본 원인, 상세 타임라인, 재발 방지 대책을 담은 전체 사고 보고서를 게재하겠습니다. 이번 사고의 규모와 영향이 커 우선 일부 내용을 안내드립니다.
아래 정보는 게시 시점 기준 최선의 조사 결과이며, 추가 조사에 따라 변경될 수 있습니다. 아래 내용 외의 영향이 있었다면 Google Cloud 지원팀 또는 Google Workspace 지원팀으로 연락해 주십시오.
(모든 시간은 미국 태평양 표준시)
설명:
여러 Google Cloud 및 Google Workspace 제품에서 외부 API 요청에 대해 503 오류가 증가하여 고객들이 영향을 받았습니다.
초기 분석 결과, API 관리 시스템에 잘못된 자동 쿼터 업데이트가 전 세계로 배포되면서 외부 API 요청이 거부되었습니다. 복구를 위해 문제가 된 쿼터 체크를 우회했고, 대부분의 지역에서는 2시간 내로 복구되었습니다. 단, us-central1의 쿼터 정책 데이터베이스가 과부하되어 복구까지 더 시간이 걸렸습니다. 몇몇 제품은 주요 장애 해소 후 최대 1시간 동안 중간 잔존 영향(예: 백로그)이 있었고, 소수 제품은 이후에 복구되었습니다.
Google은 며칠 내로 사고의 상세 근본 원인을 담은 전체 사고 보고서를 게시할 예정입니다.
고객 영향:
고객들은 해당 서비스에 대해 간헐적인 API 및 사용자 인터페이스 접근 문제를 겪었습니다. 기존 스트리밍 및 IaaS 리소스에는 영향이 없었습니다.
추가 상세:
이번 사고는 발생하지 않았어야 하며, 향후 재발 방지를 위해 아래 조치를 취합니다.
영향받은 서비스 및 기능:
Vertex AI Online Prediction이 18:18 PDT 기준 완전히 복구되었습니다.
모든 서비스가 이번 장애에서 완전 복구되었습니다.
내부 조사가 완료되는 대로 본 사고에 대한 분석을 게재할 예정입니다.
문제 해결을 기다려주신 것에 감사드립니다.
Vertex AI Online Prediction: Model Garden의 일부 모델에서 증가된 5xx 오류를 유발하던 문제가 17:05 PDT에 완전히 해결되었습니다. 모든 지역에서 Vertex AI 서비스가 정상화되었으며, europe-west1 및 asia-southeast1 지역만 제외하고 복구 중입니다. 두 지역의 복구를 위해 엔지니어가 적극적으로 작업 중입니다.
두 지역의 정상이용 용량 복구 예상 시간(ETA)은 19:45 PDT입니다.
현황은 2025-06-12 19:45 PDT에 추가로 안내드리겠습니다.
Personalized Service Health의 영향이 해결되어 업데이트에 더 이상 문제가 반영되지 않습니다.
Google Cloud Dataflow 문제도 17:10 PDT 기준 완전히 해결되었습니다.
유일하게 남은 영향은 Vertex AI Online Prediction과 관련한 아래 항목입니다:
Vertex AI Online Prediction: Model Garden 내 일부 모델에서 여전히 5xx 오류가 간헐적으로 발생할 수 있습니다. 엔지니어의 조치로 오류율이 점차 감소하고 있습니다.
해당 오류의 완전 해결 예상 시간(ETA)은 22:00 PDT입니다.
현황은 2025-06-12 22:00 PDT에 추가 안내드리겠습니다.
아래 Google Cloud 제품들은 일부 잔존 영향이 남아 있습니다:
Google Cloud Dataflow: 모든 지역(mid us-central1 제외)에서 데이터플로우 백로그가 해소되었습니다. us-central1에서는 백로그 해소 과정에서 작업 지연이 있을 수 있습니다. 해당 지역의 데이터플로우 복구 예상시간은 없습니다.
Vertex AI Online Prediction: Model Garden 내 일부 모델에 5xx 오류가 간헐적으로 발생합니다. 엔지니어가 완화 조치를 진행 중이며, 오류율이 점차 감소하고 있습니다. 추정 복구 시간은 22:00 PDT입니다.
Personalized Service Health: 해당 서비스의 업데이트가 지연되고 있으니 Cloud Service Health 대시보드를 계속 참고하시기 바랍니다.
위 서비스의 완전 복구 예상시간은 없습니다.
2025-06-12 17:45 PDT에 추가 현황 안내를 제공하겠습니다.
아래 Google Cloud 제품들에서 일부 잔존 영향이 지속 중입니다:
Google Cloud Dataflow: 백로그가 점진적으로 해소되면서 데이터플로우 작업에 지연이 발생할 수 있습니다.
Vertex AI Online Prediction: Model Garden 내 일부 모델에서 5xx 오류가 증가할 수 있습니다.
Personalized Service Health: 관련 업데이트가 지연되고 있으므로 Cloud Service Health 대시보드에서 최신 상황을 확인하시기 바랍니다.
위 서비스의 완전 복구 예상시간은 없습니다.
2025-06-12 17:00 PDT에 추가 현황 안내를 제공하겠습니다.
Google Cloud의 대부분 제품이 13:45 PDT 기준 완전히 복구되었습니다.
현재 대시보드에서 영향을 받는 제품으로 표시된 일부 서비스는 잔존 영향이 있으니 서비스와 대시보드를 통해 개별 복구 상황을 모니터링해 주십시오.
2025-06-12 16:00 PDT에 추가 현황 안내를 제공하겠습니다.
대부분의 Google Cloud 제품이 완전 복구를 확인했습니다.
일부 서비스는 여전히 잔존 영향이 남아 있으며, 각 엔지니어링 팀이 복구 작업을 진행 중입니다.
1시간 이내에 복구가 완료될 것으로 예상합니다.
2025-06-12 15:00 PDT에 추가 현황 안내를 제공하겠습니다.
us-central1 및 multi-region/us에서 문제에 대한 완화 조치를 적용했고, 복구 징후가 관찰되고 있습니다.
내부 모니터링 및 고객사로부터 Google Cloud 제품이 여러 지역에서 복구되고 있으며, us-central1 및 multi-region/us에서도 일부 복구 징후가 있다는 확인을 받았습니다.
복구는 1시간 이내 완료될 것으로 예상합니다.
2025-06-12 14:30 PDT에 추가 현황 안내를 제공하겠습니다.
근본 원인을 파악했고 적절한 완화 조치를 적용했습니다. 모든 지역(단, us-central1 제외)에서 인프라가 복구되었습니다.
영향받은 인프라에 의존하는 Google Cloud 제품들도 여러 위치에서 복구되고 있습니다.
us-central1 및 multi-region/us에서 여전히 문제가 있는 고객을 엔지니어가 인지하고 있으며 복구 작업을 진행 중입니다.
완전 복구 예상 시간은 없습니다.
2025-06-12 14:00 PDT에 추가 현황 안내를 제공하겠습니다.
근본 원인을 파악했고 적절한 완화 조치를 적용했습니다.
기반 종속성이 us-central1을 제외한 모든 지역에서 복구되었으나, 여전히 일부 Google Cloud 제품에서는 영향이 남아 있습니다. 관련 엔지니어링 팀들이 전원 투입되어 복구 중입니다.
완전 복구 예상 시간은 없습니다.
2025-06-12 13:30 PDT에 추가 현황 안내를 제공하겠습니다.
us-central1을 제외한 모든 지역은 완전 복구되었습니다. us-central1은 대부분 복구 완료. 완전 복구 예상 시점은 없습니다.
2025-06-12 13:00 PDT에 추가 현황 안내를 제공하겠습니다.
엔지니어들이 문제 완화 작업을 계속하고 있으며, 일부 지역에서 문제 해결이 확인되었습니다.
완전 복구 예상 시간은 명확하지 않습니다.
2025-06-12 12:45 PDT에 추가 현황 안내드리겠습니다.
요약: 여러 GCP 제품에서 API 요청 관련 서비스 장애 발생
설명: 2025년 6월 12일 10:51 PDT부터 여러 GCP 제품에서 서비스 장애가 발생하고 있습니다.
엔지니어링팀이 지속적으로 원인 조사 중입니다.
2025-06-12 12:15 PDT에 추가 현황 제공하겠습니다.
영향받으신 모든 분께 사과드립니다.
증상: 여러 GCP 제품에서 API 요청에 다양한 수준의 서비스 영향이 있습니다.
우회 방법: 현재 없습니다.
요약: 여러 GCP 제품에서 서비스 장애 발생
설명: 2025년 6월 12일 10:51 PDT부터 여러 GCP 제품에서 서비스 장애가 발생하고 있습니다.
엔지니어링팀이 지속적으로 원인 조사 중입니다.
2025-06-12 12:15 PDT에 추가 현황 제공하겠습니다.
영향받으신 모든 분께 사과드립니다.
증상: 여러 GCP 제품이 다양한 수준의 서비스 영향
우회 방법: 현재 없습니다.