ChatGPT 이미지: 구축, 출시, 그리고 초대규모 확장의 뒷이야기

ko생성일: 2025. 6. 5.갱신일: 2025. 6. 11.

ChatGPT 이미지 기능이 어떻게 기획부터 초대규모 출시, 예기치 못한 트래픽, 인프라 재설계를 거쳐 성공적으로 안착했는지, 주요 엔지니어 리더들과의 심층 인터뷰를 통해 살펴봅니다.

ChatGPT 이미지: 구축, 출시, 그리고 초대규모 확장의 뒷이야기

ChatGPT는 역대 가장 빠르게 성장한 앱입니다. 2022년 11월 출시 이후 단 12개월 만에 주간 활성 사용자 1억 명을 달성했고, 새로운 통계에 따르면 성장 속도는 여전히 빨라지고 있습니다. 2025년 3월 말 공개된 ChatGPT 이미지 기능은 출시 첫 주에만 1억 명의 신규 사용자가 가입하며 OpenAI가 예측했던 트래픽을 훨씬 뛰어넘었지만, 큰 장애 없이 성공적으로 론칭되었습니다.

저는 이번 대형 프로젝트의 핵심 엔지니어링 리더인 술만 초드리 (ChatGPT 엔지니어링 총괄)와 스리니바스 나라야난 (OpenAI 엔지니어링 부사장)을 인터뷰했습니다. 이번 글에서는 공개되지 않았던 이미지 프로젝트의 비하인드와 엔지니어링 뒷이야기를 소개합니다.

관련 맥락으로, ChatGPT 팀과의 지난 심층 인터뷰(OpenAI는 어떻게 빠르게 배포하는가, 실제 확장 도전기)도 참고해 보세요.

오늘 다루는 내용:

  1. 출시: 기대 이상 트래픽, 인도에서의 대유행, 시간당 100만 신규 가입자 등 예상을 뛰어넘는 반응
  2. ChatGPT 이미지의 작동 방식: 이미지 토큰, 디코더, 다중 패스 이미지 생성, 기술 스택 (Python, FastAPI, C, Temporal 등)
  3. 질주 중 엔진 교체: 폭증하는 트래픽 속에서 동기식 이미지 엔진을 무중단 비동기식으로 실시간 교체하기
  4. 신뢰성 도전: 매주 부하 테스트와 시스템 분리를 통해 대규모 장애 없이 신뢰성 확보
  5. 추가적인 엔지니어링 챌린지: 써드파티 의존성, 수직 폭발적 성장, 예상치 못한 사용 패턴 등
  6. “GPU 병목”에서 “모든 게 병목”으로: GPU 제한 해소 후 모든 부분이 병목이 된 새 도전
  7. OpenAI의 빠른 출시 문화: 역할 경계가 희미한 팀, 빠른 출시 중심, DRI 등 독특한 문화

이번 심층 기획 역시 OpenAI 엔지니어링 팀의 실제 운영과 큰 도전들을 밝히는 데 초점을 맞춥니다. 관련 시리즈: OpenAI 조직 문화, ChatGPT 규모 확장의 5가지 도전.

OpenAI는 최근 한 달간 눈에 띄게 빠른 속도로 핵심 기능을 쏟아냈습니다:

그리고 2025년 3월 25일, 4o 모델을 이용한 이미지 생성 기능을 출시했습니다.

ChatGPT 이미지 기능 발표: AI 이미지로 구현

이미지 생성 기능 발표용 이미지 역시 ChatGPT로 생성 (출처: X)

대규모 출시가 어느 정도 성공할지, 바이럴하게 퍼질지 사전 예측은 매우 어렵습니다. 술만 초드리 엔지니어링 총괄은 이번 이미지 기능이 이토록 대폭발할 줄은 내부적으로도 거의 예상하지 못했다고 말합니다:

"우리가 이미 수많은 대형 론칭을 경험했기에, 이번에도 충분히 준비가 되었다고 생각했습니다. 하지만 이미지 론칭은 지금껏 경험한 것과는 차원이 달랐습니다. 이런 규모를 다시 맞닥뜨릴 줄은 몰랐습니다. 제 커리어 중 가장 미친 론칭이었죠. (술만은 2014년 Facebook Video의 일일 50억 뷰 확장도 주도한 인물입니다.)

처음 계획은 유료 구독자에게 먼저 이미지를 공개하고, 몇 시간 후 무료 사용자에게 퍼뜨릴 예정이었습니다. 하지만 초기 유료자 수요가 너무 커서 무료 출시가 하루 연기되었습니다.

무료 사용자 롤아웃 지연 안내 (출처: Sam Altman on X)

하지만 OpenAI는 궁극적으로 무료 사용자에게도 이미지를 제공하고자 했고, 다음날부터 점차적으로 무료 사용자가 이용할 수 있게 했습니다. 그 시점부터 트래픽이 폭발적으로 증가합니다.

무료 사용자에게 공개된 직후 인도에서 뜨거운 유행이 일어났습니다. 인도의 유명 인물, 예를 들면 크리켓의 전설 사친 텐다울카 등이 지브리 풍 스타일로 직접 이미지를 공유했습니다:

사친 텐다울카가 만든 지브리 풍 크리켓 이미지.

번역: “요즘 이게 유행이라길래, 지브리가 크리켓 애니를 만든다면?” (출처: Sachin Tendulkar on X)

나렌드라 모디 인도 총리 역시 지브리 스타일 이미지로 재현되기도 했습니다:

나렌드라 모디 총리 지브리 풍 이미지

출처: MyGovIndia on X

스리니바스 나라야난은 이렇게 말합니다:

"이번 론칭이 제게도 특별했던 것은, 제 가족 전체가 모두 인도에 있었고, 그들 또한 ChatGPT로 옛 사진을 재현해 공유하기 시작했거든요. 인도에서 정말 큰 반향을 일으켰어요."

지브리풍 생성이 가장 많이 쓰이는 대표적 활용 사례가 되었고, 필자 역시 여러 이미지를 애니메이션 스타일로 바꿔봤습니다.

팀은 유료 사용자 경험과 무료 론칭 준비를 위해 24시간 체제로 일했고, 공개 5일 후에도 여전히 높은 부하로 추가 인프라 작업이 필요했습니다.

출시 5일 후에도 예상보다 높은 트래픽 유지 (출처: Sam Altman on X)

출시 6일차, 새 바이럴 붐으로 한 시간에 100만 신규 가입이 몰렸습니다.

6일차 1시간 100만명 폭주 (출처: Sam Altman on X)

주요 지표

  • 1억 명: 출시 첫 주 신규 가입자
  • 7억 개: 첫 주 이미지 생성 수
  • 100만 명/시간: 출시 6일차 1시간 동안 가입자 수

이처럼 예상을 훨씬 뛰어넘는 트래픽임에도, ChatGPT는 심각한 장애나 다운 없이 서비스를 유지했습니다. 최대 부하 시 지연(latency)은 평소보다 길어졌지만, 엔지니어팀은 ‘접근성(가용성)’ 우선 원칙에 따라 응답성 유지에 집중했고, 상황이 안정된 후 곧 지연도 정상 회복시켰습니다.

"트래픽 급증 시 ChatGPT는 '접근성 우선, 지연은 유동적으로' 원칙을 적용합니다."


ChatGPT 이미지 생성, 어떻게 동작하나

설명은 술만 초드리가 정리해 주었습니다.

  1. 이미지 토큰화: 요청 내용을 개별 이미지 토큰의 그리드로 변환합니다. 이 토큰이 이미지 내용을 인코딩합니다.
  2. 디코더: 이미지 토큰을 점진적으로 렌더링하여 이미지를 만들어냅니다.
  3. 여러 번 반복: 생성 초기에는 흐릿한 이미지고, 여러 번 반복을 거치며 점차 선명해집니다.
  4. 안전성ㆍ무결성 체크: 생성 중 수위, 커뮤니티 표준 등 검토 과정이 실시간 동작하며, 어긋나면 중단됩니다.
  5. 최종 렌더링: 여러 패스를 반복해 최종적으로 선명해진 이미지를 사용자에게 보여줍니다.

ChatGPT 이미지 생성 플로우 (ChatGPT로 직접 생성)

(이미지 생성 단계별 플로우, 오탈자(Description 오타)도 AI의 비결정성 일부!)

추가로, 이미 생성된 이미지를 새로운 프롬프트로 ‘조정(tweak)’하는 기능도 있는데, 기존 이미지 토큰에 새 프롬프트를 적용해 원하는 부분을 바꿀 수 있습니다.

이미지 tweak 기능 시연

tweak 기능(좌: 생성 중, 우: 최종)

Tweak은 강력한 기능이지만 일반 생성보다 배 이상 컴퓨팅 자원을 소모합니다.


기술 스택 및 엔지니어링 선택

  • Python: 주요 코드 전부 Python으로 작성
  • FastAPI: 타입 힌트를 적극 이용, 빠르고 견고한 API 제공
  • C: 고성능 최적화 구간은 저수준 C로 개발
  • Temporal: 비동기 워크플로, 복잡한 분산 작업의 신뢰성 확보용

전체적으로 매우 실용적이고 간결한(Pragmatic!) 선택입니다.

초기 ChatGPT 이미지는 동기식(synchronous) 제품으로 설계되었습니다. 즉, 작업이 시작되면 끝까지 한 번에 처리해야 하며, 도중에 끊기거나 재개가 불가하며 생성 동안 GPU와 메모리 점유가 계속 유지됩니다.

문제는, 이 방식이 트래픽 급증 시 잉여 자원을 활용해 분산 부하를 대응할 수 없다는 점이었습니다. 술만 초드리는 다음과 같이 설명합니다:

"출시 첫 이틀 밤, 예상 이상의 수요에 시달렸습니다. 접근성과 가용성 유지를 위해, 비동기(Asynchronous) 제품을 정말 빠르게 만들어야겠다고 결단했습니다! 이후 며칠간 밤새 엔지니어들이 실제로 새 비동기 이미징 시스템을 개발했고, 동시에 기존 시스템의 급격한 부하도 관리했습니다. 비동기 시스템 전환 후, 잉여 자원을 활용해 무료 사용자의 이미지 요청을 큐에 쌓고 차례로 처리할 수 있게 됐습니다. 그 결과 지연(Latency)을 희생하는 대신 접근성을 확보하게 됐죠."

이런 대규모, 바이럴 이벤트는 성공적이지만 때로는 시스템 다른 부분을 마비시키기도 합니다. ChatGPT 이미지는 유료 구독자, 개발자, 기업 모두가 사용하므로 핵심 인프라와 계정 시스템에 여파를 줄 수 있습니다.

  • 파일 시스템: 이미지 저장 파일 시스템이 레이트 제한에 걸림
  • DB: 급증 트래픽에 데이터베이스 과부하
  • 인증 및 온보딩: 신규 가입/인증 시스템도 포화에 근접

OpenAI는 주요 API 신뢰성 기준을 오래전부터 지키고 있었고, ChatGPT 트래픽과 타 시스템이 분리되어 있었습니다. 그러나 아직 격리되지 못한 일부 클러스터/DB 등이 있었기에, 팀은 신속하게 추가 격리조치에 돌입, 해당 작업을 완결지었습니다. 덕분에 대부분의 OpenAI API 엔드포인트는 이미지 트래픽에도 안정적으로 유지되었습니다.

이미지 서비스가 컴퓨트 병목을 겪었던 덕에 팀은 성능 튜닝과 핵심 경로 최적화(특히 데이터베이스 쿼리)를 병행했고, 동시에 파일시스템, DB 등 전체 인프라 증설을 추진했습니다. 스리니바스의 설명:

"빠르게 움직이다 보면 기술 부채와 최적화되지 않은 코드가 쌓이기 쉽습니다. 실제로 우리 DB 쿼리의 일부가 지나치게 리소스를 소모하고 있었습니다. 그 자리에서 즉시, 여러 엔지니어가 밤새 기존 코드 효율화를 진행했습니다. 전사 차원에서는 파일시스템, 데이터베이스 등 인프라 증설도 동시에 진행했죠."

ChatGPT가 예상을 뛰어넘는 부하 속에서도 신뢰성을 유지한 것이 성공의 핵심이었습니다. 이어지는 파트에서는 이와 관련된 기술적 우선순위 결정 및 대처법을 더 심도 있게 살펴봅니다.