2024년 OpenAI에서 경험한 조직 문화와 제품 개발, 그리고 Codex 출시 과정에 관한 솔직한 1인칭 회고입니다. AI 업계의 현장 분위기, 조직 성장의 도전과 교훈이 담겨 있습니다.
세 주 전 OpenAI를 떠났습니다. 나는 2024년 5월에 이 회사에 합류했었습니다.
OpenAI가 무엇을 하고 있는지에 대한 소문과 잡음은 많지만, 실제로 그곳에서 일하는 문화가 어떤 느낌인지 1인칭으로 전하는 이야기는 많지 않은 것 같아 회고를 공유하고 싶었습니다.
Nabeel Quereshi가 쓴 Reflections on Palantir라는 멋진 글이 있습니다. 그는 팔란티어가 왜 특별했는지 곱씹습니다. 저도 마찬가지로, 기억이 생생할 때 OpenAI에 대한 소회를 남기고 싶었습니다. 여기엔 영업 비밀 같은 건 없습니다. 그저 역사상 가장 흥미로운 조직 중 하나의 현재 버전을, 매우 흥미로운 시기에 직접 보고 느낀 바를 적었습니다.
미리 밝혀두자면, 퇴사 결정에 개인적인 드라마는 없었습니다. 오히려 매우 고민했던 일이었죠. 본인의 일을 창업하다 3,000명 규모의 회사의 한 직원이 된다는 건 쉽지 않은 변화입니다. 지금은 새로운 출발이 필요하다고 느낄 뿐입니다.
아마 일의 질이 저를 다시 이끌 수도 있습니다. AGI만큼 임팩트 있는 것을 만드는 건 상상하기 어렵고, LLM은 명백히 이 10년의 기술혁신입니다. 직접 여러 발전을 목격했고, Codex 출시에도 참여할 수 있었던 것을 행운이라 생각합니다.
물론 이 글은 회사의 입장이 아닌, 오롯이 저의 관찰과 견해입니다. OpenAI는 큰 조직이고, 이 글은 그 안의 작은 창입니다.
OpenAI에 대해 가장 먼저 알아야 할 것은 엄청난 성장 속도입니다. 입사 당시 직원은 1,000명 남짓이었는데, 1년 뒤엔 3,000명을 넘었고 저는 근속연수 기준 상위 30%에 들었습니다. 리더십 대부분이 2~3년 전과는 전혀 다른 역할을 하고 있었습니다. 1
당연하게도, 그렇게 빠르게 성장하면 모든 것이 깨집니다. 대화 방식, 보고 체계, 제품 개발 방법, 인사와 조직 관리, 채용 방식 등등. 팀별로 문화 차이도 큽니다. 어떤 팀은 항상 전력질주하고, 어떤 팀은 대형 런을 관리하고, 어떤 팀은 일관된 속도로 운영됩니다. 한 가지 'OpenAI 경험'이란 건 없습니다. 연구, 응용(Applied), **GTM(Go-to-Market)**은 각각 매우 다른 시간축 위에서 움직입니다.
특이한 점은, 진짜 모든 것이 슬랙(Slack)으로 돌아간다는 겁니다. 이메일이 없습니다. 근무 내내 받은 이메일이 10통 남짓 될까 말까합니다. 정리를 잘하지 않으면 굉장히 산만하게 느껴질 수 있습니다. 채널과 알림을 잘 가려서 쓰면 나름 쓸 만합니다.
OpenAI는 **특히 연구 조직에서 굉장히 보텀업(bottom-up)**입니다. 처음 입사했을 때 다음 분기 로드맵을 물었더니, "없다"는 답을 들었습니다(지금은 있습니다). 좋은 아이디어는 어디에서든 나올 수 있고, 사전에 어떤 아이디어가 성공할지 알기도 어렵습니다. 거창한 '마스터플랜'보단, 새로운 연구 성과에 따라 하나씩 진전을 만들어나가는 형태입니다.
이 보텀업 문화 덕분에, OpenAI는 **상당히 메리토크라시(능력주의)**입니다. 회사의 리더들은 아이디어를 내고 실행할 수 있는 능력 중심으로 승진해왔습니다. 올핸즈에서 발표를 잘 하거나 정치적 능력이 약한 리더들도 많았습니다. 그런 역량이 타사만큼 중요하지 않습니다. 실로 좋은 아이디어가 이기는 경우가 대다수였습니다. 2
행동에 대한 강한 의지도 특징입니다(시도해보고 보면 됨). 유사하지만 독립적인 팀들이 비슷한 아이디어로 수렴하는 경우도 흔했습니다. 저도 초반에 ChatGPT 커넥터와 비슷한 내부 프로젝트를 했습니다. Codex만 해도 3~4개의 프로토타입이 여기저기서 떠돌다가 결국 출시를 밀기로 했습니다. 이런 일들은 소수 인원이 허락 없이 시작하고, 잘 되면 금세 팀이 형성됩니다.
Codex 리더 Andrey는 연구자를 **"자기만의 미니 임원"**처럼 생각해야 한다고 했습니다. 각자가 자기 프로젝트에 몰입해서 결과를 보는 경향이 강합니다. 대부분의 연구는 특정 문제에 연구자를 홀려들게(nerd-sniping) 하는 걸로 이뤄집니다. 지루하거나 '풀린' 문제는 거의 아무도 안 하죠.
좋은 연구 매니저는 엄청난 임팩트를 내지만 그만큼 드물기도 합니다. 최고의 매니저는 서로 다른 연구 결과들을 연결해서 더 큰 모델 학습을 이끕니다. 뛰어난 PM도 마찬가지입니다(존경을 담아 ae에게 인사).
ChatGPT EM(Engineering Manager) 분들은(Akshay, Rizzo, Sulman) 제가 본 것 중 가장 멋진 분들이었습니다. 이미 다 겪어본 듯한 포스가 있었죠3. 대부분 큰 간섭 없이 좋은 팀원을 뽑고, 성공에 필요한 환경을 만들어주려 했습니다.
OpenAI는 순식간에 방향을 트는 회사입니다. Segment에서 중시했던 것과 비슷하죠. 계획에 집착하지 않고, 옳다고 판단되면 바로 전환하는 문화를 고수합니다. 이만한 조직에서 아직도 이런 자세를 유지하는 게 놀랍죠–Google은 분명 못합니다. 결정도 빠르고, 방향이 정해지면 올인합니다.
회사에 대한 외부의 시선이 굉장히 많습니다. b2b 엔터프라이즈 배경에서 온 저에겐 충격이었습니다. 사내 발표 전 언론 보도가 나오기도 했고, 사람들이 OpenAI 소속이라고 하면 이미 선입견을 갖고 있었습니다. 트위터엔 신기능 출시를 감시하는 봇 계정도 있습니다.
결과적으로, OpenAI는 아주 비밀스러운 곳입니다. 내가 무슨 일을 하는지 구체적으로 말할 수 없었습니다. 다양한 권한의 여러 슬랙 워크스페이스가 있고, 매출과 지출 같은 수치도 아주 조심스럽게 다룹니다.
OpenAI는 생각보다 훨씬 더 진지한 분위기이기도 합니다. 일의 중요성이 매우 크다고 느껴지기 때문입니다. 한쪽으론 AGI라는 궁극의 목표가 있고, 또 한쪽으론 수억 명이 모든 것(의료 상담, 심리 등)에 쓰는 제품을 만들고 있습니다. 또 다른 한편으로는 지상 최대의 기술 경쟁이 벌어지고 있습니다. 우리는 Meta, Google, Anthropic의 동향에 촉각을 곤두세우며, 분명 그들도 우리를 예의주시할 겁니다. 주요 국가 정부도 이 영역을 크게 주시하고 있습니다.
언론에선 OpenAI를 자주 비판하지만, 제가 만난 분들은 실제로 옳은 일을 하려고 노력하는 사람들이었습니다. 소비자 대상 제품이다 보니 가장 눈에 띄는 연구소이기도 해서, 욕을 많이 먹는 면도 있습니다.
하지만 OpenAI를 하나의 단일 조직으로 보면 안 됩니다. OpenAI는 로스알라모스 국립연구소처럼, 첨단 과학을 탐구하는 과학자와 실험가 집단이었습니다. 이 그룹이 우연히 역사상 가장 바이럴한 소비자 앱을 만들어냈고, 이후 정부·대기업 시장 진출까지 노리게 됐죠. 근속연수와 부서에 따라 목표나 시각도 아주 다릅니다. 오래 있을수록 "연구소" 혹은 "비영리 선한 영향력" 프레임으로 보는 경향이 강해집니다.
제가 가장 높이 사는 점은 AI 혜택을 정말로 널리 배포하려 한다는 점입니다. 첨단 모델이 연간계약 기업 전용이 아닌, 누구나 ChatGPT에서 계정을 만들지 않아도 바로 쓸 수 있게 했습니다. API도 공개하고, 최첨단 모델 대부분이(비록 SOTA나 독점이더라도) 바로 API로 스타트업이 쓸 수 있게 됩니다. 반대로 운영할 수도 있었겠지만, OpenAI가 이런 문화를 고수한 덕분에 업계가 다릅니다.
안전에 관한 노력도 생각보다 훨씬 큽니다. Zvi나 Lesswrong을 많이 읽었다면 의외일 수 있죠. 실무적 위험(혐오발언, 남용, 정치적 편향 조작, 생화학무기 설계, 자해, 프롬프트 삽입 등)에 집중하는 인력이 상당합니다. 이론적 위험(지능 폭발, 권력 추구 등)도 다루지만 실무 쪽에서 더 많은 일이 일어납니다. (대부분 결과가 공개되지 않는 편이고, 좀 더 투명해질 필요가 있습니다.)
다른 회사들이 채용때마다 굿즈를 뿌리는 것과 달리 OpenAI는 굿즈(스와그)가 거의 없습니다. 신입에게조차 그렇고, 가끔 '드랍' 이벤트가 열려 재고 내에서만 주문할 수 있습니다. 첫 드랍 때는 쇼피파이 스토어가 마비될 정도였고, json 페이로드로 주문을 우회하는 팁이 돌기도 했습니다.
GPU 비용에 비하면 나머지는 전부 무의미합니다. Codex 기능 하나가 우리 Segment 인프라스트럭처 전체와 같은 GPU 사용량을 썼습니다(물론 ChatGPT보다는 덜 트래픽 받지만). 그만큼 GPU 비용이 압도적입니다.
OpenAI는 아마 역대 가장 야심찬 조직일 것입니다. 세계 최상위 소비자 앱을 가졌음에도, API, 심층 연구, 하드웨어, 코딩 에이전트, 이미지 생성 등 여러 영역에서 경쟁하고자 합니다. 아이디어를 내고 밀어붙일 기회가 차고 넘치는 환경입니다.
회사는 트위터 여론에 상당히 귀를 기울입니다. OpenAI 관련해 바이럴 트윗이 올라오면 내부 누군가는 꼭 읽고, 내용 반영을 고려합니다. "이 회사는 트위터 바이브로 운영된다"라고 농담을 할 정도입니다. (분명 데이터와 분석 환경도 많지만, 바이브도 똑같이 중요하게 여겨집니다.)
OpenAI 팀은 굉장히 유동적입니다. Codex 출시 때에는 일정 맞추려고 ChatGPT의 경험 많은 엔지니어 몇 명 지원을 요청했고, 바로 다음 날 두 분이 투입됐습니다. "쿼터별 인원 조정" 같은 절차는 없었고 아주 빨랐죠.
리더십(경영진)은 아주 가시적이고 적극적으로 참여합니다. 이 규모의 회사는 당연하다 생각할 수 있으나, 실제로 모든 임원이 매우 관심이 높았습니다. gdb, sama, kw, mark, dane 등등이 슬랙에서 자주 메시지를 남깁니다. 부재하는 리더는 없습니다.
OpenAI는 **초대형 모노리포(monorepo)**를 사용합니다. 주로 파이썬이고, 러스트나 일부 고(Golang)로 짠 서비스가 점점 늘고 있습니다. 다양한 파이썬 사용법이 뒤섞여 이상해 보이기도 합니다. 10년 구글 베테랑이 작성한 대규모 라이브러리와, 박사 졸업자가 만든 실험용 주피터 노트북이 공존합니다. API는 주로 FastAPI, 입력 검증은 Pydantic을 씁니다. 단, 코딩 스타일 가이드가 엄격히 적용되진 않습니다.
OpenAI는 모든 것이 Azure(마이크로소프트 클라우드) 위에서 동작합니다. 신뢰할 만한 서비스라 부를 게 세 개: Azure Kubernetes Service, CosmosDB(문서형 저장소), BlobStore. Dynamo, Spanner, BigTable, BigQuery, Kinesis, Aurora 같은 진짜 대안은 없습니다. 인프라 자동 스케일링이 좀 낯선 개념이고, IAM도 AWS 대비 기능이 훨씬 제한적입니다. 자체 개발 선호가 강합니다.
인력 면(특히 엔지니어)은 Meta(구 Facebook) → OpenAI 전환이 많습니다. 여러모로 초기 페이스북을 닮았습니다. 초대형 소비자 앱, 미숙한 인프라, 진짜 빠르게 움직이려는 욕망. Meta/Instagram 출신 인프라 인재들은 정말 강했습니다.
이런 요소가 합쳐져 인프라 핵심 부분 상당수가 Meta를 닮은 느낌입니다. TAO의 자체 구현, 엣지에서의 인증 통합 등 제가 모르는 내부 프로젝트도 많을 것입니다.
채팅(chat)이 아주 깊게 녹아 있습니다. ChatGPT가 흥행 이후, 많은 코드베이스가 채팅 메시지/대화 프리미티브에 맞춰 설계됐습니다. 이 프리미티브를 무시하면 곤란해지기도 합니다. Codex는 responses API 경험담도 많이 녹였지만, 기존 경험도 적극 활용했습니다.
코드가 이긴다. 중앙 기획위원회 같은 건 없이, 일을 추진하는 팀이 결정을 내립니다. 덕분에 행동 편향이 강하지만, 중복 라이브러리도 많습니다. 큐 관리나 에이전트 루프 같은 게 몇 개씩 중복되어 있습니다.
급격히 확장한 엔지니어링 팀 + 도구 부족으로 인한 문제도 있었습니다. sa-server(백엔드 모놀리식)는 좀 이상한 코드의 집합소였고, CI가 마스터에서 자주 깨졌습니다. 테스트도 어느 정도 의존성을 제외해도, GPU에서 30분 넘게 걸릴 때도 있었습니다. 이런 문제는 어디서나 있죠. 아주 빠르게 성장할수록 더 심해질 수밖에 없습니다. 내부적으로 개선 노력도 많이 하고 있습니다.
대형 소비자 브랜드란 무엇인가. Codex를 하며 처음 실감했습니다. 모든 지표가 '프로 구독자' 기준으로 측정됩니다. 팀 단위가 아니라 개인 사용자 온보딩이 우선입니다. 엔터프라이즈 백그라운드만 있었던 제겐 신기한 경험이었죠. 론칭과 동시에 트래픽이 쏟아집니다.
대형 모델 훈련 방식(고수준 관점). "실험"에서 "엔지니어링"까지 스펙트럼이 있습니다. 대부분 아이디어는 소규모 실험에서 시작합니다. 결과가 좋아보이면 대규모 러닝(run)에 합쳐집니다. 핵심 알고리즘, 데이터 믹스, 결과에 대한 정교한 분석이 모두 중요합니다. 대규모 러닝은 사실상 분산 시스템 엔지니어링에 가깝게 보이기도 합니다. 온갖 엣지케이스와 예기치 않은 일이 발생하고, 직접 디버깅해야 합니다.
GPU 계산 감각. Codex 런칭 준비로 GPU 용량 예측(로드캐스트)을 처음으로 해봤습니다. 요점은, "GPU가 감당 가능한 양"을 따지는 게 아니라 실제 필요한 지연(latency), 토큰 수, 최초 토큰 생성 시간에서 출발해야 한다는 점입니다. 모델이 새로 나오면 로드 패턴이 완전히 바뀔 수 있습니다.
대형 파이썬 코드베이스에서 일하기. Segment는 마이크로서비스 + 대부분 Go, Typescript였습니다. OpenAI만큼 방대한 코드는 처음이죠. 많은 사람이 기여하는 기반 코드를 관리하는 법을 배웠습니다. "기본 동작 보장", "마스터 기깨끗하게 유지", "실수로 오작동 방지" 등 가드레일이 필수입니다.
지난 3개월 동안의 주된 업무는 Codex 론칭이었습니다. 제 커리어 하이라이트 중 하나입니다.
배경을 말씀드리면, 2024년 11월에 OpenAI는 2025년 코딩 에이전트 론칭을 목표로 세웠습니다. 2025년 2월, 내부적으로 모델을 효과적으로 사용하는 툴들이 몇 개 있었고, 본격적으로 코딩 전용 에이전트가 필요하다는 압박을 받았습니다. 분명 모델이 실제 코딩에 매우 쓸 만한 수준까지 발전했음을 체감했습니다(시장에 많은 vibe-coding 툴들이 나오는 것도).
저는 출산휴가를 조기 복귀해 Codex 프로젝트에 합류했습니다. 복귀 1주일 후, 두 팀이 (조금은 혼란스럽게) 합쳐졌고, 미친듯한 스프린트가 시작됐습니다. 처음 코드가 쓰인 날부터 마무리까지 7주 만에 전체 제품이 완성됐습니다.
Codex 스프린트는 지난 10여 년 동안 가장 열심히 일했던 시기였습니다. 대부분 밤 11~12시에 퇴근, 매일 새벽 5시반 아기 육아, 오전 7시 재출근, 주말 출근 등 정말 팀 전체가 올인했습니다. 압박감이 컸고, 실제로 YC 시절을 떠올릴 정도였습니다.
이 정도 속도로 대규모 조직이 아이디어부터 완전한 제품, 그리고 공개까지 가는 걸 처음 목격했습니다. 작업 범위도 어마어마했죠. 컨테이너 런타임, 리포지토리 다운로드 최적화, 코드 수정 전용 커스텀 모델 파인튜닝, 각종 git 작업, 새로운 UI, 인터넷 접속, 빼놓을 것 없이 새로 만들었고, 쓰는 데 딜라이트를 주는 제품을 만들었습니다. 4
무엇이라도, OpenAI에는 여전히 런칭에 대한 혼이 남아 있습니다. 5
정말 실력 있는 사람들이 모이면 기적이 일어납니다. 총 8명의 시니어 엔지니어, 4명의 리서처, 2명의 디자이너, 2명의 GTM, 1명의 PM. 이 멤버가 없었으면 분명 실패했을 겁니다. 각자 크게 지도할 필요는 없었으나, 협업 조율은 필수였습니다. Codex 팀의 누구와 일할 기회가 생기면, 모두가 정말 훌륭한 분임을 알아두세요.
론칭 전날, 다섯 명이 밤 4시까지 메인 모놀리스 배포(몇 시간 걸림)를 시도했습니다. 다음 날 8시 사무실로 출근해 라이브스트림과 함께 공식 발표. 플래그를 켜자마자 엄청난 트래픽이 쏟아졌습니다. 사이드바에 노출된 것만으로 이 정도 치고 올라간 제품은 처음 봤습니다. ChatGPT의 힘이죠.
제품 형태는 완전히 비동기식으로 결정했습니다. Cursor(지금은 유사 모드도 있음)나 Claude Code와 달리, 사용자가 작업을 요청하면 에이전트가 자체 환경에서 일하고 결과(PR)로 돌아오는 구조입니다.
약간 도박이었습니다. 현 시점 모델은 꽤 좋지만 아직 엄청나진 않습니다. 몇 분 정도 연속작업은 하지만 몇 시간은 어렵고, 사용자 별로 신뢰도도 다릅니다. 모델의 진정한 한계가 어디인지는 내부에서도 확실하지 않습니다.
긴 호흡으로 보면, 언젠가는 프로그래밍 대부분이 Codex 스타일로 전환될 거라 생각합니다. 그 사이 어떻게 흘러갈지 흥미롭게 지켜볼 예정입니다.
Codex는(예상대로) 대형 코드베이스를 분석하고, 내비게이션하는 데 상당한 강점을 보입니다. 다른 도구와의 가장 큰 차별점은 여러 작업을 동시에 시작하고, 그 결과를 비교할 수 있다는 점입니다.
공개된 수치에 따르면, Codex는 63만 개 PR을 생성했습니다. 론칭 후 53일간 엔지니어 1인당 약 7.8만 건의 공개 PR을 만든 셈(비공개 PR은 더 많을 것). 제 인생에서 이렇게 임팩트있는 무언가를 만든 적이 있었나 싶습니다.
사실 처음엔 OpenAI 입사를 주저했습니다. 자유를 희생하고, 상사가 생기고, 거대한 기계의 작은 톱니가 되는 게 어떤 건지 몰라 소문도 별로 내지 않았죠.
이번 경험에서 세 가지를 얻고 싶었습니다.
지난 1년을 돌아보면, 제 인생 최고의 선택 중 하나였습니다. 이만큼 배울 일이 또 있을까 싶기도 합니다.
창업가인데 내 스타트업이 정말 힘들고 답이 없다면, 1) 더 많은 시도를 할 방법을 근본적으로 고민하거나, 2) 대형 랩에 합류하세요. 지금은 만드는 것도, 미래를 탐색하는 것도 둘 다 놀라운 시기입니다.
제가 보기엔 지금 AGI로 가는 길은 삼파전입니다: OpenAI, Anthropic, Google. 각 조직이 가진 DNA(소비자 지향, 비즈니스, 대규모 인프라·데이터 관리)에 따라 완전히 다른 경로를 밟을 겁니다.6 그 중 어디에서든 일해보면 눈이 열릴 겁니다.
늦은 밤 내내 대다수 양육을 책임져 준 Leah에게 감사. PW, GDB, Rizzo에게 기회를 준 것에 감사. SA팀 동료(Andrew, Anup, Bill, Kwaz, Ming, Simon, Tony, Val)에게는 노하우 전수 감사. 인생 최고의 질주를 함께한 Codex 핵심 팀(Albin, AE, Andrey, Bryan, Channing, DavidK, Gabe, Gladstone, Hanson, Joey, Josh, Katy, KevinT, Max, Sabrina, SQ, Tibo, TZ, Will)에게 잊지 못할 경험을 감사드립니다.
와장창.