Kimi K2 출시 후 소회: 이제는 단순한 챗봇 그 이상

ko생성일: 2025. 7. 13.갱신일: 2025. 7. 30.

Kimi K2 공개 이후 경험과 고민을 기록한 글입니다. 챗봇을 넘어선 새로운 AI 상호작용 방식, Tool Use와 Agent, 오픈소스의 의미, 그리고 AGI를 향한 집념을 다룹니다.

Kimi K2 출시 이후: 이제는 단순한 챗봇 그 이상

며칠 전, 반년 넘게 준비했던 Kimi K2를 드디어 공개했습니다. 오픈 전 밤새 작업하고, 이틀 정도 푹 자고, 드디어 조금 여유가 생겨 이렇게 소회를 남깁니다.

면책: 아래 내용은 전부 저의 개인 견해일 뿐, 회사 입장과 무관합니다.

또 한 번 면책: 이 글은 전통적 수작업으로 썼습니다 (Github Copilot을 고급 입력기로만 활용).

“프론트엔드 코딩”에 대해

Claude 3.5 Sonnet 이후로 AI의 프론트엔드 구현 능력이 실용 단계에 이르렀습니다. 그 뒤 나온 거의 모든 모델이 프론트엔드 코딩 실력을 뽐내죠. Kimi K2 역시 예외일 수 없었습니다. 여기에 제 나름의 생각을 나누고 싶습니다.

그동안 텍스트 AI의 기본 출력은 항상 마크다운이었고, 제품은 고급 챗봇이었습니다. 사람들이 챗봇에 기대하는 건 질문에 답한다거나 글을 써 준다거나, 인간다운 감정적 교류를 제공하는 정도였죠. 과거 한 번 피드백에서 "이 글을 다시 재배치해서 A4 한 장에 담아줘"라는 요청을 봤는데, 순수 텍스트에선 불가능한 일이라며 당시에는 농담처럼 넘어갔습니다.

올 3월, Kimi Researcher 프로젝트가 시작됐습니다. OpenAI나 Gemini의 Deep Research가 내놓는 최종 결과물은 전통적 텍스트 보고서뿐이었죠. 우리는 AI의 프론트엔드 코딩 능력을 활용해 더 다채롭고 인터랙티브한 보고서를 줄 수 없을까 고민했고, 결국 Kimi Researcher에서 새로운 아이디어가 모습을 드러냈습니다. 유저 평가도 괜찮았습니다.

하지만 이 아이디어를 생각하다 떠오른 게 있습니다. 누구도 텍스트 AI의 기본 출력이 마크다운이어야 한다고 정한 적 없죠. 만약 '프론트엔드 코딩'이 AI의 기본 상호작용 방식이라면, 제품 형태는 완전히 달라질 겁니다.

즉, 사용자와 AI의 상호작용이 chat-first(채팅 중심)에서 artifact-first(성과물 중심)로 바뀐다면? 사용자가 질문하면, AI는 그 자리에서 작은 프로젝트를 시작해 프론트엔드 애플리케이션을 만들어냅니다. 사용자는 거기에 추가 요구, 수정, 반복을 하며 성과물을 중심으로 AI와 교류합니다.

눈치 빠른 분은 벌써 아셨겠죠. 바로 cursor/aider/openhands 부류와 비슷합니다. 기술적으로 AI 코딩의 영역이지만, 만약 제품을 잘 디자인해서 코딩 과정 자체를 숨기면, 프로그래밍을 모르는 유저 입장에선 "AI에게 말했더니 갑자기 PPT, 플로우차트, 게임까지 만들어줬다"는 새로운 경험이 됩니다. 이제 AI는 "A4에 맞춰 글을 재배치"해주는 것은 물론 색상 바꾸기, 애니메이션 추가 등도 가능합니다. 전통 챗봇을 완전히 뛰어넘는 체험입니다.

저는 청명절 연휴 하루를 투자해 aider의 워크플로우와 프롬프트를 참고해서 데모를 만들어봤습니다. 여전히 챗봇 인터페이스인데, 예를 들어 "샤오미 Su7 소개해줘"라고 하면, 기존 챗봇처럼 텍스트 요약을 내놓는 대신, 바로 이미지와 텍스트가 조화된, 인터랙티브한 PPT 형식 웹페이지를 뚝딱 만들어줍니다. "배경을 검은색으로 바꿔줘", "Su7 Ultra도 추가 소개해줘" 등도 곧바로 됩니다.

이 데모를 제품팀에 제안하니 모두 재밌어 했지만, 워낙 할 일이 많다며 차기 과제로 미뤘습니다. 지금은 K2도 출시했고, Kimi Researcher도 서비스 중이니 조만간 놀랄 만한 변화가 오리라 믿습니다.

2009년, 대학 2학년 때 한 선배가 "20년 후 컴파일러는 프로그래머가 'Firefox 하나 만들어줘' 하면 직접 2일간 계산해서 Firefox를 내놓을지 모른다"고 했었습니다. 그땐 농담 같았지만, 이젠 20년도 채 안 되어 현실에 다가섰습니다.

Tool Use & Agent에 대하여

올해 초 MCP가 유행하기 시작했습니다. 저희도 Kimi에 MCP(외부 툴 연동)를 넣을 수 없을까 고민했습니다. 당시 K1.5 개발 중 RLVR(Verifiable Rewards 강화학습)로 괜찮은 성과를 내며, 진짜 MCP 서버들을 RL 환경에 물려서 합동으로 학습시킬 생각도 했죠.

곧 벽에 부딪혔습니다. 우선 배포가 너무 까다로웠어요. 예를 들어 Blender MCP는 이미 blender가 깔린 유저라면 쉽지만, RL 환경에 blender를 올리는 건 엄청난 부담이었습니다. 더 근본적으로는, 많은 3rd party 툴이 로그인 등 조건이 필요해서, 예를 들어 Notion MCP를 학습하려고 일일이 계정을 만드는 것도 말이 안 됐죠.

그래서 관점을 바꿨습니다. 제 가설은 이렇습니다: 모델은 이미 프리트레이닝 과정에서 툴 사용법을 익혔다, 우리는 그 능력만 끌어내면 된다. 쉬운 얘기로, 프리트레이닝 데이터엔 엄청난 양의 코드와 다양한 API 호출 사례가 있습니다. 각 API 호출을 도구라고 보면 모델은 이미 다 배운 셈입니다. 또, 프리트레인 모델 자체가 풍부한 상식과 지식을 갖고 있으니, Linux 터미널 흉내도 잘 내죠. 즉, 단 몇 개 예제만으로 터미널 도구 호출 능력은 금방 이끌어낼 수 있습니다.

결국 우리는 모델이 스스로 방대한 Tool Spec과 사용 시나리오를 합성하는 정교한 워크플로우를 설계했고, multiagent 방식으로 매우 다양한 툴 호출 데이터를 만들어냈습니다. 효과는 꽤 괜찮았습니다.

Agent에 대해 제 생각은 이렇습니다. 아래처럼 할 수 있으면 꽤 괜찮은 에이전트 모델이라고 봅니다:

task = get_user_input()
history = [task, ]
while True:
    resp = model(history, toolset)
    history.append(resp)
    if not resp.tool_calls:
        break

    for tool_call in tool_calls:
        result = call_tool(tool_call)
        history.append(result)

물론 이 과정을 더 발전시킬 수도 있습니다. 예를 들어 toolset을 모델이 스스로 동적으로 만드는 것도 가능하죠(alita 참고).

학습 측면에서, 긴 과제를 탐색, 사고, 도구 호출, 환경 피드백, 오류 재시도, 출력 등 다양한 궤적과 양식으로 분해해서 데이터로 만들면, 이런 에이전트 능력을 충분히 이끌어낼 수 있습니다.

아직 우리는 Agent 관련 역량 개발의 초기에 있고, 프리트레인에 경험적 데이터가 많이 누락되어 있습니다(설명하기 어려운 체험 등). 차세대 프리트레인 모델에 더 큰 잠재력이 있다고 생각합니다.

왜 오픈소스인가

첫째, 당연히 이름을 알리고 싶어서입니다. K2가 만약 폐쇄형 서비스였다면 이렇게 많은 주목과 논의는 없었을 겁니다. 어쩌면 Grok4처럼 잘 만들어도 부당하게 욕만 먹었을지도 모릅니다.

둘째, 커뮤니티의 힘으로 기술 생태계를 발전시킬 수 있기 때문입니다. 오픈한 지 24시간도 안 돼 MLX 구현, 4bit 양자화 등 다양한 확장 버전이 올라왔고, 이런 부분은 저흰 인력이 부족해 직접 하기 힘든 일입니다.

그러나 더 중요한 이유는 다음과 같습니다: 오픈소스는 더 높은 기술적 기준을 요구하며, 이는 더 나은 모델을 만들도록 우리를 몰아붙입니다. 이것이 AGI라는 목표와 더 일치합니다.

이게 왜 그런지 헷갈릴 수 있지만, 사실 간단합니다. 오픈소스는 결국 누구나, 어떤 환경에서도 같은 weight로 동일한 효과를 쉽게 재현할 수 있어야 한다는 뜻입니다. 허접한 해킹이나 편법, 내부 특권을 쓸 수 없게 됩니다.

폐쇄형 챗봇 서비스는 사용자 입장에서 어떤 워크플로우와 몇 개 모델을 쓰는지 아무도 모릅니다. 소문에 따르면, 일부 대기업은 인입 뒤에 수십 개 모델, 수백 종류 분류기와 무수한 워크플로우가 숨겨져 있으면서, "MoE(전문가 혼합) 모델"이라 부릅니다. "사용자 경험 우선" 관점에서는 매우 자연스러운 선택이고, 단일 모델보다 효율적이지만, AGI를 지향하는 회사라면 이 방식은 기술 진보를 심각하게 저해합니다. 대기업처럼 버튼마다 PM이 붙는 환경에선 더더욱 경쟁이 어렵죠.

그래서 오픈소스는 우회로를 차단하기에 오히려 더 높은 품질의 모델과 제품을 탄생시킨다고 봅니다.(누군가 Kimi K2로 저희보다 더 재미난 응용을 만든다면, 반드시 제품팀을 자극해서 뭔가를 해내겠습니다.)

결심, 그리고 논란이 될 만한 소회들

작년 Kimi의 대규모 광고 집행이 많은 논란을 낳았습니다. 지금도 diss(험담)하는 목소리가 남아 있습니다.

하하, 저는 그저 작은 개발자일 뿐이니 그 결정의 배경을 알지도 못하고, 아무 말도 안 하겠습니다.

한 가지만 객관적으로 말씀드리자면: 올 초 광고를 멈춘 뒤, 국내 여러 앱스토어에서 kimi 검색 시 첫 페이지에조차 Kimi가 보이지 않았고, 애플 앱스토어에서 kimi를 검색해도 도우파오(경쟁 서비스)가 노출되거나, 모 대형 포털 검색에선 "DeepSeek-R1 만땅 버전" 광고만 나왔습니다.

이렇게 열악한 인터넷 환경에서도, Kimi는 광고 재집행을 하지 않았습니다.

올 초 DeepSeek-R1이 폭발적으로 성장할 때, 많은 이들이 "Kimi는 끝난 게 아닌가, DeepSeek를 증오하지 않느냐"고 묻습니다. 오히려 많은 동료들은 DeepSeek-R1 붐을 반기며, 하드코어 기술력이 최고의 마케팅임을 증명했다고 생각했습니다. 좋은 모델만 있으면 시장은 인정해줍니다. 우리가 가는 길이 틀리지 않았단 믿음, 그 길이 정답이라는 확신이 더 굳어졌죠. 유일한 아쉬움은: 그 길을 우리가 '최초'로 걷지 못했다는 점뿐입니다.

올 초 회고 미팅에서, 저는 꽤 과감한 제안을 했는데, 창업자 질린의 후속 행동은 제가 상상한 것보다 훨씬 더 과감했고, 예를 들어 K1 계열 모델은 더 이상 업데이트하지 않고 리소스를 K2와 (말할 수 없는 여러 프로젝트)에 집중하고 있습니다.

최근 Agent 관련 제품이 인기를 끌면서, Kimi는 더 이상 대형 모델에 집중하지 말고 Agent에 올인하라는 주장도 많았죠. 그런데 실제 대부분의 Agent 제품은 Claude(Anthropic의 LLM) 없이는 아무것도 아니라는 점, Windsurf가 Claude API 공급 중단으로 휘청이는 사례가 그걸 잘 보여줍니다. 2025년, AI의 지능 한계는 오직 모델이 결정합니다. AGI를 지향하는 회사에서 '모델의 상한'에 도전하지 않는다면, 저는 당장이라도 회사를 떠날 겁니다.

AGI 추구는 정말로 외줄 타기와 같습니다. 한순간이라도 흔들리면 끝입니다. 당신의 도전이 성공할진 모르지만, '머뭇거림'은 반드시 실패로 이어집니다. 2024년 6월 ZhiYuan(智源) 컨퍼런스에서 리 카이푸 선생님이 "투자자로서 AI 응용의 ROI(투자수익률)만 본다"고 할 때, 그가 창업한 회사는 오래 못 버틸 거라 직감했습니다. 요즘 AGI를 표방하는 일부 스타트업이 "풀 클로즈드 루프"만이 살 길이라고 말하는 것도 본 적 있는데, 그저 그들에게 행운을 빕니다.

마지막으로

Kimi K2에는 아직도 부족함이 많다는 걸 잘 압니다. 지금 저는 어느 때보다 K3가 간절합니다.