V7가 Civitai에서 추론용으로 공개되었고, 체크포인트 등은 곧 제공될 예정입니다. 데이터·캡셔닝·T5 전환 등에서의 시행착오와 개선 계획(V7.1, V8 편집 모델), 그리고 멀티모달 캐릭터 플랫폼 Fictional을 소개합니다.
TL;DR: 기다리게 해서 죄송합니다! V7는 이제 Civitai에서 추론용으로 이용 가능하며, 체크포인트는 며칠 내 공개됩니다. V7는 매우 강력하지만 길들이기 어려운 면이 있어—곧 V7.1에서 이를 개선할 예정입니다. V8 편집 모델도 진행 중이며, 그 과정에서 WIP를 공유하겠습니다. 그리고 꼭 FictionalAI를 사용해 보세요—Pony가 가능해지는 기반입니다.
여러분, 정말 오래 걸렸고 V7 출시 일정이 많이 밀린 점 진심으로 사과드립니다! 우선 Civitai에서 온사이트 생성용 V7를 공개하고, 앞으로 며칠과 몇 주에 걸쳐 체크포인트, GGUF, Comfy 워크플로, LoRA 학습 가이드를 차례로 배포하겠습니다. 그동안 저희가 어떻게 V7에 도달했는지, 무엇을 배웠는지, 그리고 회사 차원에서 무엇을 하고 있는지 공유하고자 합니다. 하지만 먼저…
V6 이후에는 기반으로 삼을 뚜렷한 베이스 모델이 없어서, 차세대 V7를 어떻게 만들지 전면 재고해야 했습니다. 당시엔 제로부터 모델을 만들 만큼 역량이 충분치 않다고 판단해, 좋은 베이스가 필수였죠. 여러 모델을 평가한 끝에 AuraFlow와 Flux 사이에서 선택을 저울질했는데, 둘 다 각자의 트레이드오프가 있었습니다. 전체 비교는 링크한 글을 참고해 주세요. 또한 V7 제작 과정에서 기술적 난관도 상당히 많았는데, 이에 대해서는 아래에서 더 이야기하겠습니다.
텍스트-투-이미지 생태계도 요동쳤습니다—Stability AI 관련 논란, 그리고 이미지 생성 분야에서 합법적으로 사업을 만들려는 주체들에 대한 단속 강화가 있었습니다. 인과관계는 아직 불분명하지만, 몇몇 대형 기업들이 상용 폐쇄형 제품을 개선·출시하는 한편, 투자자들은 새로운 모델 중심 팀에 대한 관심을 대부분 잃어버린 "분위기 전환"이 뚜렷했습니다. 심지어 BFL 같은 검증된 플레이어도 모멘텀을 유지하는 데 어려움을 겪었죠(약속했던 비디오 모델은 어디에?). 반면 중국은 급속히 따라잡아 놀라운 모델들을 대거 선보였고—폐쇄형은 물론 놀랍게도 Apache 2 라이선스의 오픈소스 모델까지—이미지에 그치지 않고 비디오까지 범위가 확장되었습니다. 이는 저희에게도 영향을 미쳤습니다—저희가 아무리 민첩하게 움직여도, 데이터 수집과 학습 중의 실험을 감안하면 모델을 만드는 일은 비용이 많이 듭니다.
결국 저희는 사람들이 상상 속 캐릭터를 만들 수 있도록 돕는—우리가 사랑하는 것을 만들기 위한—자원을 확보하려고 열심히 뛰어다녔습니다. 그와 관련해… 또 하나의 발표가 있습니다!

초기 Pony Diffusion 사용자라면, 이 프로젝트가 탄생한 배경이 저희의 초기 캐릭터 플랫폼을 위한 초상 사진과, StyleGAN에 대한 저의 답답함이었다는 걸 아실 겁니다. 맞습니다. Pony의 기원은 인터랙티브 멀티모달 캐릭터 플랫폼의 초기 버전을 탄생시킨 GPT-2의 첫 릴리스까지 거슬러 올라갑니다. 그때부터 저희의 꿈은 사람들이 상상할 수 있는 어떤 캐릭터든 만들고, 보고, 상호작용할 수 있도록 하는 것이었습니다. 이제 사용자가 그 꿈을 이루도록 돕는 플랫폼을 만들었습니다!
Fictional은 텍스트, 이미지, 보이스, 그리고(곧) 비디오를 통해 AI 캐릭터가 생동하는 새로운 멀티모달 플랫폼입니다. Pony V7, V6, Chroma, Seedream 4 및 기타 첨단 모델로 구동되어, 자신만의 삶을 살고 이야기를 나누는 캐릭터를 발견하고, 만들고, 상호작용할 수 있습니다.
Fictional은 V7 같은 Pony 모델 개발을 가능케 하는 기반이기도 합니다. 멀티모달 AI 캐릭터의 미래에 기대가 되신다면, iOS 또는 Android에서 Fictional을 다운로드하시고 저희의 미래를 함께 만들어 주세요!
iOS: https://apps.apple.com/us/app/fictional/id6739802573
Android: https://play.google.com/store/apps/details?id=ai.fictional.app
이제, V7 제작 과정에서 겪었던 몇 가지 기술적 도전 과제에 대해 이야기해 보겠습니다.
학습 데이터셋을 3천만 장 이상으로 확장했고, 그중 약 1천만 장을 실제 학습에 사용했습니다. 소비하는 데이터셋의 종류를 크게 늘렸고, 학습에서 제외하고자 하는 콘텐츠를 더 잘 감지하도록 개선했습니다. 흥미로운 업데이트 하나: 처음으로 AI 생성 콘텐츠를 완전히 배제하지 않았습니다. 이전에는 스타일 제어가 충분치 않아 모델의 스타일이 과도하게 변할 것을 우려했지만, 스타일 클러스터에 대한 연구가 이 문제를 완화하는 데 도움이 되었습니다. 앞으로는 합성 콘텐츠의 비중을 더 늘릴 계획이며, 자체 생성 루프도 포함해 캐릭터 인식, 특히 스타일 블렌딩을 개선하겠습니다.
캡셔닝 접근도 진화했습니다. 초기 V7 데이터셋에 대해서는 저희가 파인튜닝한 InterVL 모델(곧 공개 예정)로 광범위하게 캡셔닝을 수행했는데, 준수한 성능이었지만 확장이 어려웠습니다. 그 결과 각 이미지당 캡션을 한 개만 달게 되었고, 매우 서술적인 캡션을 우선시했는데, 이것이 V7의 프롬프트 적응 불안정성에 일조했다고 보고 있습니다. 현재는 Gemini 기반 캡션으로 전환했으며, OCR에서 이전 기술을 능가하는 매우 높은 품질을 보여주고, 다양한 길이의 다중 캡션을 이미지별로 부여할 수 있으며, 캡션 가능한 콘텐츠의 범위도 놀라울 정도로 넓습니다.
Pony 모델은 생성 시 품질 바이어스를 주기 위해 점수 태그를 사용합니다. 기존에는 ViT-L/14 임베딩을 입력으로 받는 단순 MLP를 사용해 0~1 범위의 점수를 출력했고(이 점수를 score_0부터 score_9로 변환해 캡션에 사용), 일종의 “masterpiece” 정의를 CLIP 모델에 묻는, 더 복잡하고 의견성 있는 방식이었습니다. 이런 기법의 장점은 많습니다. OpenAI가 학습한 CLIP은 시각·텍스트 임베딩 모두에서 폭넓은 지식을 지니고 있고, SDXL 같은 모델도 프롬프트 처리에 ViT-L을 사용하므로 학습 데이터와 모델의 텍스트 이해 간 정렬도 좋아집니다.
다만 OpenAI CLIP은 생성과 데이터셋 처리 모두에서 성능이 좋지만, 우려도 있었습니다. 이 CLIP 모델은 “리워드 해킹” 실패 사례가 있어 “보기 좋은” 것에 대한 정의가 인간의 기대와 어긋날 수 있습니다. 초기 AI 생성 이미지에서 흔하던 기묘한 대비와 플라스틱 같은 셰이딩을 본 적이 있다면—그 가장 큰 이유 중 하나가 CLIP입니다.
또 하나는 이 CLIP 버전이(오픈AI가 아닌) 많은 최신 모델들에 의해 크게 앞서졌거나, 아예 CLIP을 비전 트랜스포머 기반 모델로 대체해야 한다는 점에 대한 고민이었습니다. 이를 검증하기 위해 다양한 모델 아키텍처로 테스트를 진행했고, 다음 두 가지를 발견했습니다:
요약하면: 충분한 품질 데이터를 수집하는 즉시 CLIP-ViT 결합 아키텍처 채택에 매우 긍정적입니다(놀랍지 않게도 Seedream 같은 모델들도 유사한 결론에 도달했습니다).
텍스트 렌더링은 V7의 목표가 아니었지만, V6에 비해 현저히 개선되었음에도 기본 AuraFlow나 프런티어 모델 대비 경험이 떨어집니다. 주된 원인은 텍스트가 없는 이미지에 초점을 맞춘 학습 데이터셋이라고 봅니다. 이런 데이터셋으로 광범위하게 학습하면서, 모델이 양질의 텍스트를 출력하는 능력이 저하된 것이죠. 이 문제는 간단하지 않습니다—예를 들어 텍스트 렌더링에 뛰어난 Seedream 같은 프런티어 모델은 학습 데이터의 절반을 텍스트가 있는 이미지로 구성하며, 자연 데이터와 합성 텍스트 데이터가 혼재합니다. 이런 데이터셋을 만드는 것은 대규모 프로젝트이자 시간·비용이 많이 드는 일로, Pony 같은 모델에겐 과한 투자일 수 있습니다. 그럼에도 V8에서 다음 두 가지 전략으로 텍스트 렌더링을 개선하고자 합니다:
SOTA급 텍스트 렌더링까지 기대하진 않지만, 간단한 대사 상자나 UI 정도는 충분히 구현되길 바랍니다.
V7의 큰 변화 중 하나는 점수 태그에 더해 스타일 클러스터 태그를 도입한 것입니다. 사진부터 3D, 스케치부터 디지털 일러스트까지 다양한 콘텐츠 유형에 대응하는 정밀한 스타일 분류기를 개발했고(캡셔닝 Colab과 함께 곧 공개), 전체 데이터셋에 적용했습니다. 하이라이트 샘플의 일부에서 이를 확인할 수 있을 것이며, 저희는 계속해서 스타일 클러스터(일명 슈퍼 아티스트)가 Pony 모델에서 스타일 지원을 발전시키는 올바른 방향이라고 믿습니다. 안타깝게도 V7에서 이 태그들의 효과는 아직 제한적입니다(아래 한계 참조). 그래서 V7.1에서 이를 개선하는 작업을 진행 중입니다.
V7에서 가장 흥미로운 발견 중 하나는 CLIP에서 T5로 전환했을 때의 효과입니다. 이 결정에는 충분한 이유가 있습니다. CLIP은 텍스트 정보의 많은 중요한 부분을 인코딩하는 능력이 제한적이어서 모델의 프롬프트 이해를 제약합니다. T5가 V7의 요구 전 범위를 충분히 표현할 수 있을지 우려가 있었지만, 그 자체로는 문제가 되지 않았습니다. AuraFlow에 쓰인 T5는 Pile T5 변형이지만, 기본 T5만으로도 넓은 범위의 콘텐츠를 포괄합니다.
다만 아직 확정적인 답을 못 찾은 다른 문제가 있음을 발견했습니다. 맥락을 드리자면, V7 학습 중에 이전의 모든 Pony 모델들(여러 CLIP 인코더 사용)과 비교했을 때, V7은 스타일과 콘텐츠를 같은 수준으로 혼합하는 능력을 잘 습득하지 못했습니다. 예컨대 CLIP을 사용하는 충분히 학습된 많은 모델은 특정 캐릭터의 초상화를 애니메이션 스타일로 본 적이 없더라도, 애니 이미지 자체는 많이 봤기 때문에 “캐릭터 X를 애니 스타일로”라는 요구에서 콘텐츠와 스타일을 충분히 혼합해 냅니다. 그러나 T5에서는 이것이 잘 작동하지 않는 사례가 많이 보였는데, 스타일과 콘텐츠를 혼합하는 능력이 떨어지거나, 콘텐츠 설명의 일부가 스타일 변경 지시를 아무리 강하게 해도 특정 스타일을 강제하는 경우가 있었습니다. 안타깝게도 동일한 문제가 미학 점수 태그(score_X)에도 나타나, 프롬프트의 나머지 요소를 이겨내고 심미성 바이어스를 유도하지 못했습니다.
우리는 T5 토크나이제이션의 영향, 캡션 다양성의 영향 등 많은 실험을 했지만, 이 문제를 유의미하게 완화할 만큼 충분한 결과는 얻지 못했습니다. 현재 작동 가설은 모델이 프롬프트의 콘텐츠 요소와 스타일 요소를 충분히 구분해 학습하지 못한다는 점이며, 단일 원인이라기보다 여러 요인이 복합적으로 작용하는 것으로 보입니다. 이를 개선하기 위해 V7.1에서는—더욱 다양한 캡셔닝, 학습 시간 연장, 기존 데이터를 다양한 스타일로 다변화하는 매우 새로운 실험적 합성 파이프라인 등—여러 변경을 진행 중이며, 모델이 ‘스타일’ 개념을 더 잘 이해하도록 돕고자 합니다.
제로부터 전체 모델을 학습할 때는 보통 더 작은 해상도(예: 512x512)로 시작해 학습의 대부분을 그 해상도에서 진행합니다. 이후 단계에서 더 높은 해상도와 다양한 종횡비의 이미지를 도입해 모델에 품질을 학습시키죠. 이는 합리적입니다. 512px에서 1024px로 올라가면 학습 시간이 4배 늘어나므로, 품질과 자원 사이에서 섬세한 균형이 필요합니다.
반면 파인튜닝에서는 보통 가능한 가장 높은 해상도를 선택합니다. 예를 들어 V6는 최대 1280px 해상도에서 학습되어, 최종 모델이 SDXL의 1024px 이상 해상도에서도 더 일관된 결과를 내도록 했습니다. V7에서도 가능한 한 가장 높은 해상도를 유지하는 같은 패턴을 따랐고, 이는 결국 학습 시간을 과도하게 늘리는 비최적의 결정이었다고 봅니다. V6조차 학습 데이터 규모 때문에 "파인튜닝"의 경계를 밀어붙였는데, V7에서는 우리의 데이터셋(표현되는 스타일이 매우 다양함)과 AuraFlow(리얼리즘에 집중)의 기대 이상 격차로 인해, 풀 해상도 이미지로 학습하는 것이 합리적 범위를 넘어섰던 것 같습니다.
정답은 없지만, V7.1에서는 더 작은 해상도(예: 512px) 데이터셋으로 시작해 그 영향을 확인해 보려 합니다.

“Pony인데 베이스가 Flux라면?” 하고 궁금했던 분들께는 Lodestone이 개발한 Chroma를 권합니다. 저희도 이 모델을 사랑하고, 오랫동안 이 프로젝트를 후원해 왔습니다.
둘은 프롬프트 적응력이 비슷합니다.
저에게 Chroma는 몇 가지 중요한 질문과 관찰을 확인시켜 주었습니다:
V7이 기대한 기준에 미치지 못한 영역이 있습니다—특히 콘텐츠와 스타일을 구분하는 능력이 부족해 특정 프롬프트 요소가 다른 부분이 덮어쓰지 못하는 스타일을 강제하는 “프롬프트 고정” 현상입니다. 예를 들어 “portrait”가 들어가면, 아무리 강한 스타일 태그를 줘도 “사진 스타일”이 강제로 적용되는 식입니다. 이는 T5, 불충분한 학습, 데이터 이슈가 복합적으로 얽힌 복잡한 문제입니다. 스타일과 품질을 위한 추가 인코더를 도입하는 등 V7 특화 해킹을 여러 가지 시도했지만, 학습 초기부터 하지 않는 한 비효율적이었습니다. 학습 증가와 이 문제에 특화된 합성 데이터를 사용해 V7.1에서 적어도 부분적으로 완화할 것으로 기대하지만, (Chroma에서도 유사한 문제가 있듯) 우리가 쓰는 아키텍처의 근본적 한계일 가능성도 있습니다.
업데이트된 V7을 학습 중이며(스타일 클러스터 선택을 강화할 스타일 LoRA도 함께), 이번엔 18개월을 또 기다리게 하진 않겠습니다! V7 라인의 잠재력을 최대한 끌어올려, 합리적인 GPU 요구사항으로 많은 사용자가 접근 가능한 매우 유능한 모델로 제공하고자 합니다.
또한 V7.1은 Pony 라이선스 하의 마지막 모델이 될 것이며, 다음 세대 모델부터는 Apache 2 라이선스로 전환합니다.
Pony 모델 개발을 꾸준히 지켜보신 분이라면, 제가 LoRA를 좋아하지 않고 ControlNet의 큰 팬도 아니라는 걸 아실 겁니다. 이런 기술은 유용하긴 하지만, 늘 "해킹"처럼 느껴졌습니다. 그래서 편집(editing) 모델의 부상을 무척 반가워합니다. 포즈 컨트롤을 쓰고 싶나요? 포즈 이미지를 하나 주면 됩니다. 특정 스타일을 원하나요? 샘플 이미지를 몇 장 제공해 모델이 그리는 법을 알려주면 어떨까요?
편집 모델은 오래전부터 계획해 왔고, 원래는 OmniGen을 쓸 것으로 예상해 PomniGen이라 이름 붙였는데(이 이름이 너무 마음에 들어서 포기 못 하겠습니다), 그 이름을 유지하겠습니다. 실제로는 QWEN/QWEN Editing의 대안입니다. 저희는 Pony 색채가 강한 대규모 편집 데이터셋을 정리 중이며, 다양한 캐릭터 중심 작업에서 얼마나 잘 동작하는지 기대하고 있습니다.
또한 이번에는 완전히 학습을 마친 모델을 기다리지 않고, 중간 체크포인트도 계속 공유하겠습니다!
아무튼, 다시 Pony로 돌아가겠습니다—그리고 Fictional도 꼭 확인해 보세요!