OpenAI가 RLHF에 대해 당신을 오해하게 만든 방법

ko생성일: 2025. 8. 18.갱신일: 2026. 1. 5.

저자가 취미로 개발 중인 오픈소스 이미지 캡셔닝 모델 JoyCaption의 베타 원(Beta One) 릴리스를 계기로, LLM 맥락에서의 강화학습(RL)을 SFT에서부터 차근히 확장해 설명하고, RLHF가 단지 ‘안전’과 ‘정렬’만을 위한 것이 아니라 신뢰 가능한 지시 따르기 능력을 만드는 핵심임을 논증한다. 이어 JoyCaption에 적용한 오프라인 DPO 기반 RL 파이프라인, 데이터셋 구축, 심판(판정) 설계, 하이퍼파라미터와 결과를 상세히 공유한다.