avatarl: 순수 강화학습으로 언어 모델을 처음부터 학습하기

ko생성일: 2025. 8. 15.

avatarl은 전통적 교차 엔트로피 대신 비평가(critic)와 현실(정답)을 혼합한 연속 보상 신호를 사용해 사전학습을 RL로 재구성한다. 학생과 비평가의 top-k, 정답을 통합한 능동 토큰 필터링·스무딩으로 밀집 보상 지형을 만들고, 동시 평가로 효율적인 정책경사 학습을 수행하는 방법과 초기 실험 결과를 소개한다.