무작위 보상 강화학습, Qwen 2.5에서도 제대로 작동한다

ko생성일: 2025. 5. 28.갱신일: 2026. 1. 16.

수학 분야에서 Qwen 2.5 기반 언어 모델에 무작위, 오류 등 다양한 보상 신호로 강화학습을 적용해도 유의미한 성능 향상이 발생하는 최신 연구를 소개합니다.