대규모 언어 모델은 언어별 학습 데이터의 풍부함에 따라 성능이 달라질 수 있다. 고자원·저자원 언어의 차이, 임베딩 공간의 불균형, 파인튜닝을 통한 개선, 그리고 영어·스페인어 비교 테스트 결과를 살펴본다.
대규모 언어 모델(LLM)은 일상 업무를 혁신하며 우리 일상 속 일부가 되었고, 다양한 활동에서 놀라운 역량을 보여주고 있습니다. 하지만 성능은 우리가 사용하는 언어에 따라 달라지는 경우가 많습니다. 이는 특히 다국어 환경에서의 배포, 그리고 저자원 언어까지 지원을 확장할 때 중요한 함의를 가질 수 있습니다.
언어는 LLM을 학습시키는 시점에 사용할 수 있는 학습 데이터의 양에 따라 대체로 분류됩니다. 영어, 중국어, 스페인어 같은 고자원 언어는 방대한 텍스트 데이터의 혜택을 받으며, 이는 균일하고 잘 구조화된 임베딩 공간을 만드는 데 도움이 됩니다. 단어, 구, 개념 사이의 의미 관계를 나타내는 이러한 임베딩은 고자원 언어에서 더 일관되고 안정적인 경향이 있습니다. 이러한 균일성 덕분에 LLM은 해당 언어들에 대해 다양한 작업에서 신뢰할 수 있게 동작합니다.
반대로 저자원 언어는 다른 현실에 직면합니다. 고품질 데이터의 가용성이 제한적이기 때문에, 이러한 언어의 임베딩 공간은 종종 성기고 덜 균일합니다. 이 불일치는 모델이 미묘한 의미 관계를 포착하는 데 어려움을 겪게 하며, 성능 저하로 이어질 수 있습니다. 예를 들어 감성 분석, 기계 번역, 질의응답 같은 작업은 저자원 언어에 적용될 때 덜 정확한 결과를 낼 수 있습니다.
좀 더 쉽게 말하면, 인생 경험이 많은 지혜로운 노인(고자원 언어)과 아직 많이 살아보지 못한 어린아이(저자원 언어)에게 이야기하는 것처럼 생각할 수 있습니다. 물론 인생에서 많은 경험을 한 지혜로운 노인은 조언을 해주기에 더 적합합니다. 당신의 감정을 더 잘 이해하고 공감할 수 있어서 더 나은 조언으로 이어집니다.
LLM의 학습 과정은 본질적으로 데이터가 많은 언어에 유리합니다. 고자원 언어는 학습 중 손실 최적화를 지배하게 되어, 임베딩 공간이 해당 언어들에 더 잘 맞춰지도록 튜닝됩니다. 반면 저자원 언어는 종종 충분히 대표되지 못해, 다음과 같은 임베딩 공간을 만들게 됩니다:

여기서는 8개 언어에 대한 Gemma 7B의 임베딩 공간에서 어떤 일이 일어나는지 볼 수 있습니다. 어떤 것이 고자원 언어이고 어떤 것이 저자원 언어인지 구분할 수 있나요?
Qwen 모델 같은 최근 LLM 개발의 진전은 파인튜닝이 이러한 문제를 어떻게 완화할 수 있는지 보여줍니다. 파인튜닝은 사전학습된 모델을 목표 언어 또는 작업에 맞춘 특정 데이터로 추가 학습시키는 것을 의미합니다. 이러한 추가 학습은 저자원 언어의 임베딩 공간을 고자원 언어의 임베딩 공간과 더 잘 정렬되도록 돕습니다. 방법은 다음과 같습니다:

이 그래프들은 몇 가지 서로 다른 모델에서, LLM의 층(layer) 전반에 걸쳐 영어 성능과의 유사도를 보여줍니다. Qwen model에서는 중국어가 마지막 층들에서 성능 향상을 보이는 유일한 고자원 언어라는 점에 주목하세요. 이는 중국어 학습 데이터에 특화된 파인튜닝 작업 덕분입니다.
우리는 자체 Agent Quality Studio를 사용해 영어와 스페인어 성능을 비교하는 몇 가지 테스트를 진행했습니다.

영어와 스페인어 모두에서 매우 구체적이고 도전적인 질문들을 던졌고, 자동화된 테스트를 통해 답변들이 충분히 유사한지 판단했습니다. 이 테스트에서는 영어를 절대적으로 정답으로 두었다는 점에 유의하세요. 즉, 우리는 답변이 얼마나 ‘정확한가’를 측정하는 것이 아니라, 영어 답변과 얼마나 ‘유사한가’를 측정합니다. 어떤 경우에는 영어 답변 자체가 최적이 아닐 수도 있습니다. 다만 LLM들 사이에서 영어가 표준이기 때문에 영어와의 유사도를 측정합니다.
두 모델 모두 흥미로운 한 가지 사례를 제외하고는 모든 질문을 맞혔는데, 그 사례에서는 스페인어 모델이 오히려 더 잘했습니다! 다만 이는 스페인어에서 특정 단어들이 가질 수 있는 뉘앙스(함의) 때문일 수도 있습니다.

저자원 언어는 비균일한 임베딩 공간을 유발할 수 있으며, 이것이 LLM 성능에 상당한 부정적 영향을 준다는 것을 알게 되었습니다. 하지만 테스트 결과에서 보았듯이, STEM 같은 도전적인 주제에서도 고자원 언어들 사이에서는 사실 큰 문제가 되지 않습니다. 그렇다면 이것이 LLM의 일상적 운영에 실제로 어떤 영향을 미칠까요? 이는 사용 사례에 크게 좌우되겠지만, 일반적으로 고자원 언어 범위 안에서 사용한다면 솔직히 크게 걱정할 필요는 없습니다. 따라서 AI 에이전트를 최대한 활용하기 위해 다음을 기억해 두세요: