사용하는 언어가 AI 에이전트의 성능을 제한하고 있나요? 언어 자원이 LLM 성능에 미치는 영향

대규모 언어 모델(LLM)은 일상 업무를 혁신하며 우리 일상 속 일부가 되었고, 다양한 활동에서 놀라운 역량을 보여주고 있습니다. 하지만 성능은 우리가 사용하는 언어에 따라 달라지는 경우가 많습니다. 이는 특히 다국어 환경에서의 배포, 그리고 저자원 언어까지 지원을 확장할 때 중요한 함의를 가질 수 있습니다.

고자원 언어와 저자원 언어

언어는 LLM을 학습시키는 시점에 사용할 수 있는 학습 데이터의 양에 따라 대체로 분류됩니다. 영어, 중국어, 스페인어 같은 고자원 언어는 방대한 텍스트 데이터의 혜택을 받으며, 이는 균일하고 잘 구조화된 임베딩 공간을 만드는 데 도움이 됩니다. 단어, 구, 개념 사이의 의미 관계를 나타내는 이러한 임베딩은 고자원 언어에서 더 일관되고 안정적인 경향이 있습니다. 이러한 균일성 덕분에 LLM은 해당 언어들에 대해 다양한 작업에서 신뢰할 수 있게 동작합니다.

반대로 저자원 언어는 다른 현실에 직면합니다. 고품질 데이터의 가용성이 제한적이기 때문에, 이러한 언어의 임베딩 공간은 종종 성기고 덜 균일합니다. 이 불일치는 모델이 미묘한 의미 관계를 포착하는 데 어려움을 겪게 하며, 성능 저하로 이어질 수 있습니다. 예를 들어 감성 분석, 기계 번역, 질의응답 같은 작업은 저자원 언어에 적용될 때 덜 정확한 결과를 낼 수 있습니다.

좀 더 쉽게 말하면, 인생 경험이 많은 지혜로운 노인(고자원 언어)과 아직 많이 살아보지 못한 어린아이(저자원 언어)에게 이야기하는 것처럼 생각할 수 있습니다. 물론 인생에서 많은 경험을 한 지혜로운 노인은 조언을 해주기에 더 적합합니다. 당신의 감정을 더 잘 이해하고 공감할 수 있어서 더 나은 조언으로 이어집니다.

왜 이런 일이 생기나요?

LLM의 학습 과정은 본질적으로 데이터가 많은 언어에 유리합니다. 고자원 언어는 학습 중 손실 최적화를 지배하게 되어, 임베딩 공간이 해당 언어들에 더 잘 맞춰지도록 튜닝됩니다. 반면 저자원 언어는 종종 충분히 대표되지 못해, 다음과 같은 임베딩 공간을 만들게 됩니다:

밀도가 더 낮음: 예시가 적을수록 언어적 뉘앙스의 표현이 약해집니다.
노이즈에 더 취약함: 데이터 부족은 과적합이나 우연한 상관관계(spurious correlations)의 가능성을 높입니다.
고자원 언어와의 정렬이 부족함: 이러한 미정렬은 번역이나 교차언어 이해 같은 다국어 작업에서 부정확성을 유발할 수 있습니다.

Image 1: image

여기서는 8개 언어에 대한 Gemma 7B의 임베딩 공간에서 어떤 일이 일어나는지 볼 수 있습니다. 어떤 것이 고자원 언어이고 어떤 것이 저자원 언어인지 구분할 수 있나요?

불균형 바로잡기: 파인튜닝의 역할

Qwen 모델 같은 최근 LLM 개발의 진전은 파인튜닝이 이러한 문제를 어떻게 완화할 수 있는지 보여줍니다. 파인튜닝은 사전학습된 모델을 목표 언어 또는 작업에 맞춘 특정 데이터로 추가 학습시키는 것을 의미합니다. 이러한 추가 학습은 저자원 언어의 임베딩 공간을 고자원 언어의 임베딩 공간과 더 잘 정렬되도록 돕습니다. 방법은 다음과 같습니다:

데이터 증강(Data Augmentation): 저자원 언어를 위한 합성(synthetic) 또는 큐레이션된 데이터셋을 도입함으로써, 파인튜닝은 임베딩 공간을 더 풍부하게 만듭니다.
다국어 정렬(Multilingual Alignment): 대조 학습(contrastive learning) 같은 기법은 언어 간 표현을 정렬하여, 교차언어 작업에서의 성능을 향상합니다.
작업 특화 최적화(Task-Specific Optimization): 작업 관련 데이터로 파인튜닝하면 저자원 환경에서도 특정 응용에서 모델 성능이 개선되도록 보장합니다.

Image 2: image

이 그래프들은 몇 가지 서로 다른 모델에서, LLM의 층(layer) 전반에 걸쳐 영어 성능과의 유사도를 보여줍니다. Qwen model에서는 중국어가 마지막 층들에서 성능 향상을 보이는 유일한 고자원 언어라는 점에 주목하세요. 이는 중국어 학습 데이터에 특화된 파인튜닝 작업 덕분입니다.

테스트를 몇 가지 돌려보기

우리는 자체 Agent Quality Studio를 사용해 영어와 스페인어 성능을 비교하는 몇 가지 테스트를 진행했습니다.

Image 3: image

영어와 스페인어 모두에서 매우 구체적이고 도전적인 질문들을 던졌고, 자동화된 테스트를 통해 답변들이 충분히 유사한지 판단했습니다. 이 테스트에서는 영어를 절대적으로 정답으로 두었다는 점에 유의하세요. 즉, 우리는 답변이 얼마나 ‘정확한가’를 측정하는 것이 아니라, 영어 답변과 얼마나 ‘유사한가’를 측정합니다. 어떤 경우에는 영어 답변 자체가 최적이 아닐 수도 있습니다. 다만 LLM들 사이에서 영어가 표준이기 때문에 영어와의 유사도를 측정합니다.

두 모델 모두 흥미로운 한 가지 사례를 제외하고는 모든 질문을 맞혔는데, 그 사례에서는 스페인어 모델이 오히려 더 잘했습니다! 다만 이는 스페인어에서 특정 단어들이 가질 수 있는 뉘앙스(함의) 때문일 수도 있습니다.

Image 4: image

마무리 생각

저자원 언어는 비균일한 임베딩 공간을 유발할 수 있으며, 이것이 LLM 성능에 상당한 부정적 영향을 준다는 것을 알게 되었습니다. 하지만 테스트 결과에서 보았듯이, STEM 같은 도전적인 주제에서도 고자원 언어들 사이에서는 사실 큰 문제가 되지 않습니다. 그렇다면 이것이 LLM의 일상적 운영에 실제로 어떤 영향을 미칠까요? 이는 사용 사례에 크게 좌우되겠지만, 일반적으로 고자원 언어 범위 안에서 사용한다면 솔직히 크게 걱정할 필요는 없습니다. 따라서 AI 에이전트를 최대한 활용하기 위해 다음을 기억해 두세요:

가능하다면 고자원 언어를 고수하세요. 영어, 스페인어, 프랑스어, 중국어 등으로 유지하면 전반적으로 더 좋은 결과를 얻을 수 있습니다.
특정 언어에서 가능한 최고의 성능을 정말로 끌어내야 한다면 파인튜닝을 고려하세요. 앞서 보았듯이 이는 특정 언어에서의 성능에 큰 도움이 될 수 있습니다.

참고문헌

Zihao Li "Quantifying Multilingual Performance of Large Language Models Across Languages" arXiv preprint arXiv:2404.11553 (2024).

고자원 언어와 저자원 언어

왜 이런 일이 생기나요?

밀도가 더 낮음: 예시가 적을수록 언어적 뉘앙스의 표현이 약해집니다.
노이즈에 더 취약함: 데이터 부족은 과적합이나 우연한 상관관계(spurious correlations)의 가능성을 높입니다.
고자원 언어와의 정렬이 부족함: 이러한 미정렬은 번역이나 교차언어 이해 같은 다국어 작업에서 부정확성을 유발할 수 있습니다.

Image 1: image

불균형 바로잡기: 파인튜닝의 역할

데이터 증강(Data Augmentation): 저자원 언어를 위한 합성(synthetic) 또는 큐레이션된 데이터셋을 도입함으로써, 파인튜닝은 임베딩 공간을 더 풍부하게 만듭니다.
다국어 정렬(Multilingual Alignment): 대조 학습(contrastive learning) 같은 기법은 언어 간 표현을 정렬하여, 교차언어 작업에서의 성능을 향상합니다.
작업 특화 최적화(Task-Specific Optimization): 작업 관련 데이터로 파인튜닝하면 저자원 환경에서도 특정 응용에서 모델 성능이 개선되도록 보장합니다.

Image 2: image

테스트를 몇 가지 돌려보기

우리는 자체 Agent Quality Studio를 사용해 영어와 스페인어 성능을 비교하는 몇 가지 테스트를 진행했습니다.

Image 3: image

Image 4: image

마무리 생각

가능하다면 고자원 언어를 고수하세요. 영어, 스페인어, 프랑스어, 중국어 등으로 유지하면 전반적으로 더 좋은 결과를 얻을 수 있습니다.
특정 언어에서 가능한 최고의 성능을 정말로 끌어내야 한다면 파인튜닝을 고려하세요. 앞서 보았듯이 이는 특정 언어에서의 성능에 큰 도움이 될 수 있습니다.

참고문헌

Zihao Li "Quantifying Multilingual Performance of Large Language Models Across Languages" arXiv preprint arXiv:2404.11553 (2024).

사용하는 언어가 AI 에이전트의 성능을 제한하고 있나요? 언어 자원이 LLM 성능에 미치는 영향

고자원 언어와 저자원 언어

왜 이런 일이 생기나요?

불균형 바로잡기: 파인튜닝의 역할

테스트를 몇 가지 돌려보기

마무리 생각

참고문헌

관련 추천 글

MemAlign: 확장 가능한 메모리를 통한 인간 피드백 기반 더 나은 LLM 심판 구축

~fpereiro

에이전트를 위한 언어

LLM과 대화하면서 사고력이 좋아진 이유 – Vallified

고자원 언어와 저자원 언어

왜 이런 일이 생기나요?

불균형 바로잡기: 파인튜닝의 역할

테스트를 몇 가지 돌려보기

마무리 생각

참고문헌

관련 추천 글

MemAlign: 확장 가능한 메모리를 통한 인간 피드백 기반 더 나은 LLM 심판 구축

~fpereiro

에이전트를 위한 언어

LLM과 대화하면서 사고력이 좋아진 이유 – Vallified

사용하는 언어가 AI 에이전트의 성능을 제한하고 있나요? 언어 자원이 LLM 성능에 미치는 영향

고자원 언어와 저자원 언어​

왜 이런 일이 생기나요?​

불균형 바로잡기: 파인튜닝의 역할​

테스트를 몇 가지 돌려보기​

마무리 생각​

참고문헌​

관련 추천 글

MemAlign: 확장 가능한 메모리를 통한 인간 피드백 기반 더 나은 LLM 심판 구축

~fpereiro

에이전트를 위한 언어

LLM과 대화하면서 사고력이 좋아진 이유 – Vallified

고자원 언어와 저자원 언어​

왜 이런 일이 생기나요?​

불균형 바로잡기: 파인튜닝의 역할​

테스트를 몇 가지 돌려보기​

마무리 생각​

참고문헌​

관련 추천 글

MemAlign: 확장 가능한 메모리를 통한 인간 피드백 기반 더 나은 LLM 심판 구축

~fpereiro

에이전트를 위한 언어

LLM과 대화하면서 사고력이 좋아진 이유 – Vallified

고자원 언어와 저자원 언어

왜 이런 일이 생기나요?

불균형 바로잡기: 파인튜닝의 역할

테스트를 몇 가지 돌려보기

마무리 생각

참고문헌

고자원 언어와 저자원 언어

왜 이런 일이 생기나요?

불균형 바로잡기: 파인튜닝의 역할

테스트를 몇 가지 돌려보기

마무리 생각

참고문헌