TurboQuant, QJL, PolarQuant가 벡터 양자화의 메모리 오버헤드를 줄이며 KV 캐시 압축과 벡터 검색 성능을 어떻게 향상하는지 소개합니다.
벡터는 AI 모델이 정보를 이해하고 처리하는 가장 근본적인 방식입니다. 작은 벡터는 그래프의 한 점처럼 단순한 속성을 설명하고, “고차원” 벡터는 이미지의 특징, 단어의 의미, 데이터셋의 성질처럼 복잡한 정보를 담습니다. 고차원 벡터는 매우 강력하지만, 막대한 메모리를 소비하기도 하며, 이로 인해 자주 쓰이는 정보를 간단한 라벨 아래 저장해 컴퓨터가 거대한 느린 데이터베이스를 뒤지지 않고도 즉시 가져올 수 있게 하는 고속 “디지털 치트시트”인 키-값 캐시에서 병목이 발생합니다.
벡터 양자화는 고차원 벡터의 크기를 줄이는 강력한 고전적 데이터 압축 기법입니다. 이 최적화는 AI의 두 가지 중요한 측면을 해결합니다. 첫째, 더 빠른 유사도 조회를 가능하게 해 대규모 AI와 검색 엔진을 구동하는 고속 기술인 벡터 검색을 향상합니다. 둘째, 키-값 쌍의 크기를 줄여 더 빠른 유사도 검색을 가능하게 하고 메모리 비용을 낮춤으로써 키-값 캐시 병목을 완화합니다. 하지만 전통적인 벡터 양자화는 대개 자체적인 “메모리 오버헤드”를 유발합니다. 대부분의 방법이 데이터의 작은 블록마다 양자화 상수를 계산하고 이를 완전 정밀도로 저장해야 하기 때문입니다. 이 오버헤드는 숫자 하나당 1비트 또는 2비트를 추가할 수 있어, 벡터 양자화의 목적을 일부 상쇄합니다.
오늘 우리는 TurboQuant를 소개합니다(ICLR 2026 발표 예정). 이는 벡터 양자화에서 메모리 오버헤드 문제를 최적으로 해결하는 압축 알고리즘입니다. 또한 TurboQuant가 성과를 내는 데 사용하는 Quantized Johnson-Lindenstrauss(QJL)와 PolarQuant(AISTATS 2026 발표 예정)도 함께 소개합니다. 테스트에서 세 기술 모두 AI 모델 성능을 희생하지 않으면서 키-값 병목을 줄이는 데 큰 가능성을 보여주었습니다. 이는 검색과 AI를 포함해, 특히 이들 영역에서 압축에 의존하는 모든 활용 사례에 잠재적으로 매우 큰 의미를 갖습니다.
TurboQuant는 정확도 손실 없이 모델 크기를 크게 줄이는 압축 방식으로, 키-값(KV) 캐시 압축과 벡터 검색 모두를 지원하는 데 이상적입니다. 이는 두 가지 핵심 단계로 이루어집니다.
TurboQuant가 이 효율성을 어떻게 달성하는지 완전히 이해하려면, QJL과 PolarQuant 알고리즘이 어떻게 작동하는지 더 자세히 살펴볼 필요가 있습니다.
QJL은 Johnson-Lindenstrauss Transform이라는 수학 기법을 사용해 복잡한 고차원 데이터를 축소하면서도 데이터 포인트 사이의 핵심 거리와 관계를 보존합니다. 그런 다음 결과 벡터의 각 숫자를 단 하나의 부호 비트(+1 또는 -1)로 줄입니다. 이 알고리즘은 본질적으로 메모리 오버헤드가 전혀 없는 고속 축약 표현을 만듭니다. 정확도를 유지하기 위해 QJL은 고정밀 쿼리와 저정밀로 단순화된 데이터 사이의 균형을 전략적으로 맞추는 특수 추정기를 사용합니다. 이를 통해 모델은 어텐션 점수(입력 중 어떤 부분이 중요한지, 어떤 부분은 안전하게 무시할 수 있는지를 결정하는 과정)를 정확히 계산할 수 있습니다.
PolarQuant는 완전히 다른 접근으로 메모리 오버헤드 문제를 해결합니다. 표준 좌표(X, Y, Z 등)를 사용해 각 축을 따라 얼마나 떨어져 있는지 보는 대신, PolarQuant는 Cartesian coordinate system을 사용해 벡터를 극좌표로 변환합니다. 이는 “동쪽으로 3블록, 북쪽으로 4블록 가라”를 “총 5블록을 37도 각도로 가라”로 바꾸는 것에 비유할 수 있습니다. 그 결과 정보는 두 부분으로 나뉩니다. 반지름은 핵심 데이터가 얼마나 강한지를 나타내고, 각도는 데이터의 방향이나 의미를 나타냅니다. 각도의 패턴은 이미 알려져 있고 매우 고도로 집중되어 있으므로, 모델은 더 이상 값비싼 데이터 정규화 단계를 수행할 필요가 없습니다. 데이터가 경계가 끊임없이 변하는 “사각형” 격자가 아니라, 경계가 이미 알려진 고정되고 예측 가능한 “원형” 격자 위에 매핑되기 때문입니다. 이 덕분에 PolarQuant는 전통적인 방법이 감수해야 하는 메모리 오버헤드를 제거할 수 있습니다.
우리는 LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L-Eval을 포함한 표준 장문맥 벤치마크 전반에서 오픈소스 LLM(Gemma와 Mistral)을 사용해 세 알고리즘을 엄격하게 평가했습니다. 실험 데이터는 TurboQuant가 내적 왜곡과 재현율 측면에서 모두 최적의 점수 성능을 달성하는 동시에 키-값(KV) 메모리 사용량을 최소화함을 보여줍니다. 아래 차트는 TurboQuant, PolarQuant, 그리고 기준선인 KIVI에 대해 질문 응답, 코드 생성, 요약을 포함한 다양한 작업 전반의 집계 성능 점수를 보여줍니다.
장문맥 “needle-in-haystack” 작업(즉, 방대한 텍스트 속에 묻혀 있는 아주 작고 특정한 정보 하나를 모델이 찾아낼 수 있는지를 보는 테스트)의 결과는 아래와 같습니다. 다시 말해, TurboQuant는 모든 벤치마크에서 완벽한 다운스트림 결과를 달성하면서도 키-값 메모리 크기를 최소 6배 줄였습니다. PolarQuant 역시 이 작업에서 거의 무손실에 가깝습니다.
TurboQuant는 학습이나 파인튜닝 없이도, 그리고 모델 정확도를 전혀 손상시키지 않으면서도 키-값 캐시를 단 3비트로 양자화할 수 있음을 입증했습니다. 동시에 원래 LLM(Gemma와 Mistral)보다 더 빠른 실행 속도도 달성했습니다. 구현 효율이 매우 뛰어나고 실행 시간 오버헤드는 무시할 수 있을 정도로 작습니다. 다음 그래프는 TurboQuant를 사용했을 때 어텐션 로짓 계산의 속도 향상을 보여줍니다. 구체적으로 4비트 TurboQuant는 H100 GPU accelerators에서 32비트 비양자화 키 대비 최대 8배의 성능 향상을 달성합니다.
이 덕분에 TurboQuant는 인덱스 구축 과정을 크게 가속하는 벡터 검색 같은 활용 사례를 지원하는 데 이상적입니다. 우리는 1@k 재현율 비율을 사용해 고차원 벡터 검색에서 TurboQuant의 효과를 최신 기법(PQ, RabbiQ)과 비교 평가했습니다. 이 지표는 알고리즘이 자신의 상위 k개 근사 결과 안에 실제 최상위 내적 결과를 얼마나 자주 포함하는지를 측정합니다. TurboQuant는 기준선 방법들이 비효율적인 대형 코드북과 데이터셋별 튜닝을 사용했음에도 불구하고, 일관되게 더 우수한 재현율 비율을 달성했습니다(아래 그림). 이는 TurboQuant가 고차원 검색 작업에서 강건하고 효율적임을 확인해 줍니다.
TurboQuant는 고차원 검색에서 변혁적인 전환을 보여줍니다. 달성 가능한 속도에 대한 새로운 기준을 세우며, 데이터에 의존하지 않는 방식으로 거의 최적에 가까운 왜곡률을 제공합니다. 이를 통해 우리의 최근접 이웃 엔진은 3비트 시스템의 효율성으로 작동하면서도 훨씬 더 무거운 모델의 정밀도를 유지할 수 있습니다. 자세한 내용은 논문을 참고하세요.
TurboQuant, QJL, PolarQuant는 단순한 실용적 엔지니어링 해법을 넘어, 강력한 이론적 증명으로 뒷받침되는 근본적인 알고리즘 기여입니다. 이 방법들은 실제 응용에서 잘 작동할 뿐 아니라, 이론적 하한에 가깝게 동작하는 효율성을 증명할 수 있습니다. 이러한 엄밀한 기반이야말로 이 기법들을 중요하고 대규모인 시스템에서 강건하고 신뢰할 수 있게 만드는 이유입니다.
주요 응용 중 하나는 Gemini 같은 모델에서 키-값 캐시 병목을 해결하는 것이지만, 효율적인 온라인 벡터 양자화의 영향은 그보다 훨씬 더 멀리 확장됩니다. 예를 들어, 현대 검색은 단순한 키워드를 넘어 의도와 의미를 이해하는 방향으로 진화하고 있습니다. 이를 위해서는 수십억 개 벡터로 이루어진 데이터베이스에서 가장 “가까운”, 즉 의미적으로 가장 유사한 항목을 찾는 능력인 벡터 검색이 필요합니다.
TurboQuant 같은 기법은 이 임무에 매우 중요합니다. 이들은 최소한의 메모리, 거의 0에 가까운 전처리 시간, 최첨단 정확도로 대규모 벡터 인덱스를 구축하고 질의할 수 있게 해줍니다. 이는 Google 규모의 의미 검색을 더 빠르고 효율적으로 만듭니다. AI가 LLM에서 의미 검색에 이르기까지 모든 제품에 더 깊이 통합될수록, 이러한 근본적 벡터 양자화 연구는 그 어느 때보다 중요해질 것입니다.
이 연구는 Google 연구원 Praneeth Kacham, Google DeepMind 수석 엔지니어 Majid Hadian, KAIST 조교수 Insu Han, NYU 박사과정 학생 Majid Daliri, Google 연구원 Lars Gottesbüren, Google 연구원 Rajesh Jayaram과의 협업으로 수행되었습니다.