Microsoft가 원격 언어 모델의 스트리밍 트래픽에서 패킷 크기와 타이밍만으로 대화 주제를 추론할 수 있는 새로운 사이드 채널 공격(Whisper Leak)을 공개했습니다. 실험 결과와 현실적 위험, 그리고 OpenAI·Microsoft·Mistral·xAI 등이 도입한 완화책과 사용자가 취할 수 있는 조치를 설명합니다.
Microsoft는 원격 언어 모델을 대상으로 한 새로운 유형의 사이드 채널 공격을 발견했습니다. 이 유형의 사이드 채널 공격은 Transport Layer Security (TLS)를 통한 종단 간 암호화에도 불구하고, 사이버 공격자가 네트워크 트래픽을 관찰해 언어 모델 대화의 주제를 추론할 수 있는 위치를 점하게 할 수 있습니다.
우리는 여러 벤더와 협력해 위험을 완화했으며, Microsoft가 보유한 언어 모델 프레임워크에도 보호 조치를 적용했습니다.
지난 몇 년 사이, AI 기반 챗봇은 질문 응답과 콘텐츠 생성부터 코딩, 개인 생산성에 이르기까지 우리 일상의 필수 구성 요소로 빠르게 자리 잡았습니다. 이러한 AI 시스템이 계속 발전함에 따라, 헬스케어, 법률 자문, 개인 대화 등 민감한 맥락에서의 활용이 늘고 있습니다. 이는 사람과 언어 모델 사이에 교환되는 데이터가 익명성과 보안을 유지하는 것이 매우 중요함을 의미합니다. 강력한 프라이버시 보호가 없다면 사용자는 표적이 되거나 정보를 공유하는 것을 주저하게 될 수 있고, 이는 챗봇의 유용성을 제한하고 윤리적 우려를 야기합니다. AI 기반 상호작용이 표준이 되어 가는 시대에, 신뢰 구축과 사용자 프라이버시 보호를 위해서는 견고한 익명화 기법, 암호화, 엄격한 데이터 보존 정책이 필수적입니다.
이 블로그 게시물에서는 네트워크 패킷의 크기와 타이밍을 이용하는, 스트리밍 모드 언어 모델에 대한 새로운 사이드 채널(부채널) 공격을 제시합니다. 이는 종단 간 암호화에도 불구하고 사용자와 기업의 챗봇 통신 프라이버시를 위험에 빠뜨립니다. 암호화된 트래픽을 관찰할 수 있는 위치에 있는 사이버 공격자(예: 인터넷 서비스 제공자 레이어에 있는 국가 행위자, 로컬 네트워크 상의 누군가, 같은 Wi‑Fi 라우터에 연결된 누군가)는 사용자의 프롬프트가 특정 주제에 관한 것인지 추론하는 데 이 공격을 사용할 수 있습니다. 이는 특히 시위, 금지된 자료, 선거 절차, 저널리즘과 같은 주제를 표적으로 삼을 수 있는 억압적 정부 하의 사용자에게 현실 세계 위험을 초래합니다. 마지막으로, 우리는 클라우드 기반 언어 모델 제공자가 사용자에 대한 프라이버시 공격 위험을 줄이기 위해 구현한 완화책을 논의합니다. 이 과정을 통해 우리는 여러 벤더와 협력하여 이러한 프라이버시 문제를 해결했습니다.
AI 기반 챗봇은 인터넷을 통해 사용되므로, 이들과의 통신은 보통 TLS 위의 HTTP (HTTPS)로 암호화되어 서버의 진정성과 암호화를 통한 보안을 보장합니다.
고수준에서 보면, 언어 모델은 주어진 프롬프트를 바탕으로 한 번에 하나의 토큰을 예측·생성하여 응답을 만듭니다. 전체 응답을 한 번에 구성하는 대신, 모델은 앞선 토큰들을 문맥으로 사용해 다음에 올 가능성이 가장 높은 단어나 구를 순차적으로 계산합니다. 이러한 오토리그레시브(autoregressive) 특성 때문에 응답은 본질적으로 단계적 방식으로 생성됩니다. 또한 사용자는 전체 응답 계산이 끝날 때까지 기다리는 것보다 즉각적인 피드백을 선호하므로, 언어 모델은 출력 텍스트를 청크로 스트리밍합니다. 이 방식은 전체 응답이 완성될 때까지 지연시키지 않고 가능한 한 빨리 텍스트가 표시되도록 합니다.
TLS 프로토콜은 인터넷에서 애플리케이션 수준 암호화를 구현하는 표준 수단이며, HTTPS에서 가장 일반적으로 사용됩니다. 따라서 TLS의 보안은 통신 기밀성의 기반입니다.
일반적으로, TLS는 인증서 검증과 함께 RSA나 ECDH 같은 비대칭 암호를 사용해 세션 키를 교환하고, 이후 이 키를 대칭 암호의 키로 사용합니다. 대칭 암호는 오랜 기간 연구되고 개선되어 왔으며, 크게 두 계열로 나뉩니다.
블록 암호와 스트림 암호의 중요한 차이점 중 하나는 데이터 크기 단위입니다. 블록 암호에서는 데이터 크기가 항상 블록 크기(예: 16바이트)로 나뉘는 반면, 스트림 암호는 임의의 데이터 크기를 지원합니다.
압축을 고려하지 않는다면, 암호문 크기는 평문 크기에 일정한 상수(예: 메시지 인증 코드)가 더해진 값과 같습니다.
사이드 채널 공격은 전통적으로 하드웨어 구현을 대상으로 전력 소비, 전자기 방사, 타이밍 변화를 분석해 비밀 키를 유출하는 방식으로, 암호학에서 긴 역사를 가지고 있습니다.
최근에는 언어 모델의 고유한 특성 때문에 사이드 채널 분석의 새로운 기회가 열리고 있습니다. Whisper Leak에 대한 우리의 연구는 다음과 같은, 언어 모델을 구체적으로 겨냥한 동시대 및 최근 연구들을 바탕으로 맥락화됩니다.
우리는 스트리밍 언어 모델 응답 동안 발생하는 암호화된 패킷 크기와 도착 간격의 연속이, 응답이 토큰을 묶음으로 스트리밍되는 경우에도 초기 프롬프트의 주제를 분류하기에 충분한 정보를 담고 있다고 가정했습니다. 이를 검증하기 위해, 우리는 공격자가 암호화된 트래픽은 관찰할 수 있으나 복호화는 할 수 없는 시나리오를 모사한 실험을 설계했습니다.
우리 실험에서는 이진 분류기를 학습시켜 특정 타깃 주제와 일반 배경 트래픽을 구분하도록 했습니다. 개념 증명(Proof‑of‑Concept)으로 타깃 주제는 “자금 세탁의 합법성”으로 선택했습니다.
데이터 수집 후에는 세 가지 기계 학습 모델을 평가했으며, 각 모델은 세 가지 모드(시간만, 패킷 크기만, 또는 둘 다)로 평가했습니다.
성능 평가는 불균형 데이터셋(음성 샘플이 많고 양성 샘플이 적음)에서 공격 성공도를 측정하는 지표인 정밀도‑재현율 곡선 아래 면적(AUPRC)으로 수행했습니다. 아래 표는 결과를 보여줍니다.
“Best Overall” 열을 빠르게 살펴보면, 많은 모델에서 공격 점수가 98%를 넘었습니다. 이는 특정 주제에 관한 대화가 남기는 고유한 디지털 “지문”이 충분히 뚜렷하여, 통제된 테스트 환경에서 우리의 AI 기반 도청자가 신뢰성 있게 이를 가려낼 수 있음을 의미합니다.
실질적으로 어떤 의미인지 이해하기 위해, 우리는 보다 현실적인 감시 시나리오를 모사했습니다. 사이버 공격자가 무작위 대화 10,000건을 모니터링하는데, 그중 단 1건만이 타깃 민감 주제에 관한 경우를 가정했습니다. 이러한 극단적 불균형 상황에서도, 우리의 분석은 우려스러운 결과를 보여줍니다.
테스트한 많은 모델에서, 사이버 공격자는 정밀도 100%(타깃 주제 관련으로 표시한 대화가 모두 실제로 해당 주제)와 함께, 타깃 대화의 5~50%를 포착할 수 있었습니다. 쉽게 말해: 공격자가 의심스럽다고 표시한 거의 모든 대화가 실제로 그 민감한 주제에 관한 것이며 — 오탐이 없다는 뜻입니다. 이 수준의 정확도는 공격자가 높은 확신을 가지고, 오탐으로 자원을 낭비하지 않는다는 전제하에 작전할 수 있음을 의미합니다.
이를 관점 전환해 보면: 정부 기관이나 인터넷 서비스 제공자가 인기 AI 챗봇으로 향하는 트래픽을 모니터링한다면, 모든 트래픽이 암호화되어 있더라도 자금 세탁, 정치적 반대, 기타 모니터링 대상 주제 등 특정 민감 주제에 대해 질문하는 사용자를 신뢰성 있게 식별할 수 있습니다.
중요한 단서: 위 정밀도 추정치는 우리의 테스트 데이터에 기반한 추정치이며, 수집 데이터의 양과 다양성에 의해 본질적으로 제한됩니다. 실제 성능은 실제 트래픽 패턴에 좌우되겠지만, 이 결과는 이것이 단순한 이론적 위협이 아니라 실질적 위협임을 강하게 시사합니다.
이 사이버 위협은 시간이 지남에 따라 더 악화될 수 있습니다. 위 결과는 기준선 위험 수준을 나타냅니다. 아래 그림 4는 공격자가 더 많은 학습 데이터를 수집할수록 공격 효율이 개선됨을 보여줍니다. 특정 모델에 대한 확장 테스트에서, 데이터셋 크기가 증가함에 따라 공격 정확도가 지속적으로 향상되는 것을 관찰했습니다. 더 정교한 공격 모델과, 다회전 대화 또는 동일 사용자로부터의 여러 대화에서 얻을 수 있는 더 풍부한 패턴이 결합되면, 인내심과 자원을 갖춘 공격자는 초기 결과가 시사하는 것보다 더 높은 성공률을 달성할 수 있습니다.
업계 파트너와의 공조 및 완화책우리는 영향받은 벤더들과 책임 있는 공개 과정을 거쳤으며, 완화책 구현을 위한 성공적인 협업을 보고하게 되어 기쁩니다. 특히, 이 글을 작성하는 시점에 OpenAI, Mistral, Microsoft, xAI가 보호 조치를 도입했습니다. 이러한 업계 전반의 대응은 AI 생태계 전반에서 사용자 프라이버시에 대한 의지를 보여줍니다.
OpenAI는 이후 Microsoft Azure가 동일하게 반영한 조치로, 스트리밍 응답에 “obfuscation” 키 아래 추가 필드를 도입했습니다. 이 필드에는 각 응답마다 길이가 가변적인 무작위 텍스트 시퀀스가 추가됩니다. 이는 각 토큰의 길이를 효과적으로 마스킹하며, 우리는 이 조치가 공격의 효율을 크게 저감시키는 것을 관찰했습니다. 우리는 Microsoft Azure의 완화책이 공격 효율을 더 이상 실질적 위험으로 간주하지 않는 수준으로 낮춘 것을 직접 검증했습니다.
유사하게, Mistral은 비슷한 효과를 내는 “p”라는 새 파라미터를 포함했습니다.

공격을 완화하고 우리의 연구를 인용하는, Mistral API에 새로 추가된 “p” 파라미터.
이 문제는 주로 AI 제공자가 해결해야 하지만, 프라이버시가 우려되는 사용자는 추가로 다음을 고려할 수 있습니다.
모델 및 데이터 수집 코드는 Whisper Leak 저장소에서 공개되어 있습니다. 추가로, 우리는 이 모델을 사용해 특정 주제가 “민감함”(우리의 개념 증명에서는 자금 세탁 관련)일 확률(0.0~1.0)을 산출하는 개념 증명 코드를 제작했습니다.
Microsoft 보안 솔루션에 대해 더 알아보려면 웹사이트를 방문하세요. 보안 이슈에 대한 전문가의 통찰을 꾸준히 확인하려면 Security 블로그를 즐겨찾기 하세요. 또한 LinkedIn(Microsoft Security)과 X(@MSFTSecurity)를 팔로우하여 최신 보안 뉴스와 업데이트를 받아보세요.