TLA+ 정신 모델

LLM의 시대에는 TLA+를 쓰고, 읽고, 배우는 데 더 이상 문법이 병목이 아닙니다. 사람들은 알고리즘에 대한 Google Docs 설명만으로도 TLA+ 모델과 반례를 직접 생성해 가치를 얻고 있습니다. TLA+의 우발적 복잡성(문법과 도구)은 사라지고 있습니다.

하지만 본질적 복잡성은 남아 있습니다. 모델을 어디서 시작할지, 무엇을 무시할지, 올바른 추상화를 어떻게 고를지를 아는 일입니다. 이것이 바로 모델링 판단력이며, 가르치기 가장 어려운 기술입니다. 엔지니어는 코드, 제어 흐름, 지역 상태 중심으로 생각하도록 훈련받습니다. TLA+는 여러분을 다른 모드로 이끕니다. 수학적이고, 선언적이며, 전역적인 모드입니다. 여러분은 어떻게 달성할지를 쓰는 것이 아니라, 무엇이 반드시 성립해야 하는지를 명세합니다. 이 전환에 익숙해지고 나면, 그것은 키보드 앞을 떠난 뒤에도 시스템을 생각하는 방식을 바꿉니다.

관련 글에서 저는 8개의 산업 프로젝트에서 얻은 교훈을 바탕으로 TLA+를 설계 가속기로 설명했습니다. 여기서는 더 깊이 들어가 효과적인 TLA+ 활용 뒤에 있는 정신 모델을 분명히 말해보려 합니다. 이것들은 TLA+ 전문가들이 암묵적으로 적용하는 사고 패턴이며, 수년에 걸쳐 자연스럽게 체득되는 종류의 지식입니다. 저는 그것들을 명시적이고 실행 가능하게 만들어 보려 합니다.

정신 모델은 다음과 같습니다.

추상화, 추상화, 추상화
전역 공유 메모리 모델을 받아들여라
지역 가드와 효과로 정제하라 (느림이 빠름이다)
좋은 불변식을 도출하라
단계적 정제를 통해 대안을 탐색하라
원자성을 과감하게 정제하라
여러분의 정신 모델을 공유하라

1. 추상화, 추상화, 추상화

추상화는 산만함을 피하기 위한 강력한 도구입니다. abstract라는 단어의 어원은 라틴어로 “잘라내어 끌어낸다”는 뜻에서 왔습니다. 추상화를 통해 여러분은 복잡한 시스템에서 프로토콜을 잘라내고, 불필요한 세부를 생략하며, 복잡한 시스템을 유용한 모델로 단순화합니다. 모든 것을 모델링할 필요는 없습니다. 가치의 대부분은 무엇을 무시해야 하는지 아는 데서 나옵니다. 생략이 기본값입니다. 어떤 구성요소를 빼면 추론 목표가 깨질 때에만 그것을 추가하십시오.

추상화는 무엇을 버려야 할지 아는 예술입니다. 여러분은 조사하고 싶은 프로토콜에 집중하기 위해 횡단적으로 잘라낼 수 있습니다. 분산 시스템의 일관성 모델에 관심이 있다면, 통신의 메커니즘이 불필요한 산만함일 경우 그것을 추상화해 제거할 수 있습니다. 복제 프로토콜에 관심이 있다면, 클라이언트 상호작용을 추상화해 제거할 수 있습니다. 산업 현장의 경험에서 나온 두 가지 예를 보겠습니다.

CosmosDB 일관성 모델링:우리는 CosmosDB의 클라이언트 관점 일관성 의미론을 명세해야 했습니다. 반패턴은 분산 데이터베이스 엔진 자체를 모델링하는 것이었을 텐데, 그렇게 했다면 즉시 상태 공간 폭발이 일어나고 명세도 읽기 어려워졌을 것입니다. 대신 우리는 클라이언트 관점 동작을 위한 "히스토리를 로그로 보는" 추상화만 모델링했습니다. 데이터베이스 내부 세부사항은 "환경"이었고, 우리가 추론하려는 것과는 무관했습니다. 우리는 복제 내부를 포착하기 위해 sort-merge를 사용했고, 일관성을 모델링하기 위해 read index를 사용했습니다. 이렇게 해서 다섯 가지 일관성 수준이 연산 히스토리 위의 명확한 술어가 되었습니다.
Aurora DSQL의 Secondary Index:여기서 우리는 secondary index에 집중하고, 데이터베이스의 나머지 부분은 연산 로그로 추상화했습니다. 로그는 State Machine Replication (SMR)의 흔한 추상화이며, SMR 자체도 데이터베이스와 데이터 저장소를 위한 흔한 추상화입니다. 문제를 본질적인 단면으로 잘라냄으로써, 우리는 복잡한 시스템을 다룰 수 있게 만들었습니다.

Leslie Lamport는 Paxos를 어떻게 도출했는지 설명하면서 이를 아름답게 보여주었습니다. 그는 가장 추상적인 명세, 즉 투표 배열에 기반한 합의를 정의하는 것에서 시작했습니다. 그의 말에 따르면: "Paxos에 이르게 된 사고 과정을 나는 기억하지 못한다. 하지만 서로에게 메시지를 보내는 컴퓨터 위에서의 실행은 무관한 세부라는 것은 알고 있었다. 나는 오직 프로세스들의 집합과 그들이 서로에 대해 무엇을 알아야 하는지만 생각하고 있었다. 메시지로부터 그 정보를 어떻게 얻을 수 있는지는 나중에 온 쉬운 부분이었다. 내가 처음 가졌던 것은, 훗날 내가 Voting algorithm이라고 설명한 것이었다."

TLA+는 엔지니어에게 추상화의 기술과 분산 시스템을 사고하고 추론하는 올바른 방식을 가르치는 데 유용합니다. 모델링 과정 자체가 여러분을 훈련시켜 이렇게 묻게 만듭니다. 내가 신경 쓰는 행동의 단면은 무엇이며, 무엇을 안전하게 무시할 수 있는가? 그리고 TLA+는 빠른 피드백 루프(모델을 쓰고, 검사하고, 수정하기)를 가진 신속한 프로토타이핑 도구를 제공하므로, 실제 시스템을 만들고 디버깅하는 것보다 훨씬 빠르게 설계 경험을 축적하게 됩니다.

2. 전역 공유 메모리 모델을 받아들여라

TLA+는 의도된 허구를 제공합니다. 모든 프로세스가 읽고 쓸 수 있는 전역 공유 메모리입니다. 이 허구는 그 계산 모델의 토대이며, 이를 이해하는 것은 TLA+ 방식으로 사고하는 데 필수적입니다.

TLA+에서 프로그램은 두 가지로 이루어집니다. (1) 전역 상태 공간을 정의하는 변수들의 집합, 그리고 (2) 한 상태에서 다음 상태로 전이시키는 유한한 액션들의 집합입니다. 이것은 상태 중심 추론으로, 모든 것이 술어입니다(불리언으로 매핑되는 함수). 이 접근은 불변식 중심 사고를 촉진합니다(정신 모델 4 참고).

각 액션은 Sir Tony Hoare의 삼중항을 따릅니다: {state} action {state'}. 액션의 실행은 어떤 술어(“가드”)가 참일 때만 가능합니다. 예를 들면: x > 0 → x := 0; y := y + 1. 또는 TLA+ 표기로는 다음과 같습니다.

/\ x > 0

/\ x' = 0

/\ y' = y + 1

가드는 상태 공간에 대한 술어입니다. 어떤 상태에서 가드가 참이면, 그 액션은 그 상태에서 “활성화되었다(enabled)”고 말합니다. 프로그램은 초기 술어를 만족하는 아무 상태에서나 시작합니다. 그런 다음 활성화된 액션 하나가 비결정적으로 선택되어 원자적으로 실행됩니다. 이 과정은 무한히 반복됩니다. 선택된 액션의 가드가 거짓이라면, 그것은 단순한 skip이며 상태를 바꾸지 않습니다.

전역 공유 메모리(Global Shared Memory, GSM) 모델은 이런 추론 스타일과 자연스럽게 맞아떨어집니다. 현재 상태를 읽고 새 상태를 설치하면 됩니다. 채널도, 메시지 직렬화도, 관리해야 할 프로세스 경계도 없습니다. 이것은 가드 명령 모델에 맞는 모델을 쓰는 가장 최소한의 방식입니다. 다만 변수를 정의할 때는 절제해야 합니다. 변수 하나하나가 상태 공간을 기하급수적으로 폭발시키기 때문입니다. 그 대가로 안전성과 라이브니스는 전역 상태 위의 간결한 술어가 됩니다. 여러분의 프로그램은 불변 집합(즉, 좋은 상태들)을 정의하며, 절대로 그 밖으로 전이해서는 안 됩니다.

채널, 메시지 직렬화, 네트워크 토폴로지는 바로 그것들이 여러분이 추론하려는 대상일 때가 아니라면 모델링할 필요가 없습니다. “어느 정도 지역적인” 가드와 확실히 지역적인 변수 대입만 유지한다면, GSM을 메시지 전달로 사상하는 것도 가능합니다. 전역 공유 상태 공간에서 “지역 변수”란 무엇을 뜻할까요? 흔한 방법은 노드별 인덱스를 사용하는 것입니다. 그래서 vote[i]는 노드 i의 투표를 가리킵니다. 전역 변수는 vote 배열이고, 지역 버전은 vote[i]입니다. 이 모든 것은 수학이며, 수학에는 추상화가 필요합니다. 전역 공유 메모리라는 허구를 중심으로 형성된 TLA+의 계산 모델은 여러분이 올바른 추상화 수준에서 추론할 수 있게 해줍니다.

3. 지역 가드와 효과로 정제하라 (느림이 빠름이다)

TLA+의 전역 공유 메모리 허구는 추론에 강력하지만, 함정도 만듭니다. 실제 어떤 프로세스도 원자적으로 관찰할 수 없는 전역 상태를 읽는 가드를 쓰기 쉽다는 점입니다. 이것은 가장 흔한 모델링 오류 중 하나입니다. 서로 다른 세 노드가 무엇을 했는지를 동시에 검사하는 가드는 “불법적인 지식”입니다. 실제 분산 시스템에서는 어떤 단일 노드도 그 모든 것을 한순간에 알 수 없기 때문입니다. 따라서 전용 리뷰 단계에서는 모든 액션에 대해 이렇게 물어야 합니다. 실제 노드가 행동을 결정할 때 실제로 알 수 있는 정보는 무엇인가?

그렇다면 가드를 어떻게 지역적으로 바꿀 수 있을까요? 직속 이웃을 읽는 것은 괜찮다는 일종의 민간 정리가 있습니다. 왜냐하면 그것은 메시지 전달로 사상될 수 있기 때문입니다(hygenic dining philosophers를 떠올려 보십시오). 이것은 본질적으로 간접층과 프록시 변수를 하나 더 추가하는 것으로 귀결되며, 이는 락킹을 뜻합니다. 락킹은 성능에 좋지 않으며, 정신 모델 6에서 저는 구현이 책임 있게 자유를 누릴 수 있도록 원자성을 정제하고 가능한 한 많은 동시성을 허용해야 한다고 주장할 것입니다. 그렇다면 우리는 무엇을 해야 할까요?

핵심 통찰은 가드에 사용할 안정적(stable), 단조적(monotonic), 또는 지역적으로 안정한(locally stable) 술어를 찾아내려는 것입니다. 제가 “Hints for Distributed Systems Design”에서 “단조성을 받아들여라”라고 말할 때, 제가 정확히 생각하는 것이 바로 이것입니다: “분산 시스템에서 효율적이고 안전하게 조정을 수행하려면, 통찰은 거의 항상 문제를 단조적인 것으로 변환하는 데 있다.”

여기서부터는 미묘해지며, 좀처럼 명시적으로 드러나지 않는 난해한 지식과 맞닿습니다. 이것은 이론에 가까운 분산 시스템 작업을 수년간 하면서 직관적으로 익히게 되는 종류의 것입니다. 여러분의 지도교수도 직감했고, 그 지도교수도 직감했으며, 이를 가리키는 어휘적 지름길을 발전시켰지만 완전히 명시적으로 만들지는 않았습니다. UC Berkeley의 CALM(Consistency As Logical Monotonicity) 연구는 Dedalus 같은 언어를 기반으로 이것을 더 구체화했지만, 기본적인 요지는 추상적 전역 상태 추론 수준에 존재합니다.

우리의 “Slow is Fast” 논문에서 우리는 이 직관을 액션을 “느린 것”과 “빠른 것”으로 나누어 형식화했습니다. 느린 액션의 가드는 노드의 정보가 약간 오래되어도 참으로 남아 있습니다. 이는 가드가 안정적인 술어이거나(한번 참이면 계속 참), 오직 지역 변수에만 의존하거나, 혹은 지역적으로 안정한 술어이기 때문입니다(오직 그 노드 자신의 액션만 그것을 거짓으로 만들 수 있음). 반대로 빠른 액션은 가드를 평가하기 위해 신선한 전역 상태를 요구합니다. 핵심 결과는 이것입니다. 가드를 지역적으로 안정하게 만들 수 있다면, 프로토콜은 더 적은 조정을 필요로 하고 통신 지연도 우아하게 견딥니다. 그래서 느림이 빠름입니다.

이것은 쉬운 일이 아닙니다. Ernie Cohen은 이 기술을 체화하고 있었고, 프로토콜 탐구에서 활용할 단조적이거나 지역적으로 안정한 술어를 빠르게 짚어낼 수 있었습니다. 어떤 사람들은 이런 사고방식 속에 너무 완전히 살고 있어서, 물속의 물고기처럼 그것을 어떻게 말로 설명해야 하는지조차 모를 수 있습니다. (한 사례로, “global shared memory fiction”이라는 표현은 Marc Brooker가 제게 짚어준 것입니다. 때로는 내부자들이 당연하게 여기는 것을 약간의 외부자가 이름 붙여 줍니다.) TLA+ 모델링을 위한 실천적 요점은 이것입니다. 가드를 쓸 때, 그 가드가 의존하는 정보가 오래될 수 있는지, 그렇다면 그 위에서 행동하는 것이 여전히 안전한지 스스로에게 물으십시오. 가드를 단조적이거나 지역적으로 안정한 술어에 의존하도록 만들 수 있다면, 여러분의 프로토콜은 더 견고하고, 더 동시적이며, 올바른 분산 구현에 더 가까워질 것입니다.

Lamport의 Paxos 도출은 이를 아름답게 보여줍니다. 그는 합의의 가장 단순한 명세에서 시작합니다. chosen은 빈 집합으로 시작하고 싱글턴 $\{v\}$ 로 전이합니다. 그것이 전체 다음 상태 수식입니다. 그런 다음 acceptor가 투표하고 과반수가 어떤 값에 투표하면 그 값이 선택되는 voting algorithm으로 정제하고, 이후 발생하는 문제들(예를 들어 N개의 acceptor가 $v1$ 에, N개가 $v2$ 에 투표하고 남은 acceptor 하나가 실패하면 어떻게 되는가?)을 다루기 위해 Paxos로 더 정제합니다. 각 정제 단계마다 가드는 더 지역적이 됩니다. Paxos에서 acceptor가 투표를 던져야 하는지에 대한 가드는 지역 지식, 즉 이 acceptor가 어떤 ballot들에 참여했는가에 달려 있습니다. ballot 번호의 단조적 구조는 이 지역 지식이 무효화되지 않음을 보장합니다. acceptor가 투표 진행에 대해 무엇인가를 알게 되면, 그 사실은 영구적입니다. 이것이 비동기성과 장애에도 불구하고 Paxos가 작동하게 만드는 이유입니다.

4. 좋은 불변식을 도출하라

여러분은 운동 삼아 모델링한 것이 아닙니다. 여러분은 프로토콜에 대한 추론 통찰에 도달하고 싶고, 불변식은 그런 통찰의 증류된 형태입니다. 불변식 중심 추론은 비운영적입니다. 실행 경로를 따라가거나 happy path만 생각하는 대신, “무엇이 제대로 되어야 하는가?”를 묻습니다. 경계 조건을 명세하고, 모델 체커가 가능한 모든 인터리빙을 탐색해 그것들을 검증하게 합니다.

좋은 불변식을 정제하는 데 시간을 쓰십시오. 그것들은 여러 방식으로 여러분을 돕기 때문입니다. 프로토콜 변형을 탐색할 때(정신 모델 5 참고) 무엇을 바꿀 수 있고 무엇을 바꿀 수 없는지 알려주는 가이드가 됩니다. 구성요소를 조합할 때 계약 역할을 하며, 각 부분이 다른 부분에 무엇을 보장하는지 정의합니다. 구현을 위한 런타임 assertion과 테스트 oracle로도 직접 번역됩니다. 그리고 장애 허용성을 추가하는 데도 필수적입니다. 불변식을 알고 나면, 장애 후 어디까지 복구해야 하는지 알게 되고, 그것을 다시 세우는 복구 액션을 설계할 수 있습니다.

불변식 작성은 아직도 대부분 수작업입니다. LLM은 이것에 약합니다. 불변식은 명세에서 가장 신호 밀도가 높은 부분이기 때문입니다. 그것은 이 프로토콜이 무엇을 보장해야 하는지에 대한 여러분의 이해를 응축한 것입니다. 그것을 올바르게 만든다는 것은 여러분이 문제에 대해 닫힘(closure)을 얻었다는 뜻입니다.

TLA+와 형식 기법에 익숙하지 않은 사람들은 이 단계에서 반복적으로 실패합니다. 저도 가끔 어려움을 겪는데, 특히 낯선 도메인에 들어갈 때는 먼저 대가를 치르고 더 깊이 생각해 이해를 얻어야 합니다. 가장 흔한 실패 모드는 프로토콜이 무엇을 하든 항상 참인 “사소한 불변식”을 쓰는 것입니다. 그러면 명세를 쓴 보람이 없습니다. 또 다른 실패는 “끝 상태”를 불변식과 혼동하는 것입니다. 불변식은 도달 가능한 모든 상태에서 성립해야지, 마지막 상태에서만 성립하는 것이 아닙니다. 우리는 귀납적 불변식을 기대하는 것은 아닙니다(그건 더 어렵고, 하나만 있으면 형식적 증명이 쉽게 따라오기 때문에 더 가치 있습니다). 하지만 이해를 보여주고 추가 탐구를 떠받치는, 적당히 빡빡한 불변식은 목표로 해야 합니다.

안전성 속성(시스템이 해도 되는 것)에서 멈추지 마십시오. 라이브니스 속성도 쓰십시오(시스템이 결국 반드시 해야 하는 것). $<> Termination$ 과 $Init ~> Solution$ 같은 속성을 검사하는 것이 중요합니다. 요청은 완료되는가? 리더는 등장하는가? 많은 “올바른” 모델은 조용히 영원히 아무것도 하지 않습니다. 안전성을 절대 위반하지 않지만 진전도 없는 모델은 쓸모가 없습니다. 라이브니스 검사는 멈춰 서는 경로, 지나치게 제약된 명세, 결코 활성화되지 않는 액션을 잡아냅니다.

계속 사용해 온 예로 돌아가 봅시다. Lamport의 Paxos 도출에서 각 정제 수준의 불변식은 교육적입니다. Consensus 수준에서 안전성 불변식은 단순히 최대 하나의 값만 선택된다는 것입니다 ( $Cardinality(chosen) <= 1$ ). Voting 수준에서는 chosen이, acceptor들의 quorum이 모두 그 값에 투표한 ballot가 존재하는 값들의 집합으로 정의됩니다 ( $chosen == \{v \in Value : \E b \in Ballot : ChosenAt(b, v)\}$ ). Voting algorithm의 안전성은 두 규칙에 의존합니다. (1) 서로 다른 acceptor는 같은 ballot에서 서로 다른 값에 투표할 수 없다. (2) acceptor는 값 $v$ 가 ballot $b$ 에서 안전할 때만 $b$ 에서 $v$ 에 투표할 수 있다. 이런 불변식은 빡빡하고, 사소하지 않으며, Paxos로 내려가는 전체 정제 사슬을 떠받칩니다. 그것들은 왜 합의가 작동하는지에 대한 진짜 이해를 보여주며, 제가 말하는 “문제에 대한 닫힘”이 바로 그것입니다.

5. 단계적 정제를 통해 대안을 탐색하라

TLA+의 가장 큰 강점 중 하나는 프로토콜 변형을 빠르게 탐색할 수 있게 해준다는 점입니다. 핵심 기법은 단계적 정제(stepwise refinement)입니다. 문제의 가장 추상적인 명세에서 시작한 뒤, 구현 세부를 점진적으로 추가하고, 각 단계에서 그 정제가 상위 수준의 불변식을 보존하는지 검증합니다.

대표적인 예는 다시 Lamport의 Paxos 도출입니다. 추상적 Consensus 명세는 빈 집합에서 싱글턴으로 전이하는 단일 변수 chosen을 정의합니다. 그다음 중간 단계의 Voting 모델이 정의되고 Consensus의 정제임이 보입니다. 그것은 투표가 만족해야 하는 성질을 설명하지만, acceptor가 그것을 어떻게 구현하는지는 말하지 않습니다. 마지막으로 Paxos 모델은 메시지 전달, ballot 리더, 2단계 프로토콜을 추가함으로써 Voting을 정제합니다. 각 수준에서 정제는 세부(ballot, quorum, 메시지)를 더하면서도 상위의 안전성 속성을 보존합니다.

정제는 추상화의 핵심이며 TLA+의 초석입니다. TLA+에서 정제는 단순히 함의입니다. 구체 시스템의 행동은 추상 시스템이 허용하는 행동의 부분집합이어야 합니다. 이것은 구체 명세 안에서 추상 명세의 instance를 선언하고, 구체 시스템의 모든 행동이 추상 시스템이 받아들이는 행동인지 TLC로 검증함으로써 확인합니다. 불변식 검사조차 변장한 정제입니다. 시스템 모델이 이 불변식 수식을 구현하는가?

단계적 정제의 큰 장점은 프로토콜 변형을 탐색하고 싶을 때 처음부터 다시 시작하지 않아도 된다는 것입니다. 적절한 추상화 수준으로 다시 올라가 정제 단계 하나를 바꾸면, 같은 상위 명세를 만족하는 다른 프로토콜을 얻게 됩니다. 이것이 체계적인 설계 공간 탐색입니다. 예를 들어 LeaseGuard에서는 초기에 Raft를 위한 lease protocol을 모델링하기 시작했습니다. 추상 명세를 정제하는 과정에서, 우리는 미리 예상하지 못했던 두 가지 최적화를 발견했는데, 그중 하나가 inherited lease reads였습니다. 여러 추상화 수준에서 생각하지 않았다면 아마 발견하지 못했을 것입니다.

여기서 흔한 실패 패턴은 어떤 세부 수준에 갇혀 모서리 사례를 하나씩 덧대며 패치하는 것입니다. 이것은 구현 마인드셋이 모델링으로 새어 들어온 경우입니다. 이런 일이 생기면 다시 위로 올라가십시오. Aurora DSQL의 Secondary Index 프로젝트에서 저는 이것을 보았습니다. 한 엔지니어의 설계는 점증적으로 커지고 있었고, 각 모서리 사례 패치가 새로운 모서리 사례를 만들고 있었습니다. TLA+는 다른 접근을 강제했습니다. secondary index가 추상적으로 무엇을 보장해야 하는지 명세하고, 그런 다음 정제를 통해 해법 공간을 탐색하는 방식입니다. 주말 동안, 아무 TLA+ 경험도 없던 그 엔지니어는 여러 변형을 작성했습니다. 교훈은 이것입니다. 구현이 아니라 행동을 명세하고, 정제를 통해 서로 다른 “어떻게” 선택지를 탐색하라.

6. 원자성을 과감하게 정제하라

지나치게 큰 원자적 액션은 경쟁 상태를 숨깁니다. TLA+ 액션이 한 단계에서 열 가지 일을 원자적으로 처리한다면, 여러분은 동시성을 카펫 아래로 쓸어 넣고 있는 것입니다. 모델은 올바르게 보이겠지만, 실제 시스템이 맞닥뜨릴 인터리빙을 나타내지 못합니다. 액션은 정확성이 허용하는 한 최대한 세분되어야 합니다. 더 작은 단계는 프로토콜이 견뎌야 하는 인터리빙을 드러내고, 불변식을 더 의미 있게 만듭니다.

실용적인 접근은 먼저 거친 입도로 시작해 정확성을 세운 뒤, 액션을 더 작은 단계로 체계적으로 분할하고 여전히 안전성이 성립하는지 검증하는 것입니다. 이것은 액션의 입도에 적용한 단계적 정제(정신 모델 5)입니다. 각 분할은 인터리빙 공간을 늘리며, 바로 그 지점에서 TLC가 진가를 발휘합니다. 간섭 표면적은 폭발할 수 있지만, TLC는 여러분의 불변식이 성립하는지 철저히 검사할 것입니다.

여기서 목표는 구현에 재정렬과 병렬화의 최대 자유를 주면서도, 그런 동시성 아래에서도 프로토콜이 올바름을 검증하는 것입니다. 명세에서 세분된 원자성은 구현이 가드 조건을 존중하는 한 어떤 순서로든 연산을 스케줄링할 수 있음을 뜻합니다.

우리의 StableEmptySet 프로젝트는 좋은 예입니다. Ernie Cohen은 분산 락킹을 피하기 위해 원자적 액션을 가능한 가장 미세한 입도로 밀어붙였고, 그 결과 프로토콜은 락 기반 설계보다 더 높은 동시성을 갖게 되었습니다. 인터리빙 표면적은 늘어났지만, TLC는 아무 어려움 없이 이를 처리했습니다. 여기서 “느림이 빠름이다”라는 통찰(정신 모델 3)이 다시 연결됩니다. 가드를 지역적으로 안정한 술어에 의존하도록 정제하면, 액션을 미세하게 나누더라도 불법적인 지식을 도입하지 않게 됩니다. 단계 사이에 전역 상태가 바뀌어도 가드는 여전히 유효하게 남기 때문입니다.

7. 여러분의 정신 모델을 공유하라

TLA+ 모델은 의사소통 도구이기도 합니다. 잘 쓰인 명세는 프로토콜의 정확하고 실행 가능한 문서 역할을 하며, 산문 명세나 코드 주석이 따라갈 수 없는 방식으로 설계 의도를 포착합니다.

AWS에서 제가 Aurora DSQL의 분산 트랜잭션 프로토콜에 대한 첫 TLA+ 모델을 썼을 때, 그 모델의 가치는 정확성에 대한 확신을 넘어서 빠르게 확장되었습니다. 그것은 큰 팀을 위한 의사소통의 기준점 역할을 했습니다. 우리가 추가적인 형식 기법 지원을 요청했을 때, TLA+ 모델은 새 팀원의 온보딩을 빠르게 했고 모두가 프로토콜 설계에 대해 정렬되도록 도왔습니다. 설계 문서의 모호한 산문을 두고 논쟁하는 대신, 팀은 명세 안의 특정 액션과 불변식을 가리킬 수 있었습니다.

우리의 MongoDB 분산 트랜잭션 작업도 이를 강화합니다. 우리는 이 프로토콜이 프로덕션에 들어간 지 여러 해가 지난 뒤에야 그 첫 모듈식 TLA+ 명세를 작성했습니다. 이 모델은 이제 그 프로토콜이 실제로 무엇을 보장하는지에 대한 권위 있는 설명 역할을 하며, 전체로서 추론하기 어려워진 시스템에 명확성을 가져다줍니다.

그러므로 여러분은 TLC만이 아니라 사람을 위해 명세를 써야 합니다. 명확한 액션 이름을 사용하고, TypeOK 불변식을 일찍 작성하십시오(이것은 데이터 모델에 대한 실행 가능한 문서 역할을 합니다). 그리고 중요한 모든 속성을 명시적 불변식으로 만드십시오. 잘 구조화된 명세는 수천 줄의 구현 코드보다 프로토콜 의도를 더 분명히 전달합니다. 오류 처리, 직렬화, 설정 같은 잡음을 제거하고 핵심 논리만 보여주기 때문입니다.

Spectacle 같은 도구는 TLA+ 상태 공간과 실행 트레이스를 시각화할 수 있어, 수학적 정확성과 엔지니어가 선호하는 운영적 직관 사이의 간극을 메워 줍니다. TLA+는 가장 순수한 지적 즐거움 중 하나입니다. 복잡한 분산 시스템을 그 본질적 논리로 환원하는 일이기 때문입니다. 여러분의 모델에 대해 글을 쓰고, 발표하고, 가르치는 데 활용함으로써 그 즐거움을 다른 사람들과도 나누어 주십시오.

LLM이 우리의 코드를 더 많이 작성하게 될수록, 설계와 추론을 위한 TLA+의 가치는 더욱 커질 것입니다. TLA+는 시스템을 구축하기 위한 AI+형식 기법 스택의 초석이 될 잠재력을 가지고 있습니다. 여기서 제가 설명한 정신 모델은 그 미래의 토대입니다. 추상화를 숙달하고, 전역 공유 메모리 모델을 받아들이고, 지역 가드로 정제하고, 좋은 불변식을 도출하고, 정제를 통해 대안을 탐색하고, 원자성을 과감하게 정제하고, 우리의 정신 모델을 공유함으로써, 우리는 AI 시대에 더 나은 분산 시스템을 설계하기 위한 TLA+의 완전한 힘을 끌어낼 수 있습니다.

정신 모델은 다음과 같습니다.

추상화, 추상화, 추상화
전역 공유 메모리 모델을 받아들여라
지역 가드와 효과로 정제하라 (느림이 빠름이다)
좋은 불변식을 도출하라
단계적 정제를 통해 대안을 탐색하라
원자성을 과감하게 정제하라
여러분의 정신 모델을 공유하라

1. 추상화, 추상화, 추상화

CosmosDB 일관성 모델링:우리는 CosmosDB의 클라이언트 관점 일관성 의미론을 명세해야 했습니다. 반패턴은 분산 데이터베이스 엔진 자체를 모델링하는 것이었을 텐데, 그렇게 했다면 즉시 상태 공간 폭발이 일어나고 명세도 읽기 어려워졌을 것입니다. 대신 우리는 클라이언트 관점 동작을 위한 "히스토리를 로그로 보는" 추상화만 모델링했습니다. 데이터베이스 내부 세부사항은 "환경"이었고, 우리가 추론하려는 것과는 무관했습니다. 우리는 복제 내부를 포착하기 위해 sort-merge를 사용했고, 일관성을 모델링하기 위해 read index를 사용했습니다. 이렇게 해서 다섯 가지 일관성 수준이 연산 히스토리 위의 명확한 술어가 되었습니다.
Aurora DSQL의 Secondary Index:여기서 우리는 secondary index에 집중하고, 데이터베이스의 나머지 부분은 연산 로그로 추상화했습니다. 로그는 State Machine Replication (SMR)의 흔한 추상화이며, SMR 자체도 데이터베이스와 데이터 저장소를 위한 흔한 추상화입니다. 문제를 본질적인 단면으로 잘라냄으로써, 우리는 복잡한 시스템을 다룰 수 있게 만들었습니다.

1. 추상화, 추상화, 추상화

2. 전역 공유 메모리 모델을 받아들여라

3. 지역 가드와 효과로 정제하라 (느림이 빠름이다)

4. 좋은 불변식을 도출하라

5. 단계적 정제를 통해 대안을 탐색하라

6. 원자성을 과감하게 정제하라

7. 여러분의 정신 모델을 공유하라

관련 추천 글

TLA+ 멘털 모델

LLM은 명세를 ‘감’으로 때우는 데 약하다

‘유효하지 않은 상태를 표현할 수 없게 만들어라’는 원칙은 해롭다

코드 재사용, 다형성, 추상화에 대하여

1. 추상화, 추상화, 추상화

2. 전역 공유 메모리 모델을 받아들여라

3. 지역 가드와 효과로 정제하라 (느림이 빠름이다)

4. 좋은 불변식을 도출하라

5. 단계적 정제를 통해 대안을 탐색하라

6. 원자성을 과감하게 정제하라

7. 여러분의 정신 모델을 공유하라

관련 추천 글

TLA+ 멘털 모델

LLM은 명세를 ‘감’으로 때우는 데 약하다

‘유효하지 않은 상태를 표현할 수 없게 만들어라’는 원칙은 해롭다

코드 재사용, 다형성, 추상화에 대하여