Building a Database on S3

Search This Blog

Metadata

넓은 의미의 분산 시스템과 그 밖의 여러 호기심거리들에 대해. 이 사이트의 의견은 전적으로 제 개인 의견입니다.

S3 위에 데이터베이스 구축하기

링크 가져오기
Facebook
X
Pinterest
이메일
기타 앱

March 04, 2026

일단 진정하시죠. 제가 새로운 S3 네이티브 데이터베이스를 공개하려는 건 아닙니다. 이 논문은 2008년에 나온 것입니다. 그 안의 많은 프로토콜은 오늘날 기준으로는 투박하게 느껴집니다. 그럼에도 현대의 클라우드 네이티브 데이터베이스를 규정하는 핵심 아이디어, 즉 스토리지와 컴퓨트를 분리한다는 원칙을 정확히 짚어냅니다. 저자들은 Amazon S3 위에 공유 디스크(shared-disk) 설계를 제안하고, 상태가 없는(stateless) 클라이언트가 트랜잭션을 실행하도록 합니다. 이 논문은 ‘serverless’라는 용어가 생기기 전부터 서버리스의 청사진을 제공합니다.

SQS를 WAL로, S3를 페이지 저장소로

2008년의 S3는 고통스러울 정도로 느렸고, 100 ms 읽기는 드물지 않았습니다. 그 지연을 숨기기 위해 데이터베이스는 “커밋(commit)”과 “적용(apply)”을 분리합니다. 클라이언트는 S3를 직접 건드리는 대신, 작고 멱등적인( idempotent) redo 로그를 Amazon Simple Queue Service(SQS)에 기록합니다. 그리고 이후 어떤 클라이언트가 비동기 체크포인트를 수행하면서 그 로그를 S3의 B-tree 페이지에 적용합니다.

이 설계는 현대의 분리형(disaggregated) 아키텍처와 강한 유사성을 보입니다. SQS는 write-ahead log(WAL)이자 logstore가 됩니다. S3는 pagestore가 됩니다. 현대의 Aurora도 유사한 논리를 따릅니다: 로그는 복제되고, 스토리지는 독립적으로 페이지를 물질화(materialize)합니다. 물론 Aurora에서는 주 쓰기 확인(primary write acknowledgment)이 스토리지 쿼럼 복제 이후 동기적으로 이뤄지고, 당연히 Aurora는 이 2008년 시스템처럼 클라이언트가 로그를 수동으로 끌어와 적용하는 방식에 의존하지도 않습니다. 하지만 제가 말하고 싶은 건 철학 자체는 동일하다는 점입니다.

SQS의 한계를 견디며, S3 위에 B-link 트리 구축하기

앞서 언급했듯이, 완전한 데이터 페이지를 S3에 직접 쓰는 데 따른 심각한 지연을 피하기 위해 클라이언트는 작은 redo 로그 레코드를 SQS 큐로 보내 트랜잭션을 커밋합니다. 이후 클라이언트가 체크포인터 역할을 하면서, 큐에 쌓인 로그를 비동기적으로 끌어와 로컬 사본에 업데이트를 적용한 다음, 새로 물질화된 B-tree 페이지를 S3에 다시 기록합니다. 이 비동기 로그-선적 모델에서는 S3의 B-tree 페이지가 SQS의 실시간 로그에 비해 임의로 오래된 상태일 수 있습니다. 그렇게 오래된 상태로 작업한다는 건 불가능해 보이지만, 저자들은 그 오래됨(staleness)을 제한합니다. 작성자(그리고 확률적으로는 읽기 작업도)는 비동기 체크포인트를 실행해 SQS에서 로그 배치를 끌어와 S3에 적용함으로써, 지연이 있더라도 데이터베이스의 일관성을 유지합니다.

하지만 SQS는 여기서 일을 더 꼬이게 만듭니다. 저는 논문이 묘사한 SQS(2008년 버전)에 처음엔 매우 놀랐습니다. 큐에 200개의 메시지가 있어도 클라이언트가 100개를 요청하면 무작위로 20개만 받을 수 있다는 겁니다. 이는 낮은 지연을 제공하기 위해 SQS가 분산된 서버 중 일부만을 대상으로 best-effort 폴링을 수행하고, 찾은 것만 즉시 반환하기 때문입니다. 그래도 걱정할 필요는 없습니다. 나머지 메시지가 사라지는 것은 아니고, 그 라운드에서 확인되지 않은 서버에 그대로 남아 있습니다. 하지만 이 저지연의 대가로 FIFO 순서는 보장되지 않습니다. 데이터베이스는 로그 레코드를 멱등적으로 만들고, 순서가 뒤바뀌거나 중복 처리되더라도 데이터가 절대 손상되지 않도록 이 난장판을 처리합니다.

논문 속 커밋 프로토콜은 사실 단순하게 시작합니다. 클라이언트가 로그 레코드를 Pending Update(PU) 큐로 곧바로 보냅니다. 하지만 이 순진한 직접 쓰기 방식의 문제는, 클라이언트가 커밋 도중 크래시하면 일부 레코드만 큐에 들어갈 수 있고, 그러면 원자성(atomicity)이 깨진다는 점입니다. 이를 해결하기 위해 논문은 원자성 프로토콜을 제안합니다. 클라이언트는 먼저 모든 로그와 마지막 “commit” 토큰을 사설 ATOMIC 큐에 덤프한 다음, 그 전체를 공개 PU 큐로 밀어 넣습니다. 이로써 all-or-nothing 트랜잭션이 보장되지만, 비용이 큽니다. SQS 메시지 하나하나가 비용을 누적시키기 때문입니다. 1,000 트랜잭션당 2.90 p e r 1,000 t r a n s a c t i o n s,i t′s a l m o s t t w e n t y t i m e s t h e 2.90 p e r 1,000 t r a n s a c t i o n s,i t′s a l m o s t t w e n t y t i m e s t h e 0.15의 순진한 직접 쓰기 방식에 비해 거의 20배에 가깝습니다. 그러니까 여기서는 일관성이 말 그대로 금전적 비용을 수반합니다!

여기서의 큰 그림은, 멍청한(cloud primitive 수준의) 클라우드 프리미티브 위에 진짜 데이터베이스를 만드는 일이 얼마나 가혹할 정도로 복잡한가 하는 것입니다. 작은 레코드를 페이지로 클러스터링하기 위해, Record Manager, Page Manager, 버퍼 풀을 전부 클라이언트 측에서 구현해야 했습니다. 분산 조정을 위해서는 SQS를 전용 LOCK 큐와 정교하게 타이밍을 맞춘 토큰으로 해킹해 락킹 시스템처럼 사용합니다. 게다가 앞서 논의한 것처럼 SQS의 특이한 동작을 처리하기 위해 멱등 로그 레코드까지 다뤄야 합니다. 엔지니어링 노력은 엄청납니다.

마지막으로, 느리고 약한 일관성의 S3 읽기를 다루기 위해 데이터베이스는 락-프리 B-link 트리에 의존합니다. 이렇게 하면 클라이언트가 백그라운드에서 체크포인트/업데이트를 수행하며 인덱스 페이지를 분할하거나 재구성하더라도, 읽기 작업은 계속 진행할 수 있습니다. B-link 트리에서 각 노드는 오른쪽 형제 노드를 가리킵니다. 체크포인트가 어떤 페이지를 분할하면, 읽기 작업은 블로킹 없이 그 포인터를 따라가면 됩니다. 업데이트 손상 위험은 여전히 존재하므로, LOCK 큐 토큰이 특정 PU 큐를 체크포인트하는 스레드가 한 번에 하나만 되도록 보장합니다. (제가 말했죠, 복잡하다고.) 논문은 이것이 심각한 병목이라고 인정합니다. 초당 수천 번 업데이트되는 핫스폿 객체는 이 설계로는 도저히 확장되지 않습니다.

격리 보장

극단적인 가용성을 우선하기 위해, 이 시스템은 전통적인 격리 보장을 창밖으로 던져버립니다. 논문은 ANSI SQL 스타일의 격리와 엄격한 일관성은 이 아키텍처에서 규모를 키우면 살아남을 수 없다고 말합니다. 원자성 프로토콜은 완전히 커밋된 로그만이 클라이언트의 사설 큐를 떠나도록 보장함으로써 더티 리드를 막지만, 커밋 시점의 read-write 및 write-write 충돌은 아예 무시됩니다! 두 클라이언트가 같은 레코드를 건드리면 last-writer wins입니다. 그래서 업데이트 손실(lost update)이 흔합니다. 이를 쓸 만하게 만들기 위해 저자들은 일관성을 클라이언트로 끌어올립니다. 단조 읽기(monotonic reads)를 보장하기 위해 각 클라이언트는 자신이 본 가장 높은 커밋 타임스탬프를 추적하고, S3에서 더 오래된 버전을 보면 이를 거부하고 다시 읽습니다. 단조 쓰기(monotonic writes)를 위해 클라이언트는 로그 레코드와 페이지 헤더에 버전 카운터를 찍습니다. 체크포인트는 로그를 정렬하고, 순서가 뒤바뀐 SQS 메시지는 지연시켜 각 클라이언트의 쓰기가 순서를 유지하도록 합니다.

논문에서 더 강한 격리에 대해 논의한 부분도 저는 놀랐습니다. 논문은 스냅샷 격리(snapshot isolation)가 아직 분산 시스템에서는 구현된 적이 없다고 주장하는데, 그 이유가 트랜잭션을 직렬화하기 위해 중앙집중형 전역 카운터가 엄격히 필요하다는 것입니다. 이는 치명적 병목이자 단일 장애점으로 지적됩니다.

되돌아보면, 이 주장은 구식임을 알 수 있습니다. 전역 카운터는 스냅샷 격리의 병목이 아닙니다. Amazon Aurora는 주 작성자(primary writer)를 통해 트랜잭션에 Global Log Sequence Number(GLSN)을 찍지만, 분리형 스토리지를 느리게 만들지 않으면서도 (수직적으로) 깔끔하게 확장합니다. 더 중요하게는, 현대의 분산 데이터베이스 시스템은 느슨하게 동기화된 물리 시계(그리고 hybrid logical clocks)를 사용해 중앙집중형 카운터 없이도 전역 순서를 제공합니다. 동기화된 시계가 있어서 정말 다행입니다!

결론

이 논문은 지저분했던 2008년 클라우드 환경을 우회해야 했지만, 멍청한 객체 스토리지 위에 서버리스 데이터베이스 아키텍처를 어떻게 구축할 수 있는지 보여줬다는 점에서 여전히 인상적입니다. 최근 몇 년 사이 S3는 더 빨라졌고, 2020년에는 모든 PUT과 DELETE에 대해 강한 read-after-write 일관성을 갖게 되었습니다. 그 덕분에 S3 위에 데이터베이스(특히 분석 워크로드)를 직접 구축하는 일이 훨씬 쉬워졌고, 이는 현대의 데이터 레이크와 레이크하우스 패러다임으로 이어졌습니다. 이 논문이 Databricks(Delta Lake), Apache Iceberg, Snowflake 같은 시스템의 토대를 일부 마련했다고 말할 수 있습니다.

cloud computing databases disaggregation distributed transactions snapshot isolation

링크 가져오기
Facebook
X
Pinterest
이메일
기타 앱

댓글 달기

이 블로그의 인기 게시물

분산 시스템 설계를 위한 힌트

October 02, 2023

SOSP'83에서 40년 전 "Hints for computer system design" 논문을 발표한 Butler Lampson께 사과를 전하며 시작합니다. 물론 제가 그 작업에 견줄 수 있다고 주장하는 건 아닙니다. 다만 분산 시스템을 설계하는 제 생각을 정리하고 다른 분들의 피드백을 받기 위해 이 글을 초안으로 써보고 싶었습니다. 저는 Lampson이 했던 것과 같은 단서를 먼저 달겠습니다. 이 힌트들은 새롭지 않고, 빈틈없는 요리법도 아니며, 설계의 법칙도 아니고, 정밀하게 정식화된 것도 아니며, 언제나 적절한 것도 아닙니다. 그저 힌트일 뿐입니다. 맥락에 따라 달라지며, 그중 일부는 논쟁적일 수도 있습니다. 그렇다고는 해도, 저는 이 분야에서 25년 동안(분산 시스템 이론(98-01)에서 시작해 무선 센서 네트워크 실무(01-11)에 깊이 들어갔고, 이후 학계와 산업에서 클라우드 컴퓨팅 시스템을 계속 다뤄오면서) 이 힌트들이 분산 시스템 설계에 성공적으로 적용되는 것을 보아왔습니다. 이러한 휴리스틱 원칙은 의식적으로든 무의식적으로든 적용되어 왔고, 그 효용이 입증되어 왔습니다...


0	20
1	17
2	100
3	95
4	49
5	50
6	54
7	26
8	37
9	8
10	16
11	14
12	15
13	27
14	14
15	11
16	19
17	22
18	27
19	17
20	20
21	13
22	24
23	11
24	13
25	13
26	14
27	17
28	34
29	19


0	20
1	17
2	100
3	95
4	49
5	50
6	54
7	26
8	37
9	8
10	16
11	14
12	15
13	27
14	14
15	11
16	19
17	22
18	27
19	17
20	20
21	13
22	24
23	11
24	13
25	13
26	14
27	17
28	34
29	19


0	20
1	17
2	100
3	95
4	49
5	50
6	54
7	26
8	37
9	8
10	16
11	14
12	15
13	27
14	14
15	11
16	19
17	22
18	27
19	17
20	20
21	13
22	24
23	11
24	13
25	13
26	14
27	17
28	34
29	19


0	20
1	17
2	100
3	95
4	49
5	50
6	54
7	26
8	37
9	8
10	16
11	14
12	15
13	27
14	14
15	11
16	19
17	22
18	27
19	17
20	20
21	13
22	24
23	11
24	13
25	13
26	14
27	17
28	34
29	19

S3 위에 데이터베이스 구축하기

Building a Database on S3

Search This Blog

S3 위에 데이터베이스 구축하기

SQS를 WAL로, S3를 페이지 저장소로

SQS의 한계를 견디며, S3 위에 B-link 트리 구축하기

격리 보장

결론

댓글

이 블로그의 인기 게시물

이메일로 구독

페이지뷰

최근 글

주제

관련 추천 글

Glassdb: 트랜잭션 객체 스토리지

DSQL 비네트: Aurora DSQL, 그리고 개인적인 이야기

노트: 디스어그리게이티드(분리형) OLTP 시스템

Dynamo, DynamoDB, 그리고 Aurora DSQL

Building a Database on S3

Search This Blog

S3 위에 데이터베이스 구축하기

SQS를 WAL로, S3를 페이지 저장소로

SQS의 한계를 견디며, S3 위에 B-link 트리 구축하기

격리 보장

결론

댓글

이 블로그의 인기 게시물

이메일로 구독

페이지뷰

최근 글

주제

관련 추천 글

Glassdb: 트랜잭션 객체 스토리지

DSQL 비네트: Aurora DSQL, 그리고 개인적인 이야기

노트: 디스어그리게이티드(분리형) OLTP 시스템

Dynamo, DynamoDB, 그리고 Aurora DSQL


0	20
1	17
2	100
3	95
4	49
5	50
6	54
7	26
8	37
9	8
10	16
11	14
12	15
13	27
14	14
15	11
16	19
17	22
18	27
19	17
20	20
21	13
22	24
23	11
24	13
25	13
26	14
27	17
28	34
29	19


0	20
1	17
2	100
3	95
4	49
5	50
6	54
7	26
8	37
9	8
10	16
11	14
12	15
13	27
14	14
15	11
16	19
17	22
18	27
19	17
20	20
21	13
22	24
23	11
24	13
25	13
26	14
27	17
28	34
29	19