CockroachDB의 쿼리 옵티마이저 (2020)

CockroachDB: Postgres 호환 Geo-Distributed SQL 데이터베이스

아키텍처

Shared-nothing
분산 KV 계층 위에 분산 SQL 계층이 올라가는 구조로 구성됨

이 발표는 SQL 계층에 초점을 맞춘다.

Query Optimization in CockroachDB

왜 Postgres(또는 다른 OSS) 옵티마이저를 쓰지 않았나?
- CockroachDB 코드베이스는 Go로 작성되어 있다. pg의 옵티마이저는 C로 되어 있다. Go에서 C를 호출하는 오버헤드를 원하지 않았다.
- CockroachDB에서의 실행 계획은 매우 다르다. 단일 노드에서 매우 잘 동작하는 계획이, 멀리 떨어진 노드들에 분산되면 성능이 나쁠 수 있다.
- 옵티마이저는 DB 성능의 핵심이며, 다른 옵티마이저를 쓰면 통제력을 유지할 수 없다.
CDB의 첫 번째 옵티마이저
- 사실상 옵티마이저가 아니었다. 휴리스틱(규칙)으로 실행 계획을 선택했다.
  - 예: “인덱스가 있으면 항상 사용한다”
- 시간이 지나면서 규칙이 이런 형태가 되기 시작했다:
  - “항상 인덱스를 사용하되, 테이블이 아주 작거나 75% 이상의 행을 스캔할 것으로 예상되거나, 인덱스가 원격 머신에 있을 때는 제외”
- 관리가 어려워졌다.
- 이런 종류의 옵티마이저는 OLTP에는 동작하지만, 고객들이 CDB를 OLAP 쿼리에도 사용하고 있었다.
비용 기반(cost-based) 옵티마이저
- 경직된 규칙을 적용하는 대신, 여러 대안을 고려한다.
- 각 대안에 비용을 부여하고 가장 낮은 비용 옵션을 선택한다.
- 통합 검색(unified search)을 갖춘 Cascade 스타일 최적화
- 대안은 어떻게 생성하나?
  - SQL 쿼리로부터 기본 계획을 시작점으로 삼는다.
  - 일련의 변환을 수행한다(무엇을?)
  - 대안들을 memo라는 컴팩트한 자료구조에 저장한다.
    - https://www.querifylabs.com/blog/memoization-in-cost-based-optimizers
    - https://sqlserverperformace.blogspot.com/2020/03/inside-sql-server-query-optimizer-part.html

Q/A

Postgres처럼 초기 비용은 저렴한 근사치로 계산하고, 나머지를 끝까지 하기로 결정하면 최종 비용을 계산하는 식의 작업을 하거나, 아니면 단일 비용 모델이 단일 값을 내는 방식인가?
- 현재는 단일 값만 사용한다.
비용 모델 추정을 논리 노드(logical node)에서 할 수 있나, 아니면 항상 물리 노드(physical node)여야 하나?
- 논리 노드와 물리 노드의 개념을 합쳤다. 예를 들어 논리적 조인이라는 개념이 없다. 우리에게 논리적 조인은 곧 해시 조인이다.

Generating alternative plans

계획 생성 단계
- Parse -> Optbuild -> Normalize -> Explore -> DistSQL planning
예시 쿼리

CREATE TABLE ab (a INT PRIMARY KEY, b INT, INDEX(b));
CREATE TABLE cd (c INT PRIMARY KEY, d INT);
SELECT * FROM ab JOIN cd ON b=c WHERE b>1;

Parsing

SQL 쿼리를 파싱한다. pg와 유사한 yak 파일을 사용한다.

Optbuild

파서의 AST를 받아 예비(preliminary) 쿼리 계획을 만든다.

ConstructSelect(
    ConstructInnerJoin(
        ConstructScan(),
        ConstructScan(),
        ConstructFiltersItem(
            ConstructEq(
                ConstructVariable(),
                ConstructVariable(),
            ),
        ),
    ),
    ConstructFiltersItem(
        ConstructGt(
            ConstructVariable(),
            ConstructConst(),
        ),
    ),
)

의미(semantic) 분석도 수행한다. 예:
- 쿼리에 등장하는 테이블이 실제로 존재하는가? 현재 사용자가 이를 읽을 권한이 있는가?
- 해당 테이블에 그 컬럼이 존재하는가? 유일한가?
- *가 어떤 컬럼들을 선택하는가?
- 동등 비교에서 타입이 맞는가?
Q/A:
- 준비된 문(prepared statement) 값에 타입을 바인딩하려고 시도하는 시점은 언제인가?
  - optbuild 단계에서 일어난다.

Normalization

optbuild 단계와 병렬로 수행된다. 중첩된 함수 호출들은 여러 정규화 규칙으로부터 생성된 팩토리 메서드들이다.
각 팩토리 함수에는 여러 정규화 규칙이 들어 있으며, 이들이 실행되면서 출력이 수정되고 전체 정규화 계획이 만들어진다.

그림에서는 b=c라는 사실을 이용해, b>1이면 c>1임을 추론하고 필터를 조인 아래로 푸시다운했다.
정규화 규칙
- 논리적으로 동등한 관계 표현식(relation expression)을 만든다.
- 정규화(또는 “재작성”) 규칙은 거의 항상 적용하는 편이 좋다.
- 예:
  - 불필요한 연산 제거: NOT (NOT) x -> x
  - 표현식 정규형으로 변환: 5 = x -> x = 5
  - 상수 폴딩: length('abc') -> 3
  - 술어(predicate) 푸시다운
  - 서브쿼리의 비상관화(de-correlation)

DSL : Optgen

정규화 및 탐색(exploration) 규칙을 표현하는 DSL.
Go의 팩토리 함수로 컴파일되며, Optbuild에서 호출된다.
예시

# EliminateNot discards a doubled Not operator // 규칙을 설명하는 코멘트

[EliminateNot, Normalize] // rulename, tag가 있는 헤더
(Not (Not $input:*)) // 규칙 매칭
=>
$input // 표현식 치환

// ConstructNot constructs an expression for the Not operator.
func (_f *Factory) ConstructNot(input opt.ScalarExpr) opt.ScalarExpr {
	// [EliminateNot]
	{
		_not, _ := input.(*memo.NotExpr)
		if _not != nil {
			input := _not.Input
			if _f.matchedRule == nil || _f.matchedRule(opt.EliminateNot) {
				_expr := input
				return _expr
			}
		}
	}
	// ... other rules ...
	e := _f.mem.MemoizeNot(input)
	return _f.onConstructScalar(e)
}

# MergeSelects combines two nested Select operators into a single Select that
# ANDs the filter conditions of the two Selects.

[MergeSelects, Normalize]
(Select (Select $input:* $innerFilters:*) $filters:*)
=>
(Select $input (ConcatFilters $innerFilters $filters))

// [MergeSelects]
{
	_select, _ := input.(*memo.SelectExpr)
	if _select != nil {
		input := _select.Input
		innerFilters := _select.Filters
		if _f.matchedRule == nil || _f.matchedRule(opt.MergeSelects) {
			_expr := _f.ConstructSelect(
				input,
				// DSL은 (ConcatFilters 같은) 임의의 Go 함수를 호출할 수 있게 해주며
				// 이런 함수들은 그들이 정의한다.
				_f.funcs.ConcatFilters(innerFilters, filters),
			)
			return _expr
		}
	}
}

Q/A

DSL은 Go에 얼마나 종속적인가?
- Go 특유의 PL 기능은 쓰지 않는다. 다른 언어로도 다시 작성할 수 있다.

Exploration

탐색 규칙은 더 나은 계획을 만들 수도, 만들지 못할 수도 있으므로, 정규화처럼 대체(replacement)하지 않고 두 대안을 모두 유지한다.
DSL에서 Normalize 규칙과 동일한 문법이지만 태그가 다르다(Explore).
예:
- 조인 재정렬: A join (B join C) -> (A join B) join C
- 조인 알고리즘(예: hash join, merge join, lookup join)
- 인덱스 선택

Memo after normalization

Memo는 쿼리 계획 트리를 저장한다. 여러 그룹들의 연속으로 구성된다.
Memo 그룹에는 스칼라 표현식도 저장하지만, 아래 이미지는 관계 표현식만 보여준다.
그룹은 다른 그룹을 참조할 수 있다. 예: Group 1은 Group 2와 3 사이의 inner join을 수행한다.

탐색에서는 그룹들을 순회하며 어떤 탐색 규칙이 매칭되는지 확인한다.

GenerateIndexScans는 기본 키 인덱스가 아니라 보조 인덱스를 스캔하는 대체 스캔을 생성했다.

https://www.querifylabs.com/blog/memoization-in-cost-based-optimizers 의 예시

최적의 계획은 비용 결정 이후 다음 단계로 전달된다.

DistSQL Planning

옵티마이저로부터 계획을 받아, 클러스터 토폴로지에 맞게 확장한다.

현재는 테이블이 디스크에 어떻게 배치되어 있는지, 조인을 위해 더 작은 테이블의 데이터를 다른 쪽으로 브로드캐스트하는 최적화 등은 활용하지 않지만, 가까운 미래에 계획되어 있다.

Choosing a Plan

비용에 영향을 주는 요소:
- 하드웨어 구성
- 데이터 분포
- 연산자 타입
  - 서로 다른 연산자들의 상대적 비용을 이해하기 위해 벤치마킹을 수행했다(질의가 달라져도 크게 변하지 않을 것이라는 가정 하에서).
  - 이 상대 비용은 비용 모델에 하드코딩되어 있다.
- 각 연산자가 처리하는 행 수

각 연산자가 처리하는 행 수

통계 수집: 행 수(Row count), 고유 개수(Distinct count), Null 개수(Null count), 히스토그램
단일 컬럼 통계뿐 아니라 다중 컬럼 통계도 수집한다.
- 인덱스를 이용해 어떤 컬럼 조합에 대해 다중 컬럼 통계를 수집할지 결정한다.
  - 예: (a, b, c) 인덱스가 있으면, (a,b)와 (a,b,c)에 대해 다중 컬럼 통계를 수집한다.
통계 수집(CREATE STATISTICS): 전체 테이블 스캔 -> 샘플링 수행(크기: 10K rows) -> 각 행을 HyperLogLog 스케치에 넣어 각 컬럼의 distinct count를 계산 -> 샘플 집계
CREATE STATISTICS는 다음 경우 자동으로 실행된다:
- 테이블이 생성될 때
- 새 컬럼이나 인덱스가 추가될 때
- 테이블 데이터의 ~20%가 변경되었을 때
데이터의 20%가 변경되었다는 것은 어떻게 판단하나?
- 어떤 노드에서 변경(mutation)이 발생한 뒤, 확률에 따라 통계 수집이 트리거된다.
- P(refresh) = no. of rows updated / (no. of rows in table * 0.20)
아직 통계가 없거나, 마지막 리프레시 이후 시간이 꽤 지났으면 항상 리프레시한다.
각 통계 생성 실행은 몇 분이 걸린다. 전체 테이블 스캔은 성능에 영향을 줄 수 있다. 동시에 많은 테이블 스캔이 발생하면 클러스터가 다운될 수 있다.
성능 영향을 최소화하기 위해
- CREATE STATISTICS를 job으로 실행한다.
  - 한 번에 1개의 통계 job만 실행됨을 보장한다.
  - 노드 장애에 탄력적이다.
- 스로틀링을 사용해 통계 job의 CPU 사용량을 제한한다.

Locality-Aware SQL Optimization

고객은 (옵션으로) 각 locality에 읽기 위주 데이터를 복제할 수 있다.
- 복제 제약(replication constraints)을 사용해 복제본을 서로 다른 지리적 리전에 고정(pinning)한다(예: US-East, US-West, EU).
  - 즉, 기본 키와 비슷하게 테이블에서 인덱스 키를 중복한다.
- 옵티마이저는 비용 모델에 locality를 포함하고, 같은 locality의 인덱스를 자동으로 선택한다: primary, idx_eu 또는 idx_usw

CREATE TABLE postal_code (
	id INT PRIMARY KEY,
	code STRING,
	INDEX idx_eu (id) STORING (code),
	INDEX idx_usw (id) STORING (code),
)

같은 locality의 데이터를 사용하도록 쿼리를 계획한다.
다음은? (자세한 내용은 첨부 슬라이드 참고)
- 중복 인덱스를 “global tables”로 대체
  - https://www.cockroachlabs.com/blog/global-tables-in-cockroachdb/
- geo-partitioned unique index 지원
- DistSQL planning을 옵티마이저로 이동
- 비용 모델에 지연시간(latency) 반영

Theory vs. Practice

OLTP 최적화

단순 휴리스틱 플래너에서 비용 기반 옵티마이저로 전환했을 때, 단순한 OLTP 쿼리(예: 기본 키 조회)에 대한 오버헤드를 최소화하는 데 많은 집중이 필요했다. 휴리스틱 플래너는 문제가 있었지만 매우 빨랐기 때문이다.
- 최적화에 필수적인 논리적 속성을 활용했다.
  - 카디널리티(cardinality, 통계와는 다름)
  - 함수 종속성(functional dependencies)
  - non-null 컬럼 등
정규화 규칙은 매우 중요하다. 이 발표 시점 기준으로 정규화 규칙 242개, 탐색 규칙 29개가 있다.
외래 키 검사 및 cascade를 “post queries”로 최적화
- 외래 키 검사(예: 다른 부모 테이블을 참조하는 자식 테이블에 값을 삽입할 때, 부모 테이블에 해당 값이 존재하는지 확인해야 함)는 조인을 사용하며 최적화할 수 있다.
- 문(statement)이 실행된 뒤(아직 값을 반환하기 전)에 수행된다.

조인 순서(Join Ordering)

v1은 조인 순서 최적화 없이 출시되었다.
처음에는 2개의 규칙으로 구현했다: CommuteJoin, AssociateJoin
- 매우 비효율적이었다.
- 기본 설정으로 최대 4개 테이블까지만 재정렬했다.
한 인턴이 “Guido Moerkotte, Pit Fender, and Marius Eich. 2013. On the correct and complete enumeration of the core search space.”의 DP SUBE를 구현하여 더 효율적으로 만들었다.
- 이제 기본 설정으로 최대 8개 테이블까지 순서를 정한다.

Query Cache

SQL 문자열을 키로 하는 LRU 캐시
최적화된 memo를 저장
placeholder가 있는 prepared statement의 경우
- 정규화된 memo를 저장
- 실행 중에 placeholder를 치환한 뒤, 추가 정규화와 탐색을 수행

Other features

옵티마이저 힌트
- CockroachDB는 힌트로 특정 인덱스와 조인 타입을 강제할 수 있다.
디버깅 도구 EXPLAIN ANALYZE (DEBUG) ...
- 통계, 스키마, 환경 변수, 여러 verbosity에서의 쿼리 계획을 포함한 번들을 생성한다.

Q/A

옵티마이저는 어떻게 테스트하나? 비용 모델이 제대로 동작하는지 어떻게 테스트하나?
- 선택된 계획이 최선의 계획임을 증명하지는 않는다. 대부분 계획의 정합성(correctness) 테스트에 집중한다.
- 기존 쿼리들이 퇴행(regress)하지 않도록 정기적으로 벤치마킹을 수행한다.
입력 파라미터만으로 필요한 모든 것을 디버깅할 수 있나?
- 지금은 충분하다. 클러스터 토폴로지와 데이터 분포를 더 인지하도록 비용 모델에 더 많은 것을 추가하기 시작하면, 더 많은 정보가 필요할 것이다.
어떤 종류의 SQL fuzzer를 돌리나?
- 그렇다. SQLSmith. 주로 내부 오류가 있는지 확인하기 위한 것이다.
- Manuel Rigger는 SQLLancer로 논리적 정합성을 테스트했고 많은 이슈를 열었다.
  - https://www.manuelrigger.at/dbms-bugs/
일반적으로 어떤 복잡도의 쿼리를 보나? Cockroach는 Snowflake 같은 시스템이 아니라서 복잡한 쿼리는 그쪽으로 밀릴 수 있는데, TPC-H, TPC-DS 정도로 제한되나?
- 복잡한 쿼리는 흔치 않다.
재작성 규칙이 처리할 수 있는 복잡도에 제한이 있나? 임의의(그들이 프로그래밍한) Go 함수를 호출할 수 있다고 했는데.
- 사용자 정의 함수(User-Defined functions)는 허용하지 않는다. 모든 함수는 팀 멤버 중 누군가가 리뷰한다.

Appendix

CockroachDB: Postgres 호환 Geo-Distributed SQL 데이터베이스

아키텍처

Shared-nothing
분산 KV 계층 위에 분산 SQL 계층이 올라가는 구조로 구성됨

이 발표는 SQL 계층에 초점을 맞춘다.

Query Optimization in CockroachDB

왜 Postgres(또는 다른 OSS) 옵티마이저를 쓰지 않았나?
- CockroachDB 코드베이스는 Go로 작성되어 있다. pg의 옵티마이저는 C로 되어 있다. Go에서 C를 호출하는 오버헤드를 원하지 않았다.
- CockroachDB에서의 실행 계획은 매우 다르다. 단일 노드에서 매우 잘 동작하는 계획이, 멀리 떨어진 노드들에 분산되면 성능이 나쁠 수 있다.
- 옵티마이저는 DB 성능의 핵심이며, 다른 옵티마이저를 쓰면 통제력을 유지할 수 없다.
CDB의 첫 번째 옵티마이저
- 사실상 옵티마이저가 아니었다. 휴리스틱(규칙)으로 실행 계획을 선택했다.
  - 예: “인덱스가 있으면 항상 사용한다”
- 시간이 지나면서 규칙이 이런 형태가 되기 시작했다:
  - “항상 인덱스를 사용하되, 테이블이 아주 작거나 75% 이상의 행을 스캔할 것으로 예상되거나, 인덱스가 원격 머신에 있을 때는 제외”
- 관리가 어려워졌다.
- 이런 종류의 옵티마이저는 OLTP에는 동작하지만, 고객들이 CDB를 OLAP 쿼리에도 사용하고 있었다.
비용 기반(cost-based) 옵티마이저
- 경직된 규칙을 적용하는 대신, 여러 대안을 고려한다.
- 각 대안에 비용을 부여하고 가장 낮은 비용 옵션을 선택한다.
- 통합 검색(unified search)을 갖춘 Cascade 스타일 최적화
- 대안은 어떻게 생성하나?
  - SQL 쿼리로부터 기본 계획을 시작점으로 삼는다.
  - 일련의 변환을 수행한다(무엇을?)
  - 대안들을 memo라는 컴팩트한 자료구조에 저장한다.
    - https://www.querifylabs.com/blog/memoization-in-cost-based-optimizers
    - https://sqlserverperformace.blogspot.com/2020/03/inside-sql-server-query-optimizer-part.html

Q/A

Postgres처럼 초기 비용은 저렴한 근사치로 계산하고, 나머지를 끝까지 하기로 결정하면 최종 비용을 계산하는 식의 작업을 하거나, 아니면 단일 비용 모델이 단일 값을 내는 방식인가?
- 현재는 단일 값만 사용한다.
비용 모델 추정을 논리 노드(logical node)에서 할 수 있나, 아니면 항상 물리 노드(physical node)여야 하나?
- 논리 노드와 물리 노드의 개념을 합쳤다. 예를 들어 논리적 조인이라는 개념이 없다. 우리에게 논리적 조인은 곧 해시 조인이다.

Generating alternative plans

계획 생성 단계
- Parse -> Optbuild -> Normalize -> Explore -> DistSQL planning
예시 쿼리

CREATE TABLE ab (a INT PRIMARY KEY, b INT, INDEX(b));
CREATE TABLE cd (c INT PRIMARY KEY, d INT);
SELECT * FROM ab JOIN cd ON b=c WHERE b>1;

Parsing

SQL 쿼리를 파싱한다. pg와 유사한 yak 파일을 사용한다.

Optbuild

파서의 AST를 받아 예비(preliminary) 쿼리 계획을 만든다.

ConstructSelect(
    ConstructInnerJoin(
        ConstructScan(),
        ConstructScan(),
        ConstructFiltersItem(
            ConstructEq(
                ConstructVariable(),
                ConstructVariable(),
            ),
        ),
    ),
    ConstructFiltersItem(
        ConstructGt(
            ConstructVariable(),
            ConstructConst(),
        ),
    ),
)

의미(semantic) 분석도 수행한다. 예:
- 쿼리에 등장하는 테이블이 실제로 존재하는가? 현재 사용자가 이를 읽을 권한이 있는가?
- 해당 테이블에 그 컬럼이 존재하는가? 유일한가?
- *가 어떤 컬럼들을 선택하는가?
- 동등 비교에서 타입이 맞는가?
Q/A:
- 준비된 문(prepared statement) 값에 타입을 바인딩하려고 시도하는 시점은 언제인가?
  - optbuild 단계에서 일어난다.

Normalization

optbuild 단계와 병렬로 수행된다. 중첩된 함수 호출들은 여러 정규화 규칙으로부터 생성된 팩토리 메서드들이다.
각 팩토리 함수에는 여러 정규화 규칙이 들어 있으며, 이들이 실행되면서 출력이 수정되고 전체 정규화 계획이 만들어진다.

그림에서는 b=c라는 사실을 이용해, b>1이면 c>1임을 추론하고 필터를 조인 아래로 푸시다운했다.
정규화 규칙
- 논리적으로 동등한 관계 표현식(relation expression)을 만든다.
- 정규화(또는 “재작성”) 규칙은 거의 항상 적용하는 편이 좋다.
- 예:
  - 불필요한 연산 제거: NOT (NOT) x -> x
  - 표현식 정규형으로 변환: 5 = x -> x = 5
  - 상수 폴딩: length('abc') -> 3
  - 술어(predicate) 푸시다운
  - 서브쿼리의 비상관화(de-correlation)

DSL : Optgen

정규화 및 탐색(exploration) 규칙을 표현하는 DSL.
Go의 팩토리 함수로 컴파일되며, Optbuild에서 호출된다.
예시

# EliminateNot discards a doubled Not operator // 규칙을 설명하는 코멘트

[EliminateNot, Normalize] // rulename, tag가 있는 헤더
(Not (Not $input:*)) // 규칙 매칭
=>
$input // 표현식 치환

// ConstructNot constructs an expression for the Not operator.
func (_f *Factory) ConstructNot(input opt.ScalarExpr) opt.ScalarExpr {
	// [EliminateNot]
	{
		_not, _ := input.(*memo.NotExpr)
		if _not != nil {
			input := _not.Input
			if _f.matchedRule == nil || _f.matchedRule(opt.EliminateNot) {
				_expr := input
				return _expr
			}
		}
	}
	// ... other rules ...
	e := _f.mem.MemoizeNot(input)
	return _f.onConstructScalar(e)
}

# MergeSelects combines two nested Select operators into a single Select that
# ANDs the filter conditions of the two Selects.

[MergeSelects, Normalize]
(Select (Select $input:* $innerFilters:*) $filters:*)
=>
(Select $input (ConcatFilters $innerFilters $filters))

// [MergeSelects]
{
	_select, _ := input.(*memo.SelectExpr)
	if _select != nil {
		input := _select.Input
		innerFilters := _select.Filters
		if _f.matchedRule == nil || _f.matchedRule(opt.MergeSelects) {
			_expr := _f.ConstructSelect(
				input,
				// DSL은 (ConcatFilters 같은) 임의의 Go 함수를 호출할 수 있게 해주며
				// 이런 함수들은 그들이 정의한다.
				_f.funcs.ConcatFilters(innerFilters, filters),
			)
			return _expr
		}
	}
}

Q/A

DSL은 Go에 얼마나 종속적인가?
- Go 특유의 PL 기능은 쓰지 않는다. 다른 언어로도 다시 작성할 수 있다.

Exploration

탐색 규칙은 더 나은 계획을 만들 수도, 만들지 못할 수도 있으므로, 정규화처럼 대체(replacement)하지 않고 두 대안을 모두 유지한다.
DSL에서 Normalize 규칙과 동일한 문법이지만 태그가 다르다(Explore).
예:
- 조인 재정렬: A join (B join C) -> (A join B) join C
- 조인 알고리즘(예: hash join, merge join, lookup join)
- 인덱스 선택

Memo after normalization

Memo는 쿼리 계획 트리를 저장한다. 여러 그룹들의 연속으로 구성된다.
Memo 그룹에는 스칼라 표현식도 저장하지만, 아래 이미지는 관계 표현식만 보여준다.
그룹은 다른 그룹을 참조할 수 있다. 예: Group 1은 Group 2와 3 사이의 inner join을 수행한다.

탐색에서는 그룹들을 순회하며 어떤 탐색 규칙이 매칭되는지 확인한다.

GenerateIndexScans는 기본 키 인덱스가 아니라 보조 인덱스를 스캔하는 대체 스캔을 생성했다.

https://www.querifylabs.com/blog/memoization-in-cost-based-optimizers 의 예시

최적의 계획은 비용 결정 이후 다음 단계로 전달된다.

DistSQL Planning

옵티마이저로부터 계획을 받아, 클러스터 토폴로지에 맞게 확장한다.

현재는 테이블이 디스크에 어떻게 배치되어 있는지, 조인을 위해 더 작은 테이블의 데이터를 다른 쪽으로 브로드캐스트하는 최적화 등은 활용하지 않지만, 가까운 미래에 계획되어 있다.

Choosing a Plan

비용에 영향을 주는 요소:
- 하드웨어 구성
- 데이터 분포
- 연산자 타입
  - 서로 다른 연산자들의 상대적 비용을 이해하기 위해 벤치마킹을 수행했다(질의가 달라져도 크게 변하지 않을 것이라는 가정 하에서).
  - 이 상대 비용은 비용 모델에 하드코딩되어 있다.
- 각 연산자가 처리하는 행 수

각 연산자가 처리하는 행 수

통계 수집: 행 수(Row count), 고유 개수(Distinct count), Null 개수(Null count), 히스토그램
단일 컬럼 통계뿐 아니라 다중 컬럼 통계도 수집한다.
- 인덱스를 이용해 어떤 컬럼 조합에 대해 다중 컬럼 통계를 수집할지 결정한다.
  - 예: (a, b, c) 인덱스가 있으면, (a,b)와 (a,b,c)에 대해 다중 컬럼 통계를 수집한다.
통계 수집(CREATE STATISTICS): 전체 테이블 스캔 -> 샘플링 수행(크기: 10K rows) -> 각 행을 HyperLogLog 스케치에 넣어 각 컬럼의 distinct count를 계산 -> 샘플 집계
CREATE STATISTICS는 다음 경우 자동으로 실행된다:
- 테이블이 생성될 때
- 새 컬럼이나 인덱스가 추가될 때
- 테이블 데이터의 ~20%가 변경되었을 때
데이터의 20%가 변경되었다는 것은 어떻게 판단하나?
- 어떤 노드에서 변경(mutation)이 발생한 뒤, 확률에 따라 통계 수집이 트리거된다.
- P(refresh) = no. of rows updated / (no. of rows in table * 0.20)
아직 통계가 없거나, 마지막 리프레시 이후 시간이 꽤 지났으면 항상 리프레시한다.
각 통계 생성 실행은 몇 분이 걸린다. 전체 테이블 스캔은 성능에 영향을 줄 수 있다. 동시에 많은 테이블 스캔이 발생하면 클러스터가 다운될 수 있다.
성능 영향을 최소화하기 위해
- CREATE STATISTICS를 job으로 실행한다.
  - 한 번에 1개의 통계 job만 실행됨을 보장한다.
  - 노드 장애에 탄력적이다.
- 스로틀링을 사용해 통계 job의 CPU 사용량을 제한한다.

Locality-Aware SQL Optimization

고객은 (옵션으로) 각 locality에 읽기 위주 데이터를 복제할 수 있다.
- 복제 제약(replication constraints)을 사용해 복제본을 서로 다른 지리적 리전에 고정(pinning)한다(예: US-East, US-West, EU).
  - 즉, 기본 키와 비슷하게 테이블에서 인덱스 키를 중복한다.
- 옵티마이저는 비용 모델에 locality를 포함하고, 같은 locality의 인덱스를 자동으로 선택한다: primary, idx_eu 또는 idx_usw

CREATE TABLE postal_code (
	id INT PRIMARY KEY,
	code STRING,
	INDEX idx_eu (id) STORING (code),
	INDEX idx_usw (id) STORING (code),
)

같은 locality의 데이터를 사용하도록 쿼리를 계획한다.
다음은? (자세한 내용은 첨부 슬라이드 참고)
- 중복 인덱스를 “global tables”로 대체
  - https://www.cockroachlabs.com/blog/global-tables-in-cockroachdb/
- geo-partitioned unique index 지원
- DistSQL planning을 옵티마이저로 이동
- 비용 모델에 지연시간(latency) 반영

Theory vs. Practice

OLTP 최적화

단순 휴리스틱 플래너에서 비용 기반 옵티마이저로 전환했을 때, 단순한 OLTP 쿼리(예: 기본 키 조회)에 대한 오버헤드를 최소화하는 데 많은 집중이 필요했다. 휴리스틱 플래너는 문제가 있었지만 매우 빨랐기 때문이다.
- 최적화에 필수적인 논리적 속성을 활용했다.
  - 카디널리티(cardinality, 통계와는 다름)
  - 함수 종속성(functional dependencies)
  - non-null 컬럼 등
정규화 규칙은 매우 중요하다. 이 발표 시점 기준으로 정규화 규칙 242개, 탐색 규칙 29개가 있다.
외래 키 검사 및 cascade를 “post queries”로 최적화
- 외래 키 검사(예: 다른 부모 테이블을 참조하는 자식 테이블에 값을 삽입할 때, 부모 테이블에 해당 값이 존재하는지 확인해야 함)는 조인을 사용하며 최적화할 수 있다.
- 문(statement)이 실행된 뒤(아직 값을 반환하기 전)에 수행된다.

조인 순서(Join Ordering)

v1은 조인 순서 최적화 없이 출시되었다.
처음에는 2개의 규칙으로 구현했다: CommuteJoin, AssociateJoin
- 매우 비효율적이었다.
- 기본 설정으로 최대 4개 테이블까지만 재정렬했다.
한 인턴이 “Guido Moerkotte, Pit Fender, and Marius Eich. 2013. On the correct and complete enumeration of the core search space.”의 DP SUBE를 구현하여 더 효율적으로 만들었다.
- 이제 기본 설정으로 최대 8개 테이블까지 순서를 정한다.

Query Cache

SQL 문자열을 키로 하는 LRU 캐시
최적화된 memo를 저장
placeholder가 있는 prepared statement의 경우
- 정규화된 memo를 저장
- 실행 중에 placeholder를 치환한 뒤, 추가 정규화와 탐색을 수행

Other features

옵티마이저 힌트
- CockroachDB는 힌트로 특정 인덱스와 조인 타입을 강제할 수 있다.
디버깅 도구 EXPLAIN ANALYZE (DEBUG) ...
- 통계, 스키마, 환경 변수, 여러 verbosity에서의 쿼리 계획을 포함한 번들을 생성한다.

Q/A

옵티마이저는 어떻게 테스트하나? 비용 모델이 제대로 동작하는지 어떻게 테스트하나?
- 선택된 계획이 최선의 계획임을 증명하지는 않는다. 대부분 계획의 정합성(correctness) 테스트에 집중한다.
- 기존 쿼리들이 퇴행(regress)하지 않도록 정기적으로 벤치마킹을 수행한다.
입력 파라미터만으로 필요한 모든 것을 디버깅할 수 있나?
- 지금은 충분하다. 클러스터 토폴로지와 데이터 분포를 더 인지하도록 비용 모델에 더 많은 것을 추가하기 시작하면, 더 많은 정보가 필요할 것이다.
어떤 종류의 SQL fuzzer를 돌리나?
- 그렇다. SQLSmith. 주로 내부 오류가 있는지 확인하기 위한 것이다.
- Manuel Rigger는 SQLLancer로 논리적 정합성을 테스트했고 많은 이슈를 열었다.
  - https://www.manuelrigger.at/dbms-bugs/
일반적으로 어떤 복잡도의 쿼리를 보나? Cockroach는 Snowflake 같은 시스템이 아니라서 복잡한 쿼리는 그쪽으로 밀릴 수 있는데, TPC-H, TPC-DS 정도로 제한되나?
- 복잡한 쿼리는 흔치 않다.
재작성 규칙이 처리할 수 있는 복잡도에 제한이 있나? 임의의(그들이 프로그래밍한) Go 함수를 호출할 수 있다고 했는데.
- 사용자 정의 함수(User-Defined functions)는 허용하지 않는다. 모든 함수는 팀 멤버 중 누군가가 리뷰한다.

CockroachDB의 쿼리 옵티마이저 (2020)

Query Optimization in CockroachDB

Generating alternative plans

Parsing

Optbuild

Normalization

DSL : Optgen

Exploration

DistSQL Planning

Choosing a Plan

Locality-Aware SQL Optimization

Theory vs. Practice

Q/A

Appendix

관련 추천 글

비용 기반 SQL 옵티마이저를 어떻게 만들었는가

StarRocks 내부: 예상보다 조인이 더 빠른 이유

논문에서 얻은 인사이트: CockroachDB: 복원력 있는 지리 분산 SQL 데이터베이스

프로덕션 데이터 없이 프로덕션 쿼리 플랜 만들기

Query Optimization in CockroachDB

Generating alternative plans

Parsing

Optbuild

Normalization

DSL : Optgen

Exploration

DistSQL Planning

Choosing a Plan

Locality-Aware SQL Optimization

Theory vs. Practice

Q/A

Appendix

관련 추천 글

비용 기반 SQL 옵티마이저를 어떻게 만들었는가

StarRocks 내부: 예상보다 조인이 더 빠른 이유

논문에서 얻은 인사이트: CockroachDB: 복원력 있는 지리 분산 SQL 데이터베이스

프로덕션 데이터 없이 프로덕션 쿼리 플랜 만들기