CuTe의 비밀 풀기: 처음부터 빠른 GEMM 작성하기

ko생성일: 2026. 2. 25.갱신일: 2026. 2. 26.

CuTe의 레이아웃 대수와 복사/연산 프리미티브를 이용해, 비동기 복사 기반의 최소 GEMM에서 시작해 더블 버퍼링, L2 그리드 스위즐링, 3-스테이지 파이프라이닝으로 성능을 단계적으로 끌어올리고, 동일한 커널을 Python CuTe DSL로 포팅해 거의 동일한 성능과 더 빠른 반복 속도를 얻는 과정을 설명한다.