워크로그: NVIDIA H100에서 cuBLAS급 성능을 위한 GEMM 최적화 (진행 중)

ko생성일: 2026. 7. 1.

NVIDIA H100에서 기본 CUDA 커널부터 shared memory, 레지스터 타일링, 벡터화, warp 타일링, Tensor Core, TMA, WGMMA까지 단계적으로 적용하며 GEMM 성능을 cuBLAS 수준까지 끌어올리는 과정을 기록한 워크로그입니다.