워크로그: cuBLAS 수준 성능을 목표로 NVIDIA H100에서 GEMM 최적화하기 (작업 중)

ko생성일: 2026. 7. 1.

NVIDIA H100에서 기본적인 FP32 GEMM 커널부터 공유 메모리, 레지스터 타일링, 벡터화, 워프 타일링, 그리고 Hopper의 Tensor Core, TMA, WGMMA까지 단계적으로 적용하며 cuBLAS에 가까운 성능을 추적하는 최적화 워크로그입니다.