GPU 프로파일링 입문: kernel time 말고 무엇을 봐야 하나

Dispatch Count: 프레임/작업당 dispatch 횟수
Submit→Start 지연: submit 이후 GPU 실제 시작까지의 간격
Kernel Duration: 실제 커널 실행 시간
GPU Busy vs Idle 비율: GPU가 놀고 있는지, 계속 일하는지

2026-04-19

성능 튜닝을 시작할 때 가장 흔한 실수는 kernel 실행 시간만 보고 병목을 단정하는 것이다.
실제로는 아래 3축을 분리해서 봐야 원인을 정확히 찾을 수 있다.

즉, “느리다"는 한 문장 안에는 CPU 측 오버헤드와 GPU 측 오버헤드가 동시에 섞여 있다.

최소 측정 프레임

처음에는 복잡한 지표를 다 보지 말고 아래 4개부터 고정한다.

이 4개만 있어도 tiny dispatch 문제인지, memory 병목인지, 동기화 문제인지 1차 분류가 가능하다.

실무에서는 보통 RGP로 타임라인 병목 위치를 찾고, ROCm 계열로 원인 카운터를 확인하는 식으로 조합한다.

한 번에 하나의 변수만 바꾸는 게 핵심이다.

프로파일링의 첫 단계는 “빠르게 만드는 것"이 아니라, 시간을 Host/Queue/GPU로 분해해 책임 구간을 확정하는 것이다.