Tiny Dispatch에서 진짜 병목: GPU 연산보다 Submit 경로

2026-04-20

Tiny dispatch(예: work-item 수가 매우 적은 커널)에서는 커널 내부 산술 연산보다, Host API 호출 → driver validation/state 준비 → command buffer 기록/submit 경로의 고정비가 지연시간 대부분을 차지할 수 있다.

즉, 이 구간에서는 “커널 최적화"보다 “submit 횟수/재기록/동기화 패턴"을 줄이는 쪽이 체감 성능에 더 크게 작용한다.