В статье http://cgm.computergraphics.ru/issues/issue16/cuda говорится:
...
На один мультипроцессор доступно всего 16KB разделяемой памяти.
...
Разделяемая память организована в виде 16 (всего-то!) банков памяти с шагом в 4 байта.
...
Что понимается под шагом и чему равен один банк разделяемой памяти?