РЕШЕНИЕ: https://landwatersun.ru/viewtopic.php?id=488#p1765
Объясните, почему указанный код возвращает ошибку "invalid configuration argument"?
__global__ void kernel(int *A, int *B, int *C){
int tid = threadIdx.x;
int a=0;
if(tid<1024)
C[tid] = A[tid] + B[tid];
else
{
a = a + 1;
}
}int main()
{
int n = 32;
int *A, *B, *C;
cudaMalloc(&A, n*n*sizeof(int));
cudaMalloc(&B, n*n*sizeof(int));
cudaMalloc(&C, n*n*sizeof(int));
kernel <<<1, 32*33>>>(A, B, C);
cudaDeviceSynchronize();
printf("%s\n", cudaGetErrorString(cudaGetLastError()));
return 0;
}