这里我们保留了原本的Gather部分,只添加一个BatchGather的运算,以下为
cuda_index.cuh的内容: