cuda nbody实验

不想再做笨蛋了 / 2023-05-11 / 原文

1 并行化

非常简单得,直接分配4096线程处理,每个线程处理一个天体。每个kernel函数中的循环,就去全局变量里面找其他点的信息,进行计算就好了

2 优化

2.1 共享内存

按1中的,是每个线程处理n个,这里的话,每个线程分批次处理,每次处理一部分。引入共享内存。