声子BTE应用的并行和优化研究
TP391; 声子玻尔兹曼输运方程(BTE)可以有效地模拟介观尺度下的导热问题,相比于随机性方法,以有限体积法为代表的确定性方法求解声子BTE方程被认为更有希望解决工程实际问题.但是有限体积法求解BTE具有迭代步数多,迭代时间长的问题.为此提出了声子BTE方程迭代求解部分在GPU上的并行加速方案,并设计适当的线程分配方式及数据存储格式,采用循环展开和内核融合等优化手段对迭代过程进行并行加速.此外,采用基于角方向的并行策略,使用MPI+CUDA、CUDA-Aware MPI和NCCL函数的方式实现了声子BTE求解多GPU并行版本.实验结果表明,相较于Intel Xeon Gold 6248上的串...
Uloženo v:
| Vydáno v: | 计算机科学与探索 Ročník 14; číslo 8; s. 1288 - 1297 |
|---|---|
| Hlavní autoři: | , , , , , , |
| Médium: | Journal Article |
| Jazyk: | čínština |
| Vydáno: |
上海交通大学 高性能计算中心,上海 200240%上海交通大学 密西根学院,上海 200240
01.08.2020
|
| Témata: | |
| ISSN: | 1673-9418 |
| On-line přístup: | Získat plný text |
| Tagy: |
Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
|
| Shrnutí: | TP391; 声子玻尔兹曼输运方程(BTE)可以有效地模拟介观尺度下的导热问题,相比于随机性方法,以有限体积法为代表的确定性方法求解声子BTE方程被认为更有希望解决工程实际问题.但是有限体积法求解BTE具有迭代步数多,迭代时间长的问题.为此提出了声子BTE方程迭代求解部分在GPU上的并行加速方案,并设计适当的线程分配方式及数据存储格式,采用循环展开和内核融合等优化手段对迭代过程进行并行加速.此外,采用基于角方向的并行策略,使用MPI+CUDA、CUDA-Aware MPI和NCCL函数的方式实现了声子BTE求解多GPU并行版本.实验结果表明,相较于Intel Xeon Gold 6248上的串行版本,在单块V100 GPU上获得了最大31.5倍的加速.同时使用NCCL函数的GPU并行版本在8台DGX-2节点共计128块V100 GPU上最高达到了83%的并行效率,比MPI+CUDA版本提升57%. |
|---|---|
| ISSN: | 1673-9418 |
| DOI: | 10.3778/j.issn.1673-9418.1909072 |