Implement basic CUDA target

Currently only for the SSS streaming pattern. CudaCodePrinter in `utility/printer.py` is required to add a 'f' suffix to all single precision floating point literals. If this is not done (when targeting single precision) most calculations happen in double precision which destroys performance. (In OpenCL this is not necessary as we can simply set the `-cl-single-precision-constant` flag. Sadly such a flag doesn't seem to exist for nvcc.)
author: Adrian Kummerlaender 2019-11-10 21:14:07 +0100
committer: Adrian Kummerlaender 2019-11-10 21:18:57 +0100
commit: 4a2885ad3ae0396486d288df94339d0c45e6db8b (patch)
tree: 1a0b5aa000bbcde65fa020381a02b19bb452e284 /boltzgen/kernel/template/update_sss_control_structure.cuda.mako
parent: d136bb30bc8a9393372ec905aea500a0b61000e3 (diff)
download: boltzgen-4a2885ad3ae0396486d288df94339d0c45e6db8b.tar
boltzgen-4a2885ad3ae0396486d288df94339d0c45e6db8b.tar.gz
boltzgen-4a2885ad3ae0396486d288df94339d0c45e6db8b.tar.bz2
boltzgen-4a2885ad3ae0396486d288df94339d0c45e6db8b.tar.lz
boltzgen-4a2885ad3ae0396486d288df94339d0c45e6db8b.tar.xz
boltzgen-4a2885ad3ae0396486d288df94339d0c45e6db8b.tar.zst
boltzgen-4a2885ad3ae0396486d288df94339d0c45e6db8b.zip
1 files changed, 21 insertions, 0 deletions
diff --git a/boltzgen/kernel/template/update_sss_control_structure.cuda.mako b/boltzgen/kernel/template/update_sss_control_structure.cuda.mako
new file mode 100644
index 0000000..2a98b94
--- /dev/null
+++ b/boltzgen/kernel/template/update_sss_control_structure.cuda.mako
@@ -0,0 +1,21 @@
+<%
+if streaming != 'SSS':
+    raise Exception('"update_sss_control_structure" function only makes sense for the SSS pattern')
+
+padding = (max(geometry.size_x,geometry.size_y,geometry.size_z)+1)**(descriptor.d-1)
+%>
+
+__global__ void init_sss_control_structure(${float_type}* f, ${float_type}** control) {
+% for i, c_i in enumerate(descriptor.c):
+    control[${i}]  = f + ${padding + layout.pop_offset(i, 2*padding)};
+% endfor
+}
+
+__global__ void update_sss_control_structure(${float_type}** f) {
+% for i, c_i in enumerate(descriptor.c):
+    ${float_type}* f_old_${i} = f[${i}];
+% endfor
+% for i, c_i in enumerate(descriptor.c):
+    f[${i}]  = f_old_${descriptor.c.index(-c_i)} + ${layout.neighbor_offset(-c_i)};
+% endfor
+}
author	Adrian Kummerlaender	2019-11-10 21:14:07 +0100
committer	Adrian Kummerlaender	2019-11-10 21:18:57 +0100
commit	4a2885ad3ae0396486d288df94339d0c45e6db8b (patch)
tree	1a0b5aa000bbcde65fa020381a02b19bb452e284 /boltzgen/kernel/template/update_sss_control_structure.cuda.mako
parent	d136bb30bc8a9393372ec905aea500a0b61000e3 (diff)
download	boltzgen-4a2885ad3ae0396486d288df94339d0c45e6db8b.tar boltzgen-4a2885ad3ae0396486d288df94339d0c45e6db8b.tar.gz boltzgen-4a2885ad3ae0396486d288df94339d0c45e6db8b.tar.bz2 boltzgen-4a2885ad3ae0396486d288df94339d0c45e6db8b.tar.lz boltzgen-4a2885ad3ae0396486d288df94339d0c45e6db8b.tar.xz boltzgen-4a2885ad3ae0396486d288df94339d0c45e6db8b.tar.zst boltzgen-4a2885ad3ae0396486d288df94339d0c45e6db8b.zip