<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" style="display:none;"> P {margin-top:0;margin-bottom:0;} </style>
</head>
<body dir="ltr">
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
<span style="margin:0px;font-size:12pt"><span style="margin:0px;font-size:15px;color:rgb(32, 31, 30)"><span style="margin:0px;font-size:12pt;color:rgb(0, 0, 0)">Hello (@Louis Stuber),</span></span></span></div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
<div style="margin:0px;font-size:12pt">
<div style="margin:0px;font-size:15px;color:rgb(32, 31, 30)"><br>
</div>
<div style="margin:0px;font-size:15px;color:rgb(32, 31, 30)"><span style="margin:0px;font-size:12pt;color:rgb(0, 0, 0)">The </span><span style="margin:0px;font-size:12pt;color:rgb(0, 0, 0);display:inline !important">QE container on NGC (https://ngc.nvidia.com/catalog/containers/hpc:quantum_espresso)</span><span style="margin:0px;display:inline !important"><span style="margin:0px;font-size:12pt;color:rgb(0, 0, 0)"> appears
 to be running very well for us on a node with two A100's for the </span><span style="margin:0px"><span style="margin:0px;font-size:12pt;color:rgb(0, 0, 0);display:inline !important">"AUSURF112, Gold surface (112 atoms), DEISA pw" benchmark. We see a speed-up
 of 8x in comparison to running on 80 Skylake CPU-cores (no GPUs) where the code was built from source.</span></span></span></div>
<div style="margin:0px;font-size:15px;color:rgb(32, 31, 30)"><span style="margin:0px;display:inline !important"><span style="margin:0px"><span style="margin:0px;display:inline !important"><br>
</span></span></span></div>
<div style="margin:0px;font-size:15px;color:rgb(32, 31, 30)"><span style="margin:0px;display:inline !important"><span style="margin:0px"><span style="margin:0px;font-size:12pt;color:rgb(0, 0, 0);display:inline !important">The procedure we used for the above
 is here:</span><span style="margin:0px;display:inline !important"><br>
<div style="margin:0px"><a href="https://researchcomputing.princeton.edu/support/knowledge-base/quantum-espresso" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable" data-linkindex="0" style="margin:0px"><span style="margin:0px;font-size:12pt;color:rgb(0, 0, 0)">https://researchcomputing.princeton.edu/support/knowledge-base/quantum-espresso</span></a></div>
</span></span></span></div>
<div style="margin:0px;font-size:15px;color:rgb(32, 31, 30)"><span style="margin:0px;display:inline !important"><span style="margin:0px"><span style="margin:0px;display:inline !important"><br>
</span></span></span></div>
<div style="margin:0px;font-size:15px;color:rgb(32, 31, 30)"><span style="margin:0px;display:inline !important"><span style="margin:0px"><span style="margin:0px;font-size:12pt;color:rgb(0, 0, 0);display:inline !important">However, for one system we see a slow
 down (i.e., the code runs faster using only CPU-cores). Can you tell if the system below should perform well using the container?</span></span></span></div>
<div style="margin:0px;font-size:15px;color:rgb(32, 31, 30)"><br>
</div>
<div style="margin:0px;font-size:15px;color:rgb(32, 31, 30)"><span style="margin:0px;font-size:12pt;color:rgb(0, 0, 0);display:inline !important">"My system is basically just two carbon dioxide molecules and doing a</span><span style="margin:0px;font-size:12pt;color:rgb(0, 0, 0);display:inline !important"> </span><span style="margin:0px;font-size:12pt;color:rgb(0, 0, 0);display:inline !important">single point
 calculation on them using the PBE-D3 functional and basically just </span><span style="margin:0px;font-size:12pt;color:rgb(0, 0, 0);display:inline !important">altering the distance between the two molecules in the atomic coordinates."</span></div>
<div style="margin:0px;font-size:15px;color:rgb(32, 31, 30)"><br>
</div>
<div style="margin:0px;font-size:15px;color:rgb(32, 31, 30)"><span style="margin:0px;font-size:12pt;color:rgb(0, 0, 0)">Can someone comment in general on when one would expect the container running on GPUs to outperform a build-from-source executable running
 on CPU-cores?</span></div>
<div style="margin:0px;font-size:15px;color:rgb(32, 31, 30)"><br>
</div>
<div style="margin:0px;font-size:15px;color:rgb(32, 31, 30)"><span style="margin:0px;font-size:12pt;color:rgb(0, 0, 0)">CUDA-aware MPI is nice. It appears that the container is configured to use the MPI libraries in the container instead of those installed
 for the local cluster. Is this true? Can users take advantage of their local CUDA-aware MPI libraries?</span></div>
<div style="margin:0px;font-size:15px;color:rgb(32, 31, 30)"><br>
</div>
<span style="margin:0px">Jon</span></div>
</div>
</body>
</html>