<div dir="ltr"><div dir="ltr"><div>Hello QE users,</div><div><br></div><div>I am quite new to QE and I have been experimenting with different runtime configurations on GPUs. In particular, I am running the TA2O5 input (26 k-points). Depending on the number of MPI ranks and/or npool values I am getting different runtime errors. To name a few, the most frequent ones I get are:<br></div><div><br></div><div>1) <b>Configuration: </b>16 MPI ranks, 4MPI ranks/node, 4GPUs/node, npool=1<br></div><div>    <b>Error: </b><br></div><div>Error in routine fft_scatter_many_columns_to_planes_store (1): cudaMemcpy2DAsync failed <br></div><div><br></div><div>2)<b> Configuration:</b> 16 MPI ranks, 4MPI ranks/node, 4GPUs/node, npool=16</div><div><b>   Error:</b></div><div>Dense  grid:  3645397 G-vectors     FFT dimensions: ( 200, 180, 216)<br>0: ALLOCATE: 11202625536 bytes requested; status = 2(out of memory)</div><div><br></div><div>Could you please help me to understand what is going on?</div><div><br></div><div>Regards <br></div><div>Chris<br></div></div></div>