<div dir='auto'>Hello experts,<div dir="auto"><br></div><div dir="auto">I have compiled QE for GPU (MPI + OpenMP). I've that while using more than one core (mpirun -np 8) the calculation becomes very slow but it is way more faster when I do "mpirun -np 1". Is there a reason for that?</div><div dir="auto">I have only 1 GPU and i have added "export OMP_NUM_THREADS=1" in the bashrc</div><div dir="auto"><br></div><div dir="auto">thank you.</div></div>