<div dir="ltr"><div>First of all, try to figure out if the problem is reproducible on 
another machine, or with another software configuration (compilers, 
libraries etc). Nobody has ever reported such an error.<br><br></div>Paolo</div><div class="gmail_extra"><br><div class="gmail_quote">On Fri, Sep 2, 2016 at 9:43 AM, Jan Oliver Oelerich <span dir="ltr"><<a href="mailto:jan.oliver.oelerich@physik.uni-marburg.de" target="_blank">jan.oliver.oelerich@physik.uni-marburg.de</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi QE users,<br>
<br>
I am trying to run QE 5.4.0 with MPI parallelization on a mid-size<br>
cluster. I successfully tested the installation using 8 processes<br>
distributed on 2 nodes, so communication across nodes is not a problem.<br>
When I, however, run the same calculation on 64 cores, I am getting the<br>
following error messages in the stdout:<br>
<br>
<br>
       iteration #  1     ecut=    30.00 Ry     beta=0.70<br>
       Davidson diagonalization with overlap<br>
<br>
<br>
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%<wbr>%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%<wbr>%%%%%%%%%%%%%%%%%%<br>
       Error in routine  zsqmred (8):<br>
<br>
        somthing wrong with row 3<br>
<br>
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%<wbr>%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%<wbr>%%%%%%%%%%%%%%%%%%<br>
<br>
       stopping ...<br>
<br>
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%<wbr>%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%<wbr>%%%%%%%%%%%%%%%%%%<br>
<br>
       Error in routine  zsqmred (4):<br>
<br>
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%<wbr>%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%<wbr>%%%%%%%%%%%%%%%%%%<br>
        somthing wrong with row 3<br>
       Error in routine  zsqmred (12):<br>
<br>
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%<wbr>%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%<wbr>%%%%%%%%%%%%%%%%%%<br>
        somthing wrong with row 3<br>
<br>
<br>
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%<wbr>%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%<wbr>%%%%%%%%%%%%%%%%%%<br>
       stopping ...<br>
<br>
       stopping ...<br>
<br>
<br>
The cluster queues stderr shows that some MPI processes exited:<br>
<br>
<br>
PSIlogger: Child with rank 28 exited with status 12.<br>
PSIlogger: Child with rank 8 exited with status 4.<br>
application called MPI_Abort(MPI_COMM_WORLD, 12) - process 28application<br>
called MPI_Abort(MPI_COMM_WORLD, 4) - process 8application called<br>
MPI_Abort(MPI_COMM_WORLD, 8) - process 18kvsprovider[12375]: sighandler:<br>
Terminating the job.<br>
PSIlogger: Child with rank 18 exited with status 8.<br>
PSIlogger: Child with rank 4 exited with status 1.<br>
PSIlogger: Child with rank 15 exited with status 1.<br>
PSIlogger: Child with rank 53 exited with status 1.<br>
PSIlogger: Child with rank 30 exited with status 1.<br>
<br>
<br>
The cluster is running some sort of Sun Grid Engine and I used intel<br>
MPI. I see no other error messages. Could you give me a hint how to<br>
debug this further? Verbosity is already 'high'.<br>
<br>
Thank you very much and best regards,<br>
Jan Oliver Oelerich<br>
<br>
<br>
<br>
<br>
--<br>
Dr. Jan Oliver Oelerich<br>
Faculty of Physics and Material Sciences Center<br>
Philipps-Universität Marburg<br>
<br>
Addr.: Room 02D35, Hans-Meerwein-Straße 6, 35032 Marburg, Germany<br>
Phone: +49 6421 2822260<br>
Mail : <a href="mailto:jan.oliver.oelerich@physik.uni-marburg.de">jan.oliver.oelerich@physik.<wbr>uni-marburg.de</a><br>
Web  : <a href="http://academics.oelerich.org" rel="noreferrer" target="_blank">http://academics.oelerich.org</a><br>
______________________________<wbr>_________________<br>
Pw_forum mailing list<br>
<a href="mailto:Pw_forum@pwscf.org">Pw_forum@pwscf.org</a><br>
<a href="http://pwscf.org/mailman/listinfo/pw_forum" rel="noreferrer" target="_blank">http://pwscf.org/mailman/<wbr>listinfo/pw_forum</a></blockquote></div><br><br clear="all"><br>-- <br><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div>Paolo Giannozzi, Dip. Scienze Matematiche Informatiche e Fisiche,<br>Univ. Udine, via delle Scienze 208, 33100 Udine, Italy<br>Phone +39-0432-558216, fax +39-0432-558222<br><br></div></div></div></div></div>
</div>