[QE-users] Issue with running parallel version
Paolo Giannozzi
p.giannozzi at gmail.com
Thu May 24 10:30:28 CEST 2018
On 16 processors with the latest QE version, I get
Estimated max dynamical RAM per process > 3.18 GB
Estimated total dynamical RAM > 50.87 GB
Do you have that much memory?
Paolo
On Tue, May 22, 2018 at 1:14 AM, Martina Lessio <ml4132 at columbia.edu> wrote:
> Dear Quantum Espresso community,
>
> I recently started running the parallel version of QE 5.4.0 and I am
> getting the following error message in my output file (the error never
> appeared when I run the code serial on one processor):
>
> [compute-0-6.local:31540] 23 more processes have sent help message
> help-mpi-btl-base.txt / btl:no-nics
>
> [compute-0-6.local:31540] Set MCA parameter "orte_base_help_aggregate" to
> 0 to see all help / error messages
>
> where "compute-0-1" is the name of the node I run my calculation on.
> After the message is printed in the output the calculation typically
> continues normally and in same cases gets successfully to the end. I other
> cases, usually when I had large supercell with about 100 atoms, the
> calculation becomes extremely slow and does not get to the end in a
> reasonable time. Therefore, I suspect that the error being printed also
> signals that the calculation will start running only on one processor.
> However, upon checking, I noticed that all the processors I requested are
> still busy with the calculation after the error message shows up.
>
> I tried to search the forum and the FAQs for this type of issue but did
> not find much. I would really appreciate if anybody could share their
> experience with this type of error.
> I am providing below my submission script and input file (for a large
> calculation that runs very slowly after the error message is printed).
>
> Thanks so much,
> Martina
>
> --
> Martina Lessio, Ph.D.
> Frontiers of Science Lecturer in Discipline
> Postdoctoral Research Scientist
> Department of Chemistry
> Columbia University
>
> *Submission script:*
> #!/bin/bash
> #SBATCH --job-name=QErun
> #SBATCH -n 24 # node count
> #SBATCH -p New # node count
> #SBATCH -o MoTe2ml_super551OPT.out
> #SBATCH --mem=60000
> module load openmpi
> module load mkl
> module load compilers
> mpirun -np 24 pw.x < MoTe2ml_super551OPT.in
>
> *Input file:*
> &control
> calculation = 'relax'
> restart_mode='from_scratch',
> prefix='MoTe2ml_super5x5relax',
> pseudo_dir = '/home/mlessio/espresso-5.4.0/pseudo/',
> outdir='/home/mlessio/espresso-5.4.0/tempdir/'
> /
>
> &system
> ibrav= 4, A=17.65, B=17.65, C=16.882, cosAB=-0.5, cosAC=0, cosBC=0,
> nat= 75, ntyp= 2,
> ecutwfc =60.
> lspinorb =.true., noncolin=.true.
> /
>
> &electrons
> mixing_mode = 'plain'
> mixing_beta = 0.7
> conv_thr = 1.0d-10
> diago_david_ndim=2
> diagonalization='cg'
> /
>
> &ions
> /
>
> ATOMIC_SPECIES
> Te 127.6 Te_ONCV_PBE_FR-1.1.upf
> Mo 95.96 Mo_ONCV_PBE_FR-1.0.upf
>
> ATOMIC_POSITIONS {crystal}
> Te 0.133333330 0.066666657 0.313489588
> Te 0.133333336 0.266666661 0.313489588
> Te 0.133333334 0.466666672 0.313489588
> Te 0.133333325 0.666666683 0.313489588
> Te 0.133333336 0.866666694 0.313489588
> Te 0.333333312 0.066666657 0.313489588
> Te 0.333333306 0.266666661 0.313489588
> Te 0.333333310 0.466666672 0.313489588
> Te 0.333333304 0.666666683 0.313489588
> Te 0.333333319 0.866666694 0.313489588
> Te 0.533333329 0.066666657 0.313489588
> Te 0.533333336 0.266666661 0.313489588
> Te 0.533333320 0.466666672 0.313489588
> Te 0.533333317 0.666666683 0.313489588
> Te 0.533333335 0.866666694 0.313489588
> Te 0.733333372 0.066666657 0.313489588
> Te 0.733333352 0.266666661 0.313489588
> Te 0.733333390 0.466666672 0.313489588
> Te 0.733333374 0.666666683 0.313489588
> Te 0.733333385 0.866666694 0.313489588
> Te 0.933333361 0.066666657 0.313489588
> Te 0.933333341 0.266666661 0.313489588
> Te 0.933333379 0.466666672 0.313489588
> Te 0.933333363 0.666666683 0.313489588
> Te 0.933333347 0.866666694 0.313489588
> Te 0.133333330 0.066666657 0.097661430
> Te 0.133333336 0.266666661 0.097661430
> Te 0.133333334 0.466666672 0.097661430
> Te 0.133333325 0.666666683 0.097661430
> Te 0.133333336 0.866666694 0.097661430
> Te 0.333333312 0.066666657 0.097661430
> Te 0.333333306 0.266666661 0.097661430
> Te 0.333333310 0.466666672 0.097661430
> Te 0.333333304 0.666666683 0.097661430
> Te 0.333333319 0.866666694 0.097661430
> Te 0.533333329 0.066666657 0.097661430
> Te 0.533333336 0.266666661 0.097661430
> Te 0.533333320 0.466666672 0.097661430
> Te 0.533333317 0.666666683 0.097661430
> Te 0.533333335 0.866666694 0.097661430
> Te 0.733333372 0.066666657 0.097661430
> Te 0.733333352 0.266666661 0.097661430
> Te 0.733333390 0.466666672 0.097661430
> Te 0.733333374 0.666666683 0.097661430
> Te 0.733333385 0.866666694 0.097661430
> Te 0.933333361 0.066666657 0.097661430
> Te 0.933333341 0.266666661 0.097661430
> Te 0.933333379 0.466666672 0.097661430
> Te 0.933333363 0.666666683 0.097661430
> Te 0.933333347 0.866666694 0.097661430
> Mo 0.066666675 0.133333330 0.205570934
> Mo 0.066666667 0.333333310 0.205570934
> Mo 0.066666685 0.533333321 0.205570934
> Mo 0.066666655 0.733333332 0.205570934
> Mo 0.066666666 0.933333343 0.205570934
> Mo 0.266666695 0.133333330 0.205570934
> Mo 0.266666683 0.333333310 0.205570934
> Mo 0.266666698 0.533333321 0.205570934
> Mo 0.266666678 0.733333332 0.205570934
> Mo 0.266666696 0.933333343 0.205570934
> Mo 0.466666671 0.133333330 0.205570934
> Mo 0.466666666 0.333333310 0.205570934
> Mo 0.466666690 0.533333321 0.205570934
> Mo 0.466666668 0.733333332 0.205570934
> Mo 0.466666681 0.933333343 0.205570934
> Mo 0.666666687 0.133333330 0.205570934
> Mo 0.666666655 0.333333310 0.205570934
> Mo 0.666666666 0.533333321 0.205570934
> Mo 0.666666650 0.733333332 0.205570934
> Mo 0.666666674 0.933333343 0.205570934
> Mo 0.866666676 0.133333330 0.205570934
> Mo 0.866666644 0.333333310 0.205570934
> Mo 0.866666682 0.533333321 0.205570934
> Mo 0.866666666 0.733333332 0.205570934
> Mo 0.866666650 0.933333343 0.205570934
>
> K_POINTS {automatic}
> 2 2 1 0 0 0
>
> _______________________________________________
> users mailing list
> users at lists.quantum-espresso.org
> https://lists.quantum-espresso.org/mailman/listinfo/users
>
--
Paolo Giannozzi, Dip. Scienze Matematiche Informatiche e Fisiche,
Univ. Udine, via delle Scienze 208, 33100 Udine, Italy
Phone +39-0432-558216, fax +39-0432-558222
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.quantum-espresso.org/pipermail/users/attachments/20180524/2908f87a/attachment.html>
More information about the users
mailing list