<div dir="ltr"><div><div>Dear Joshua,<br><br></div>Thanks for your tip. Unfortunately, restarting with a different number of processes is not working for me. I want to migrate the execution between different machines, but at first I'm trying to stop the computation and restart it at the same machine, just with a different number of processes. If I succeed in this scenario, I'll move to migration. The version I'm working on is the latest, 5.3.0, compiled on a Centos7 machine with gfortran 4.8.5 and OpenMPI 1.10.0. <br><br></div><div>The CONTROL namelist of my input file is like this:<br></div><div><br>&CONTROL<br>  prefix      = "migration",<br>  restart_mode = "from_scratch",<br>  wf_collect  = .TRUE.,<br>  outdir      = "./scratch/",<br>  pseudo_dir  = "./pseudopotentials.d",<br>/<br></div><div>(you can find the full version here: <a href="http://pastebin.com/rxN7KCq3">http://pastebin.com/rxN7KCq3</a>)<br></div><div><br></div>I started the execution with the following command:<br><div><div><br>$ mpirun -np 2 ~/quantum/install/pw.x -inp <a href="http://test_4.in">test_4.in</a> > test_4.out<br><br></div><div>I left it running for a few minutes. Then, I stopped the calculation with:<br><br>$ touch migration.EXIT<br></div><div><br></div><div>At the output file test_4.out, I can see that the execution went up to the sixth iteration:<br><br>iteration #  6     ecut=    25.00 Ry     beta=0.30<br>     Davidson diagonalization with overlap<br>     ethr =  2.90E-04,  avg # of iterations =  1.0<br><br></div><div>(full output here: <a href="http://pastebin.com/8YhkWTmr">http://pastebin.com/8YhkWTmr</a>)<br></div><div><br></div><div>From a previous run, I know that there are 28 iterations. After that, I altered the CONTROL namelist for this:<br><br>&CONTROL<br>  prefix      = "migration",<br>  restart_mode = "restart",<br>  wf_collect  = .TRUE.,<br>  outdir      = "./scratch/",<br>  pseudo_dir  = "./pseudopotentials.d",<br>/<br><br></div><div>I restarted the execution with the following command:<br><br>$ mpirun -np 4 ~/quantum/install/pw.x -inp <a href="http://test_4.in">test_4.in</a> > test_4_migration.out<br><br></div><div>As you can see, instead of 2 processes, I'm setting 4 in the second run. Using the linux tool 'top', I can see that four processes were created. The program seems to find the right iteration, since the output file test_4_migration.out contains the following:<br><br>Starting wfc from file<br>     Calculation restarted from scf iteration #     7<br>     total cpu time spent up to now is        3.3 secs<br>     per-process dynamical memory:    44.9 Mb<br></div><div>(full output here: <a href="http://pastebin.com/GfBBqxYJ">http://pastebin.com/GfBBqxYJ</a>)<br></div><div><br></div><div>But even after several minutes, no new iterations are appended to the file. And no error messages either. Am I missing something?<br></div><div><br></div><div>Cheers,<br></div><div><br><div><div>---------------------------------------------------<br>Name: Joaquim José Xavier<br>Institution: Faculdade de Educação, Ciências, e Letras do Sertão Central - Quixadá - Ceará - Brasil<br><a href="http://www.uece.br/feclesc/" target="_blank">http://www.uece.br/feclesc/</a><br>---------------------------------------------------</div></div></div></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Mar 8, 2016 at 5:12 PM, Joshua Davis <span dir="ltr"><<a href="mailto:davis101@chemistry.msu.edu" target="_blank">davis101@chemistry.msu.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div>Dear Joaquim,</div><div><br></div>you may want to look up the "wfcollect" option under &CONTROL<div><br></div><div><a href="http://www.quantum-espresso.org/wp-content/uploads/Doc/INPUT_PW.html#__top__" target="_blank">http://www.quantum-espresso.org/wp-content/uploads/Doc/INPUT_PW.html#__top__</a><span class="HOEnZb"><font color="#888888"><br></font></span></div><span class="HOEnZb"><font color="#888888"><div><br></div><div>Joshua Davis</div><div>Michigan State University</div></font></span></div><div class="HOEnZb"><div class="h5"><br><div class="gmail_quote"><div dir="ltr">On Tue, Mar 8, 2016 at 2:11 PM Malicious Scientist <<a href="mailto:scientist.malicious@gmail.com" target="_blank">scientist.malicious@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div><div>Dear Nicola,<br><br></div>Sorry, my mistake. <br><br>---------------------------------------------------<br></div>Name: Joaquim José Xavier<br></div>Institution: Faculdade de Educação, Ciências, e Letras do Sertão Central - Quixadá - Ceará - Brasil<br><a href="http://www.uece.br/feclesc/" target="_blank">http://www.uece.br/feclesc/</a><br>---------------------------------------------------</div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Mar 8, 2016 at 3:42 PM, Nicola Marzari <span dir="ltr"><<a href="mailto:nicola.marzari@epfl.ch" target="_blank">nicola.marzari@epfl.ch</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><br>
Dear Malicious,<br>
<br>
PLEASE see the posting guidelines:<br>
<a href="http://www.quantum-espresso.org/forum/#1.0" rel="noreferrer" target="_blank">http://www.quantum-espresso.org/forum/#1.0</a><br>
<br>
*Sign your post with your name and affiliation.*<br>
<br>
nicola<br>
<div><div><br>
<br>
<br>
On 08/03/2016 19:37, Malicious Scientist wrote:<br>
> Hello Community,<br>
><br>
> I would like to know if it is possible top stop a pw.x run, copy to<br>
> files to a different machine, and then restart the computation.<br>
><br>
> For example, to stop the execution, I would create a $prefix.EXIT file<br>
> on the working directory (just like described at<br>
> <a href="http://www.quantum-espresso.org/wp-content/uploads/Doc/pw_user_guide/node19.html" rel="noreferrer" target="_blank">http://www.quantum-espresso.org/wp-content/uploads/Doc/pw_user_guide/node19.html</a>).<br>
><br>
> After that, I would copy the entire working directory, including the<br>
> scratch dir, to a remote server with the same version of QE installed.<br>
> Then I would restart the computation setting the 'restart_mode' flag to<br>
> 'restart' at the CONTROL namelist.<br>
><br>
> Is this supposed to work? If so, may I restart the computation with a<br>
> different number of CPUs?<br>
><br>
> Thank you for your attention.<br>
><br>
><br>
</div></div>> _______________________________________________<br>
> Pw_forum mailing list<br>
> <a href="mailto:Pw_forum@pwscf.org" target="_blank">Pw_forum@pwscf.org</a><br>
> <a href="http://pwscf.org/mailman/listinfo/pw_forum" rel="noreferrer" target="_blank">http://pwscf.org/mailman/listinfo/pw_forum</a><br>
><br>
<span><font color="#888888"><br>
--<br>
----------------------------------------------------------------------<br>
Prof Nicola Marzari, Chair of Theory and Simulation of Materials, EPFL<br>
Director, National Centre for Competence in Research NCCR MARVEL, EPFL<br>
<a href="http://theossrv1.epfl.ch/Main/Contact" rel="noreferrer" target="_blank">http://theossrv1.epfl.ch/Main/Contact</a> <a href="http://nccr-marvel.ch/en/project" rel="noreferrer" target="_blank">http://nccr-marvel.ch/en/project</a><br>
_______________________________________________<br>
Pw_forum mailing list<br>
<a href="mailto:Pw_forum@pwscf.org" target="_blank">Pw_forum@pwscf.org</a><br>
<a href="http://pwscf.org/mailman/listinfo/pw_forum" rel="noreferrer" target="_blank">http://pwscf.org/mailman/listinfo/pw_forum</a><br>
</font></span></blockquote></div><br></div>
_______________________________________________<br>
Pw_forum mailing list<br>
<a href="mailto:Pw_forum@pwscf.org" target="_blank">Pw_forum@pwscf.org</a><br>
<a href="http://pwscf.org/mailman/listinfo/pw_forum" rel="noreferrer" target="_blank">http://pwscf.org/mailman/listinfo/pw_forum</a></blockquote></div>
</div></div><br>_______________________________________________<br>
Pw_forum mailing list<br>
<a href="mailto:Pw_forum@pwscf.org">Pw_forum@pwscf.org</a><br>
<a href="http://pwscf.org/mailman/listinfo/pw_forum" rel="noreferrer" target="_blank">http://pwscf.org/mailman/listinfo/pw_forum</a><br></blockquote></div><br></div>