<div>Dear Ding </div>
<div> thanks for your help .accoding to suggestion ,i did  some small tests on these question .</div>
<div>but i find if i use >2 cpu from relax,there is always error ,for example :in relax outfile:</div>
<div><br> </div>
<p>ATOMIC_POSITIONS (crystal)<br>H       -0.198038036   0.118658320   0.038439471<br>H       -0.156238802   0.183672385   0.037451256<br>O       -0.201997079   0.167103737   0.035109275</p>
<p> </p>
<p>     Writing output data file gash2o.save<br>     Check: negative starting charge=   -0.027067</p>
<p>     second order charge density extrapolation<br>p3_4229:  p4_error: net_recv read:  probable EOF on socket: 1<br>p2_4108:  p4_error: net_recv read:  probable EOF on socket: 1<br>p1_4369:  p4_error: : 8097<br>[1] MPI Abort by user Aborting program !
<br>[1] Aborting program!<br>rm_l_3_4346: (16650.921875) net_send: could not write to fd=5, errno = 32<br>rm_l_2_4225: (16651.347656) net_send: could not write to fd=7, errno = 32<br>p2_4108: (16657.351562) net_send: could not write to fd=5, errno = 32
<br>p3_4229: (16656.933594) net_send: could not write to fd=5, errno = 32<br>Fri Jun  8 21:58:05 CST 2007<br></p>
<p> </p>
<div> </div>
<div><font color="#ff6666">i check the cpus they are ok not down.because other job is runing on it .i wonder what happend ? this problem is parallel  issuue ?or others?need your help .thanks again</font> </div>
<div><br> </div>
<div><span class="gmail_quote">2007/6/8, Xunlei Ding <<a href="mailto:ding@sissa.it">ding@sissa.it</a>>:</span>
<blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid">Dear xu,<br>Yes, you are right because ph.x need to read wfc files of scf<br>calculation. So the number of cpu should be the same.
<br>Maybe you can try wf_collect=.true. in scf calculation if you want to<br>change the cpu number.<br><br>And I suggest you to do some small tests on these questions.<br><br>Best wishes,<br>Ding<br><br>xu yuehua wrote:<br>
<br>> Dear Ding:<br>> I think  about your idea , if your idea is correct ,that says:if i use<br>> 6 cpu to do scf ,then i must use the same number of cpu to continue<br>> tophonon calculation .is it right for  me to comprehend your idea ?
<br>> need your help thanks a lot<br>><br>><br>> 2007/6/8, Xunlei Ding <<a href="mailto:ding@sissa.it">ding@sissa.it</a> <mailto:<a href="mailto:ding@sissa.it">ding@sissa.it</a>>>:<br>><br>>     Dear Xu,
<br>>     I think,<br>>     error for 6 cpu calculation is just because one of the six nodes<br>>     is down,<br>>     and error for 4 cpu calculation is because you change 6 cpu to 4 cpu.<br>>     So my suggestion is, doing the ph calculation with 6 cpu again.
<br>><br>>     Hope it will works.<br>><br>>     Yours,<br>>     ding<br>><br>><br>><br>>     xu yuehua wrote:<br>><br>>     > hi everyone?<br>>     > today i met a problem when i compute phonon :first i do scf using 6
<br>>     > cpu ,then i also use 6 cpu to do phono at G,BUT a problem came<br>>     out in<br>>     > out.file :<br>>     ><br>>     ><br>>     ><br>>     >  Proc/  planes cols    G   planes cols    G    columns  G
<br>>     >  Pool       (dense grid)      (smooth grid)   (wavefct grid)<br>>     >   1      5   3284  53988    4   2408  34052  719   5577<br>>     >   2      4   3283  53987    4   2407  34051  719   5577
<br>>     >   3      4   3283  53987    4   2407  34049  719   5577<br>>     >   4      4   3283  53987    4   2407  34051  719   5577<br>>     >   5      4   3283  53987    4   2407  34049  719   5577<br>
>     >   6      4   3283  53987    4   2407  34051  720   5576<br>>     >   0     25  19699 323923   24  14443 204303 4315  33461<br>>     ><br>>     ><br>>     >      nbndx  =    20  nbnd   =    20  natomwfc =    30  npwx
<br>>     =    4282<br>>     >      nelec  =  40.00  nkb   =    50  ngl    =   10269<br>>     > p0_9381:  p4_error: net_recv read:  probable EOF on socket: 1<br>>     > Killed by signal 2.^M<br>>     > forrtl: error (69): process interrupted (SIGINT)
<br>>     > Killed by signal 2.^M<br>>     > Killed by signal 2.^M<br>>     > Killed by signal 2.^M<br>>     > Killed by signal 2.^M<br>>     > p0_9381: (12.363281) net_send: could not write to fd=4, errno = 32
<br>>     > Fri Jun  8 09:41:35 CST 2007<br>>     ><br>>     > because i do not know the reason .and then i try to use 4 cpu to<br>>     > compute phono  ,this time the error is like this :<br>>     >
<br>>     ><br>>     ><br>>     ><br>>     > Representation    44      1 modes - To be done<br>>     ><br>>     >      Representation    45      1 modes - To be done<br>>     >  IOS = 36
<br>>     ><br>>     >  %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%<br>>     >      from davcio : error #        20<br>>     >      i/o error in davcio<br>>     >  %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
<br>>     ><br>>     ><br>>     >      stopping ...<br>>     ><br>>     >  %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%<br>><br>>     >      from davcio : error #        20
<br>>     >      i/o error in davcio<br>>     >  %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%<br>>     ><br>>     ><br>>     >      stopping ...<br>>     > [0] MPI Abort by user Aborting program !
<br>>     > [0] Aborting program!<br>>     > p0_11006:  p4_error: : 0<br>>     > Killed by signal 2.^M<br>>     > forrtl: error (69): process interrupted (SIGINT)<br>>     > p0_11006: (18.296875
 ) net_send: could not write to fd=4, errno<br>>     = 32<br>>     > Fri Jun  8 09:57:22 CST 2007<br>>     ><br>>     > above two case ,the same input:<br>>     > phonons of fiveringwater at Gamma
<br>>     >  &inputph<br>>     >   tr2_ph=1.0d-14,<br>>     >   prefix='fxx_specify_ibra_500_12+force',<br>>     >   epsil=.true.,<br>>     >   amass(1)=1.0,<br>>     >   amass(2)=
15.999,<br>>     >   outdir='/raid/xx/pwscf/tmp/',<br>>     >   fildyn='fxx.dynG',<br>>     >  /<br>>     > 0.0 0.0 0.0<br>>     ><br>>     ><br>>     ><br>>     >
<br>>     ><br>>     > so my question is  why different number of cpu can change the<br>>     error ?<br>>     > befor a few days ago ,i use 2 cpu to do relax ,scf and phonon about<br>>     > another case ,there was well ,but now .....?
<br>>     > i need your  help .thanks<br>>     ><br>>     > --<br>>     > Xu Yuehua<br>>     > physics Department of Nanjing university<br>>     > China<br>><br>>     _______________________________________________
<br>>     Pw_forum mailing list<br>>     <a href="mailto:Pw_forum@pwscf.org">Pw_forum@pwscf.org</a> <mailto:<a href="mailto:Pw_forum@pwscf.org">Pw_forum@pwscf.org</a>><br>>     <a href="http://www.democritos.it/mailman/listinfo/pw_forum">
http://www.democritos.it/mailman/listinfo/pw_forum</a><br>><br>><br>><br>><br>> --<br>> Xu Yuehua<br>> physics Department of Nanjing university<br>> China<br><br>_______________________________________________
<br>Pw_forum mailing list<br><a href="mailto:Pw_forum@pwscf.org">Pw_forum@pwscf.org</a><br><a href="http://www.democritos.it/mailman/listinfo/pw_forum">http://www.democritos.it/mailman/listinfo/pw_forum</a><br></blockquote>
</div><br><br clear="all"><br>-- <br>Xu Yuehua<br>physics Department of Nanjing university<br>China