Dear Axel and Paolo,<br><br>Thank you for the comments.<br>For Paolo's advice, I repeated the same job more than 5 times, the results<br>differed within some percent of second, so I can trust at least on "PWSCF<br>
       :  1m58.00s CPU time,     4m44.00s wall time".<br><br>On the other hand, for Axel's advice, I eliminated the interconnection<br>factor just by running on a single box with 2 cores (P4 3.2G), and<br>obtained the acceptable result:<br>
"PWSCF        :  1m58.54s CPU time,     2m10.72s wall time".<br>:-) The wall time is decreased to less than half of the run on 4 cores in<br>2 boxes, and now "wall time" and "cpu time" are more or less the same.<br>
<br>Thank you again!<br><br>cheers,<br>         mahmoud<br><br>