<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<meta name="Generator" content="Microsoft Exchange Server">
<!-- converted from text --><style><!-- .EmailQuote { margin-left: 1pt; padding-left: 4pt; border-left: #800000 2px solid; } --></style>
</head>
<body>
<meta content="text/html; charset=UTF-8">
<style type="text/css" style="">
<!--
p
        {margin-top:0;
        margin-bottom:0}
-->
</style>
<div dir="ltr">
<div id="x_divtagdefaultwrapper" dir="ltr" style="font-size:12pt; color:#000000; font-family:Calibri,Arial,Helvetica,sans-serif">
<p>Thanks Lorenzo I hope so too, I think the best references are Examples 4 and 10, I have this tendency to just go ahead once I get something working, need to work on that :P</p>
<p><br>
</p>
<p>    Indeed I have reproduced almost exactly what you have said. What I can confirm when using bp_c_phase (no electric field):<br>
</p>
<p><br>
</p>
<p>- all gdir work, only gdir=3 has a notable improvement in performance.</p>
<p>- when gdir=3, up to 4 processors scaling is good, on 8 it is terrible it actually takes longer, WALL time is notably larger than CPU time.</p>
<p>- the call to '<span>CALL mp_sum(aux_g(:), intra_bgrp_comm )</span>' is made when gdir != 3.</p>
<p><br>
</p>
<p>My current understanding is that mp_sum takes the trace of the 'aux_g' matrix, whereas for gdir=3 there is significantly less code that ends up building the matrix 'aux' which is finally used to build 'mat'. The matrix 'evc' represents the wavefunctions
 built using plane waves, but 'evc' is used in many files. Since bp_c_phase is executed last, 'evc' has already been built and is only read in this file. With this and comparing the output I notice that performance when gdir=3 is better for almost all routines..
 I will continue debugging tomorrow on the 8 processor machine where the differences are much more noticeable.. Do you think I should contact Paolo Giannozzi directly to better understand what is going on here?</p>
<p><br>
</p>
<p>Thanks so much <img alt="��" id="OWAEmoji50651" class="x_EmojiInsert" style="vertical-align:bottom" src="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAABMAAAATCAYAAAByUDbMAAAAGXRFWHRTb2Z0d2FyZQBBZG9iZSBJbWFnZVJlYWR5ccllPAAAAYpJREFUeNpi/P//PwO1ACM2wf9njBWAVD4QBwCxApLUAyDeAMQTGU3OPkDRA3QUIxaD+oFUAREOaQQa2IDTMKBB84FUAgk+WwA0MBFmGBOaixJIDKYEoD6465igBjkge+3CrW94TUCTr4eGMdxl8TCZxMYHDIZR1xk2HPiA1SCQOEgepA4J5CMbFgAPhM1vwfTFW9+xGgYTh6lD1s8IdKIAkH4PEz1w9jOYVpBiZ1CQZMMw7MHzXwwPnv0Esx2MeRESxmcYWYCUAbJiFAVYAMgCbJbAvPmAWjmACZqS4aHdOOs5wdgEBcWE5a8Y0HIGPAIOwETtjXkYJqIqxAAgeQM1ThTzkQ2biB5mC7a8xZ7kgeICvMzoYTsRJaMDY3U9chIBpaMHz34xxPsKgwMcFIsLgckB5KL+YllkgyYAg6oQJW9Ck8h+5NgFhd3GAx/humAGI2cGIHYEGvYBW0YHGTgf2YX4MjkQF4IMwlkEIeXVfByGwsqzAwTLMywGg7wNcvED9AIR3TCAAAMAqh+p+YMVeBQAAAAASUVORK5CYII="></p>
<p>Louis<br>
</p>
</div>
<hr tabindex="-1" style="display:inline-block; width:98%">
<div id="x_divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" color="#000000" style="font-size:11pt"><b>From:</b> pw_forum-bounces@pwscf.org <pw_forum-bounces@pwscf.org> on behalf of Lorenzo Paulatto <lorenzo.paulatto@impmc.upmc.fr><br>
<b>Sent:</b> 13 February 2017 13:04:22<br>
<b>To:</b> PWSCF Forum<br>
<b>Subject:</b> Re: [Pw_forum] PW.x homogeneous electric field berry phase calculation in trigonal cell</font>
<div> </div>
</div>
</div>
<font size="2"><span style="font-size:10pt;">
<div class="PlainText">On Monday, February 13, 2017 11:43:08 AM CET Louis Fry-Bouriaux wrote:<br>
> Finally when you were talking about the bottleneck, I suppose you were<br>
> talking about the efield code, my impression so far is this is not a<br>
> problem using 4 processors, I will also test using 8 and compare the time<br>
> taken. I have no idea how fast it 'should' be with proper parallisation,<br>
> assuming it is possible to parallelise.<br>
<br>
When you increase the number of CPUs, you would expect the time to decreased <br>
linearly, if over a certain number of CPUs it stops decreasing or if it <br>
decreases slower than linear, it is a bottleneck. This will always happen <br>
eventually, but with berry/lefield it happens much sooner.<br>
<br>
Thank you for reporting back! I hope this information will be useful to future <br>
users<br>
<br>
-- <br>
Dr. Lorenzo Paulatto <br>
IdR @ IMPMC -- CNRS & Université Paris 6<br>
phone: +33 (0)1 442 79822 / skype: paulatz<br>
www:   <a href="http://www-int.impmc.upmc.fr/~paulatto/">http://www-int.impmc.upmc.fr/~paulatto/</a><br>
mail:  23-24/423 Boîte courrier 115, 4 place Jussieu 75252 Paris Cédex 05<br>
<br>
_______________________________________________<br>
Pw_forum mailing list<br>
Pw_forum@pwscf.org<br>
<a href="http://pwscf.org/mailman/listinfo/pw_forum">http://pwscf.org/mailman/listinfo/pw_forum</a><br>
</div>
</span></font>
</body>
</html>