<html><head><meta http-equiv="Content-Type" content="text/html charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class=""><div class=""><font size="3" class="">Hi!</font></div><div class=""><font size="3" class=""><br class=""></font></div><div class=""><font size="3" class="">I'm Sérgio Caldas, an MSc student in Informatics Engineering at University of Minho, Braga, Portugal. <span class="">The key area of specialisation during my master courses were on parallel computing, with a strong focus on efficient & performance engineering on heterogeneous systems. For my master thesis the theme applies these competences to computational physics, where I’m supposed to help a senior physics researcher to tune his work on the determination of electronic and optical properties of materials, using Quantum Espresso tool in our departamental cluster. This cluster has nodes with several generations of dual multicore Xeons and some nodes with Xeon Phi (both KNC and KNL) and GPUs (both Fermi and Kepler, and soon Pascal). </span></font></div><div class=""><span style="color: rgb(131, 17, 0); font-size: 12pt; font-family: Calibri, Arial, Helvetica, sans-serif;" class=""><br class=""></span></div><div class=""><font size="3" class="">I have some queries on the QE, namely how far QE development has reached in these areas (vectorisation, data/task parallelism on both shared/distributed memory, data locality). </font></div><div class=""><font size="3" class=""><br class=""></font></div><div class=""><font size="3" class="">For example:<br class=""><font class=""> - QE<span class=""> is already exploring vector operations (AVX/AVX-2 or AVX-512)?</span></font></font></div><div class=""><font size="3" class=""><font class=""> - t</font><span class="">he tool is ready for multicore / many-core devices?</span></font></div><div class=""><font class="" size="3"> - how is the scheduling between multicore-devices and the accelerator  devices, such that both type of devices are simultaneously used?</font></div><div class=""><font class="" size="3"> - for distributed memory, the tool is already taking advantage of low-latency interconnection topologies, such as Myrinet or Infiniband?</font></div><div class=""><font class="" size="3"> - how can I have access to beta versions where this advanced capabilities are being explored?</font></div><div class=""><font class="" size="3"> - do you have suggestions of areas that still need to be improved, so that I can address those areas and improve both the quality of my work and the overall QE performance?</font></div><div class=""><font class="" size="3"><br class=""></font></div><div class=""><font size="3" class=""><font class="">I would also be grateful if you could suggest documentation (preferably papers) to get some of these answers or any other documentation to complement my </font><font class="">knowledge</font><span class=""> on QE.</span></font></div><div class=""><span class=""><font class="" size="3"><br class=""></font></span></div><div class=""><span class=""><font size="3" class=""><font class="">Thanking you in advance, yours s</font><span class="">incerely</span></font></span></div><div class=""><font size="3" class="">Sergio Caldas</font></div></body></html>