<div dir="ltr"><div dir="ltr">Raghu,<div><br></div><div>I just submitted a ticket, RDHPCS#2019042554000248</div><div><br></div><div>Sincerely,</div><div>Sam Trahan</div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, 25 Apr 2019 at 16:52, &lt;<a href="mailto:raghu.reddy@noaa.gov">raghu.reddy@noaa.gov</a>&gt; wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div lang="EN-US"><div class="gmail-m_-581372253350263157WordSection1"><p class="MsoNormal">Hi Sam,<u></u><u></u></p><p class="MsoNormal"><u></u> <u></u></p><p class="MsoNormal">Thank you for this information!  <u></u><u></u></p><p class="MsoNormal"><u></u> <u></u></p><p class="MsoNormal">Can you please let me know what is the exact command that is used by Rocoto that is causing this time out?<u></u><u></u></p><p class="MsoNormal"><u></u> <u></u></p><p class="MsoNormal">Is it “scontrol show job …”?<u></u><u></u></p><p class="MsoNormal"><u></u> <u></u></p><p class="MsoNormal">It will be useful to create stand alone tests (which you may already have).<u></u><u></u></p><p class="MsoNormal"><u></u> <u></u></p><p class="MsoNormal">Thanks!<u></u><u></u></p><p class="MsoNormal">Raghu<u></u><u></u></p><p class="MsoNormal"><u></u> <u></u></p><p class="MsoNormal"><b>From:</b> Samuel Trahan - NOAA Affiliate &lt;<a href="mailto:samuel.trahan@noaa.gov" target="_blank">samuel.trahan@noaa.gov</a>&gt; <br><b>Sent:</b> Thursday, April 25, 2019 4:39 PM<br><b>To:</b> NCEP.EMC.hwrf &lt;<a href="mailto:NCEP.hwrf@noaa.gov" target="_blank">NCEP.hwrf@noaa.gov</a>&gt;; _Ncep.hmon &lt;<a href="mailto:ncep.hmon@noaa.gov" target="_blank">ncep.hmon@noaa.gov</a>&gt;<br><b>Cc:</b> Ghassan Alaka - NOAA Affiliate &lt;<a href="mailto:ghassan.alaka@noaa.gov" target="_blank">ghassan.alaka@noaa.gov</a>&gt;; Guoqing Ge - NOAA Affiliate &lt;<a href="mailto:guoqing.ge@noaa.gov" target="_blank">guoqing.ge@noaa.gov</a>&gt;; Christopher Harrop &lt;<a href="mailto:Christopher.W.Harrop@noaa.gov" target="_blank">Christopher.W.Harrop@noaa.gov</a>&gt;; Raghu Reddy &lt;<a href="mailto:raghu.reddy@noaa.gov" target="_blank">raghu.reddy@noaa.gov</a>&gt;<br><b>Subject:</b> Fix for Rocoto&#39;s temporarily &quot;unavailable&quot; jobs<u></u><u></u></p><p class="MsoNormal"><u></u> <u></u></p><div><div><p class="MsoNormal">HWRF/HMON people,<u></u><u></u></p><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal">Recently, scontrol has sporadically taken longer than Rocoto&#39;s built-in limit of 30 seconds to run.  That leads to jobs being in an &quot;unavailable&quot; state until scontrol speeds up.  I have a modified version of Rocoto that has an 80 second timeout.  This fix is on top of the one that detects the &quot;OUT_OF_MEMORY&quot; state jobs.<u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal">Please let us know if this fixes the problems:<u></u><u></u></p></div><div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal">module use /mnt/lfs3/projects/hwrf-vd/soft/modulefiles/<u></u><u></u></p></div><div><p class="MsoNormal">For RC4:     module load rocoto/1.3.0-RC4-morestates-longtimeout<u></u><u></u></p></div><div><p class="MsoNormal">For RC3:     module load rocoto/1.3.0-RC3-morestates-longtimeout<u></u><u></u></p></div></div><div><p class="MsoNormal"><u></u> <u></u></p></div></div></div></div></div></blockquote></div>