当前位置: 首页 > news >正文

为什么主机状态为 closed_busy LSF还会派发任务去运行?

今天遇到了奇怪的问题:一台主机的状态为 closed_busy ,但发现LSF还会派发任务去运行。通过任务的历史信息看到LSF不停将任务派发到同一个主机,任务很快运行失败,变为PENDING状态,如此往复。

在LSF中发现当主机状态为 closed_busy时,LSF在主机上预留了1.9T内存,而主机总内存为2T,由于设置了loadSched为50G,因些当预留内存过多导致可调度内存小于50G时主机状态就会变为 closed_busy。

登录主机,发现主机CPU使用率、内存等都很正常;查看存储,发现 /tmp使用率为 100%,到此任务运行失败的原因明晰了,临时空间满了,导致任务的临时文件不能创建,因此任务不能运行。

但为什么主机状态为 closed_busy,LSF还会向主机派发任务呢?

仔细调查发现主机的状态并不是一直都是 closed_busy,而是在closed_busy和ok之间切换。当LSF派发的任务预留了大量内存时,会出现临界状态,即预留的内存导致可调度内存接近50GB,但当LSF把任务派发后,LSF根据新采集的内存数据发现可调度内存小于50GB,就会将主机状态设置为closed_busy;当任务由于临时空间使用率100%导致运行失败时,LSF会将预留内存去除,从而可调度内存大于50GB,主机状态变为ok,因此LSF又向主机派发任务,如果任务又预留大量内存,则会重复上面的过程。由于以上过程时间很短,因此会给人错觉,主机状态为 closed_busy,LSF还会向主机派发任务。

解决办法:1. 清理临时空间,增加监控避免临时空间枯竭;2. 另外还可以设置 EXIT_RATE,当任务失败率高时,即时通知管理员处理。


http://www.mrgr.cn/news/67999.html

相关文章:

  • 真正的Agent来了,智谱新模型AutoGLM的相关应用,以及AutoGLM的python代码部署实战
  • 背包九讲——背包问题求具体方案
  • 敬业签适配鸿蒙:开启多端协同新篇章
  • 基于 SpringBoot 实现QQ邮箱验证码注册功能
  • 数据库管理-第256期 Oracle DB 23.6新特性一览(20241031)
  • mac 修改启动图图标数量
  • 【NLP】使用 SpaCy、ollama 创建用于命名实体识别的合成数据集
  • 从零构建一个基于PHP和MySQL的文件管理系统
  • App推广社交玩法全解析
  • 数据结构---排序总结
  • 基于Multisim六路抢答器电路(含仿真和报告)
  • 数据链路层Mac协议与ARP协议
  • 每日OJ题_牛客_春游_贪心+数学_C++_Java
  • htop-2.2.0在arm64上的手工编译
  • Prompt 工程
  • Git 的基本概念和使用方式
  • DeBiFormer实战:使用DeBiFormer实现图像分类任务(二)
  • macos中安装和设置ninja
  • Linux下的WatchDog
  • 协程2 --- 相关概念
  • PPT文件设置了修改权限,如何取消权?
  • Linux-c TCP服务模型
  • 【测试】【Debug】vscode中同一个测试用例出现重复
  • 27.旅游推荐管理系统(基于springboot和vue)
  • 【系统架构设计师】高分论文:论软件的可用性设计
  • 【JavaScript】模块化开发