agent的稳定性如何保障
Agent支持自动降级和自杀,以保证不额外消耗系统资源:
当Agent发现所在系统负载过高后,自动进行降级,降级后Agent停止所有高消耗资源的操作,保证不影响所在主机的业务运行。
1.在15分钟内系统平均负载的最高值为核数的1倍(loadavg)时,当超出核数5倍时降级处理,停止Agent的所有工作只保持基本连接并等待处理。
当Agent发现自身资源占用过大时,例如CPU、内存和文件句柄等,Agent会自杀重启。
1.agent占用物理内存超过500MB;
2.agent占用cpu超过150%;
3.agent有cpu限制,默认是单核的50%,但是有可能在执行业务或者系统异常的情况下,cpu瞬时值可能会很高,当agent检查到cpu超过150%时,认为自身处于异常状态,会做自杀处理,防止影响客户业务。
打开的句柄数超过1024。
Agent具备自动拉起机制
Linux
系统crontab定时任务每隔2分钟执行一次bash脚本检查Agent状态,如果Agent进程不存在,bash脚本会将Agent自动拉起。
Crontab内容如下:
*/2 * * * * /bin/bash /etc/titanagent/agent_monitor.sh >> /var/log/titanagent/edog.o.log 2>> /var/log/titanagent/edog.e.log
Windows
系统定时任务每隔5分钟检查一次Agent状态,如果Agent进程不存在,定时任务会将Agent自动拉起。