报警知识库


监控代理心跳超时

<h1>报警描述</h1> <p>业务[XXXX],虚拟机[X.X.X.X],用途[XXX]代理|连接心跳超时报警,心跳超时为XX分钟</p> <h1>说明</h1> <p>当代理端通信的心跳时间与监控服务器之间的时间超过60分钟将会触发该报警。 当监控服务器发现心跳时间超过15分钟时,会通过infoeyeagent_svc进程将infoeyeagent_mq0杀掉并重启。若infoeyeaget_mq0进程无法启动,后续每隔两个小时通过infoeyeagent_svc进程启动。大部分代理心跳会在两个小时内恢复,当有超过好几百分钟甚至上千分钟的才需要分析查看。</p> <h2>现象举例</h2> <p>远程到被监控服务器后,打开任务管理器,Windows进程名称为“infoeyeagent_mq0.exe”,Linux进程名称为“infoeyeagent_mq0”,该进程消失后会引发报警。</p> <h2>检查方式</h2> <p>1、检查被监控服务器到监控服务器的端口5672,8777,8777(udp)能否通信,可使用telnet,nc 等命令测试。 打开代理安装目录查看agenet0.log日志并移动到最后,可看到”Connecting failed”字样说明连接失败,并且通过telnet方式也可看到5672,8777端口连接失败。 2、检查被监控服务器的动态端口是否用尽,可通过netsat –ano 命令查看端口占用情况。 3、如果有些IP频繁的报出心跳报警,可以考虑将代理中的” infoeyeagent_svc.exe”和” infoeyeagent_mq0.exe”替换一下(最新版本),然后再重新运行观察。</p> <h1>监控对象</h1> <p>监控代理</p> <h1>监控方式</h1> <p>根据监控代理返回的心跳状态。</p> <h1>规则</h1> <p>状态监控类。</p>

页面列表

ITEM_HTML