报警知识库


Swarm节点报警

<h1>报警描述</h1> <p>业务[XXX],虚拟机[X.X.X.X]Docker|XX主机名|Swarm节点|XX主机名状态报警,状态为Down。</p> <h1>说明</h1> <h2>Docker Swarm</h2> <p>Docker Swarm是Docker的一种全新的集群管理工具,它使用Docker API构建和管理Docker容器化应用程序的集群。Docker Swarm具有自动负载均衡、水平扩展性、服务发现和可靠性,可以使容器应用程序在一个集群中更加高效、稳定和可靠地运行。Docker Swarm集群可通过Docker Stack进行容器编排。 在Docker Swarm集群中,加入集群的服务器被称为“Swarm节点(node)”。可以通过为“容器”设置副本数的方式,让一个或多个容器运行在不同的Swarm节点上。</p> <h2>关于报警</h2> <p>当某个Swarm节点脱离Docker集群的管理时,则在Docker Swarm中,会认为此Swarm节点处于“Down”的状态。Docker Swarm所管理的容器,其高可用性会因为少了该节点的支撑而降低。当所有Swarm节点均为“Down”状态时,Docker Swarm集群失效,容器将无法再对外提供服务。 该报警的含义就是说某个Docker Swarm节点处于托管的“Down”状态。 当发生此报警时,应及时恢复该Swarm节点的运行状态,使之重新加入Docker Swarm集群。若此节点已不再需要,则应该从Docker Swarm集群中删除该节点,以免引起运维误判。</p> <h1>监控对象</h1> <p>监控对象为Docker Swarm集群。</p> <h1>监控方式</h1> <p>通过监控代理获取该信息。 在监控代理部署后,会自动分析主机是否存在Docker服务、是否存在Docker Swarm集群。若存在,则自动进行监控。 节点状态通过如下命令获取:</p> <pre><code>docker node ls</code></pre> <h1>规则</h1> <p>当Swarm节点状态为“Down”时,产生[报警]级别的告警信息。 <img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=4a3b18df51e90da716c50e55f6a5ca15&amp;amp;file=file.png" alt="" /></p>

页面列表

ITEM_HTML