报警知识库


磁盘耐久度告警

<h1>报警描述</h1> <p>业务[XXX],服务器的管理地址[X.X.X.X],位于[XX机房_机柜XX],负责人[XX]磁盘健康状况|磁盘Solid State Disk X:X:X_SSD_XXX.XXGB状态为报警,描述为剩余耐久度小于XX%。</p> <h1>说明</h1> <p>对于DELL部分型号的服务器(如R740XD系列),其管理口可返回固态盘的耐久度情况。当固态耐久度低于一定阈值时,会触发耐久度告警。此时建议准备好备用固态盘,损坏时可及时更换。</p> <p>注意:当耐久度低于50时,从系统面板上磁盘指示灯并不会变为黄灯报警状态。但此报警也需要进行特别关注,以免出现磁盘真正故障时来不及更换的情况。</p> <h1>监控对象</h1> <p>DELL服务器</p> <h1>监控方式</h1> <p>通过DELL服务器的带外管理口获取该信息。需要为带外管理口配置地址,并开通snmp服务(默认开启),设置团体名(默认public)。确保监控服务器能访问到管理口地址。 在监控系统中添加对管理口的监控配置。配置类型为snmpfast。需要配置snmp端口、版本号等信息。</p> <h2>SNMP OID</h2> <p>该信息通过OID .1.3.6.1.4.1.674.10892.5.5.1.20.130.4.1.32 采集得到。官方描述如下:</p> <p>This property is applicable to SSD media type only. This indicates the wear-out percentage of the SSD. Typically it is a value between 0 to 100. However, if the value is not available or not applicable (in the case of HDD media type) the value will be 255.</p> <p>这个属性只应用于 SSD 固态盘。它以百分比来表示磁盘的磨损度。通常这个数值在0~100之间变动。如果该数值无效(比如针对HDD机械硬盘),该数值为255。</p> <h1>规则</h1> <p>默认规则为:</p> <pre><code>[50&amp;lt;耐久度] 正常 [耐久度&amp;lt;=50] 报警</code></pre>

页面列表

ITEM_HTML