磁盘耐久度告警
<h1>报警描述</h1>
<p>业务[XXX],服务器的管理地址[X.X.X.X],位于[XX机房_机柜XX],负责人[XX]磁盘健康状况|磁盘Solid State Disk X:X:X_SSD_XXX.XXGB状态为报警,描述为剩余耐久度小于XX%。</p>
<h1>说明</h1>
<p>对于DELL部分型号的服务器(如R740XD系列),其管理口可返回固态盘的耐久度情况。当固态耐久度低于一定阈值时,会触发耐久度告警。此时建议准备好备用固态盘,损坏时可及时更换。</p>
<p>注意:当耐久度低于50时,从系统面板上磁盘指示灯并不会变为黄灯报警状态。但此报警也需要进行特别关注,以免出现磁盘真正故障时来不及更换的情况。</p>
<h1>监控对象</h1>
<p>DELL服务器</p>
<h1>监控方式</h1>
<p>通过DELL服务器的带外管理口获取该信息。需要为带外管理口配置地址,并开通snmp服务(默认开启),设置团体名(默认public)。确保监控服务器能访问到管理口地址。
在监控系统中添加对管理口的监控配置。配置类型为snmpfast。需要配置snmp端口、版本号等信息。</p>
<h2>SNMP OID</h2>
<p>该信息通过OID .1.3.6.1.4.1.674.10892.5.5.1.20.130.4.1.32 采集得到。官方描述如下:</p>
<p>This property is applicable to SSD media type only. This indicates
the wear-out percentage of the SSD. Typically it is a value between
0 to 100. However, if the value is not available or not applicable
(in the case of HDD media type) the value will be 255.</p>
<p>这个属性只应用于 SSD 固态盘。它以百分比来表示磁盘的磨损度。通常这个数值在0~100之间变动。如果该数值无效(比如针对HDD机械硬盘),该数值为255。</p>
<h1>规则</h1>
<p>默认规则为:</p>
<pre><code>[50&lt;耐久度] 正常
[耐久度&lt;=50] 报警</code></pre>