いつもお世話になっております。
タイトルの件について質問させてください。
使用環境
Zabbix Server:3.0.7 PosetgreSQL
OS :CentOS 7.2
Zabbix Agent :3.0.7
OS :CentOS 7.3
UserParameterを使用してFPGAカードの状態を監視しています。
下記コマンドを実行させ、"FPGA Core Temperature"の行にあるOKの数を返しています。
更新間隔は30秒です。
UserParameter=fpga.fct1,export HOME=/root;bwmonitor --dev=1 --read | grep "FPGA Core Temperature" | grep OK | wc -l
トリガーには0が返ってきた場合に重度の障害としてアラート検知させるよう設定しています。
このアイテムで障害が多発(1日30件ほど)しており、原因調査を行っています。
障害が発生しているアイテムとは別に以下のコマンドで"FPGA Core Temperature"を含むすべての情報を出力させているのですが、