大量アラート抑止のためのトリガー設定

March 23, 2022, 1:17 am

ログ監視について、お力添えをいただけるとありがたいです

▲やりたい設定
あるログファイルでAかBという文字列があると1回目、2回目では障害として検知するが、5分で3回を超えるとそれ以上新たな障害として検知されないような設定にしたいです。そのために以下のような設定にしましたがトリガーが働きませんでした。正規表現を使用するとcountの関数は機能しないのでしょうか？？（検知対象に文字列Aだけを指定した場合には想定通りにトリガーが働きましたが、A|Bのような正規表現を使用した形式だとトリガーが働きませんでした。）

▲障害条件式
"{Test_template:logrt[“/infra/script/xxxlog”].regexp(A|B)}=1
and
{Test_template:logrt[“/infra/script/xxxlog”].count(5m,A|B)}<3"

▲障害イベント生成モード：複数

▲復旧条件式（勝手に復旧しないように絶対に起こらない条件を設定）
{Test_template:logrt[“/infra/script/logs/xxxlog”].last()}=9999

▲環境
OS： RHEL/7.5
Zabbix Server ：5.0.4
Zabbix Agent ：1.8(Updateは出来ないです)

↧

Zabbix Agentのホスト名・IPアドレス変更について

March 23, 2022, 2:11 am

≫ Next: 2台ホストのアイテム値の差分でトリガー

≪ Previous: 大量アラート抑止のためのトリガー設定

お世話になっております。掲題の件について教えてください。
現在、Zabbix Agentがインストールされている以下の構成のファイルサーバを更改したいと思っています。

●既存サーバ
・Windows
・Zabbix Agentインストール済み

新規サーバは以下の構成を予定しております。

●新規サーバ
・Windows
・Zabbix Agentがインストール予定
・ホスト名とIPは既存サーバのものを踏襲する（構築期間中は仮のホスト名とIPアドレスを割り当て予定）

上記構成にて、構築期間中に新規サーバにZabbix Agentをインストールした場合、新規サーバのホスト名とIPアドレスをを既存サーバのものに変更する際の手順について以下の認識で問題ないでしょうか。

【Zabbix Agent側の作業】
・Zabbix Agentを停止する
・Windowsサーバのホスト名とIPアドレスを変更
・Windowsサーバを再起動
・起動後、Zabbix Agentが起動していることを確認

【Zabbix Server側の作業】
・既存サーバの情報をZabbix Serverから削除する
・新規サーバの情報をZabbix Server上に登録を行う

誤認識または手順に不足等ございましたら、ご指摘の程お願いいたします。

↧

2台ホストのアイテム値の差分でトリガー

March 23, 2022, 11:51 pm

≫ Next: Windowsイベントログ監視対象機器の再起動後、障害を検知し続けてしまう。

≪ Previous: Zabbix Agentのホスト名・IPアドレス変更について

RHEL 7.6
Zabbix 4.0

お世話になっております。

2台構成(仮にAホストとBホスト)の監視を同一のTemplateで行っている場合
AホストのTemplateアイテム-XとBホストのTemplateアイテム-Xの差分でトリガーを設定したいと考えておりますが可能でしょうか？
また不可能な場合どういった監視方法があるかご教授のほどよろしくお願いいたします。

↧

Windowsイベントログ監視対象機器の再起動後、障害を検知し続けてしまう。

March 24, 2022, 10:49 pm

≫ Next: Winndowsのパフォーマンスモニタの代替評価について

≪ Previous: 2台ホストのアイテム値の差分でトリガー

〇環境
ZabbixServer
Ver:4.0.39
OS:CentOS 7

ZabbixAgent
Ver:4.0.10
OS:WindowsServer2018

〇概要
現在Zabbixにて下記アイテム、トリガーにて障害検知を行っております。

◇アイテム(1m周期)
eventlog[application,,error,"Backup Exec|Backup Exec Management",,,skip]
⇒内容としては、イベントログのアプリケーションログ内に、Backup Execというソースのエラーが発生した場合にアイテムとして収集します。

◇トリガー
(({ホストIP:eventlog[application,,error,"Backup Exec|Backup Exec Management",,,skip].regexp(ライセンス)})=0) and
(({ホストIP:eventlog[application,,error,"Backup Exec|Backup Exec Management",,,skip].regexp(利用可能な更新の照会に失敗しました)})=0)
⇒内容としては、前述のアイテムから更に「ライセンス」と「利用可能な...」を除いたものが出力された場合、障害として検知する仕組みです。

↧

Winndowsのパフォーマンスモニタの代替評価について

March 29, 2022, 7:15 pm

≫ Next: logrtによるログ検知結果をスクリプトによるシェルリダイレクトで出力したい

≪ Previous: Windowsイベントログ監視対象機器の再起動後、障害を検知し続けてしまう。

初めまして、初めて投稿いたします。初心者質問ですみません。
現在、パフォーマンスモニタの情報を定期的に抜き出して監視運用を行っています。
フォーマンスモニタでの監視をZABBIXに置き換えて運用しようと考えていますが、どうでしょうか。
取得できない値等、存在するのでしょうか。
また、現運用では一度に同じタイミングで情報取得していますが、ZABBIXではアイテム同士を同タイミングで情報取得可能でしょうか。
以上、あいまいな質問ですみませんが、ご回答お願い致します。

↧

logrtによるログ検知結果をスクリプトによるシェルリダイレクトで出力したい

March 29, 2022, 10:50 pm

≫ Next: SNMPTrap監視における復旧条件式について

≪ Previous: Winndowsのパフォーマンスモニタの代替評価について

お世話になります。

ZABBIX5.4.3 監視対象はCentOSです。

ログ監視自体は問題なく行えています。

アイテムキー：
logrt[/var/log/xyz/messages,"answered"]

トリガー：
change(/host/logrt[/var/log/xyz/messages,"answered "])=1 and
nodata(/host/logrt[/var/log/xyz/messages,"answered"],30)=0

ログからansweredを検出したらトリガーとし30秒更新がなければ復旧も、正常に動作しています。
併せて検知した内容(最新値last(0))をアクションでMS Teamsに飛ばす所も正常に動作しています。

アクションに追加する形で実施したいのは掲題にある通り、検知した最新値をファイルに出力したいです。
アクションにてスクリプトを実行する形でZABBIX上では実行済みとなっています。
スクリプトの内容は以下の通りです。

sudo {TRIGGER.KEY}.last(0) > /root/test

visudoによるzabbixの権限設定やAllowKey=system.run[*]は済んでいます。

↧

SNMPTrap監視における復旧条件式について

April 1, 2022, 1:07 am

≫ Next: LLDで自動生成したグラフの名前を変更する方法はありますか？

≪ Previous: logrtによるログ検知結果をスクリプトによるシェルリダイレクトで出力したい

SNMPTrap監視で、以下のアイテム、トリガーを設定しています。

＜Zabbixバージョン＞
　4.0.13

＜設定内容＞ (※)xの部分はインターフェイスID等の数字
　■アイテムキー(アイテム名：Linkdown_hostname)
　　snmptrap[ifOperStatus.xxx:down ifName.xxx:xe-x/x/xx:x]
　■アイテムキー(アイテム名：Linkup_hostname)
　　snmptrap[ifOperStatus.xxx:up ifName.xxx:xe-x/x/xx:x]
　■トリガー条件式(トリガー名：特定ポート断)
　　{hostname:snmptrap[ifOperStatus.xxx:down ifName.xxx:xe-x/x/xx:x].regexp(ifOperStatus.xxx:down ifName.xxx:xe-x/x/xx:x)}=1
　■復旧条件式
　　{hostname:snmptrap[ifOperStatus.xxx:up ifName.xxx:xe-x/x/xx:x].regexp(ifOperStatus.xxx:up ifName.xxx:xe-x/x/xx:x)}=1
　■イベント生成モード
　　単一

↧

LLDで自動生成したグラフの名前を変更する方法はありますか？

April 5, 2022, 10:22 pm

≫ Next: Native HAとProxyの紐づけ

≪ Previous: SNMPTrap監視における復旧条件式について

初めてお世話になります。

▼解決したいこと
ローレベルディスカバリで自動生成したグラフの名前を変更する方法を知りたい

▼環境

zabbix5.0
【既存テンプレート】Template Module Interfaces Simple SNMP
【既存ディスカバリルール】Network interfaces discovery
【既存グラフのプロトタイプ】Interface {#IFDESCR} {#IFALIAS}: Network traffic

▼詳細
既存の上記テンプレート内のLLDを利用してNW機器のIFを自動抽出、グラフの自動作成等までは確認できているのですが
一部NW機器（YAMAHAのRTX）にてifAliasのOIDに対応しておらず、IFの情報が取得できないためグラフの名前が以下のように表示されています。

例：Interface LAN1 {#IFALIAS}: Network traffic

※その他のifAliasがSNMPで取得できる機器は上記 {#IFALIAS}の値がIF毎に表示される

↧

Native HAとProxyの紐づけ

April 5, 2022, 10:49 pm

≫ Next: Native HAとActive Checkについて

≪ Previous: LLDで自動生成したグラフの名前を変更する方法はありますか？

お世話になっております。

Zabbix Server6.0
Zabbix Proxy6.0

3台のHA構成＋Proxy1台で環境を作ろうと考えています。

Server3台分のIPアドレスをProxyのコンフィグに設定することで、
Active機が停止した場合でもProxyは機能し続けてくれるのでしょうか？
もしくは、Server1台としか紐づけできないのでしょうか。

ご回答いただけますと幸いです。

↧

Native HAとActive Checkについて

April 5, 2022, 10:55 pm

≫ Next: postgreSQL のフルバキュームを実行すると、Zabbix Server がほとんど動かなくなる

≪ Previous: Native HAとProxyの紐づけ

お世話になっております。

Zabbix Agent 6.0
Zabbix Server 6.0

Server3台のHA構成で、監視対象のログ監視を行いたいのですが、
AgentのコンフィグにServer3台分のIPアドレスを記載することで、
Active Checkが動作するようになるのでしょうか？

以前質問させていただいたときに、Active Checkで
複数台のServerIPアドレスを指定することはできない、と
ご回答いただいたので、HAではどうなのか質問させていただきました。

もし無理であれば、一台分（Active）のIPアドレスを設定する、
という形になるでしょうか？

ご回答いただけますと幸いです。

↧

postgreSQL のフルバキュームを実行すると、Zabbix Server がほとんど動かなくなる

April 6, 2022, 3:06 am

≫ Next: 即時復旧させたいログ監視における復旧条件式について

≪ Previous: Native HAとActive Checkについて

【現在の環境】
OS：RockyLinux 8.4
Zabbix server：5.4.7
Zabbix agent2： 5.4.7
PostgreSQL：13.3

現在、毎週土曜日の 22時から、cron にて、postgreSQL のフルバキューム(/usr/bin/vacuumdb -a -f)を実行しており、
その処理に約30分ほど要しているのですが、その間 Zabbix Server がほとんど動かない状態となってしまい、
フルバキュームが終了したのちに、その間処理できなかったトリガーに関する多量の障害が通知される
という状態になっています。

ちなみに、zabbix_server.log では、通常 1分間に 10件以上のログが出力されているのですが、
フルバキュームを実施した時間帯の 1分間のログの出力件数は、以下のように、
フルバキュームを開始した 22:00 からログの件巣が減少し、22:01～22:24の間は全くログがなく、
フルバキュームが終了した 22:30 に多量の通知がされたという状況です。

20220402:2157 17
20220402:2158 12
20220402:2159 12
20220402:2200 2
20220402:2225 6
20220402:2228 5

↧

即時復旧させたいログ監視における復旧条件式について

April 7, 2022, 10:46 pm

≫ Next: 複数ホストのagent.ping監視でトリガー発報が発生した原因について

≪ Previous: postgreSQL のフルバキュームを実行すると、Zabbix Server がほとんど動かなくなる

お世話になります。

【Zabbixバージョン】
Zabbix-server：5.4.0
Zabbix-agent2：5.2.6 (OS:RHEL7.4)

ログ監視において、トリガー条件に合致し生成されたイベントについては、
アクション(メール)が飛ばせれば、その後無条件で復旧扱いとしたい、という要件を満たすため、
以下のような設定をしているのですが、
テストの結果、一部ケースにおいて、想定と異なる挙動をとりました。

+-----------------------------------------------------------
【投入したトリガ設定】

◆障害イベント生成モード
[単一] を選択。

◆トリガー条件式
find(/{対象ホスト}/logrt[{監視対象ログ},"ERROR",,,skip,,,copytruncate])=1
and find(/{対象ホスト}/logrt[{監視対象ログ},"ERROR",,,skip,,,copytruncate])=1 ,,"regexp","{監視除外文言①}")=0
and find(/{対象ホスト}/logrt[{監視対象ログ},"ERROR",,,skip,,,copytruncate])=1 ,,"regexp","{監視除外文言②}")=0

↧

複数ホストのagent.ping監視でトリガー発報が発生した原因について

April 10, 2022, 10:37 pm

≫ Next: メールがユーザにより送信されていない

≪ Previous: 即時復旧させたいログ監視における復旧条件式について

お世話になっております。

agent.pingの監視をアクティブチェックで、1分間隔に行い、値を取得しております。
トリガーは、120秒応答がなければ、トリガー発報という条件を設定しております。

先日、複数の監視対象ホストでほぼ同時刻に、agent.pingの監視でトリガー発報(16:32頃～16:55頃)が発生しました。
トリガー発報前に、監視対象やzabbixサーバが正常稼働している事は確認しております。

発生した事とZabbixの動作が異なっており、現状、なぜそういう事が起きたのか分からない状況で困っております。

【発生した事】
1.zabbixサーバを16:44、17:13頃の計2回停止しておりますが、トリガーが発報する16:35より前には停止していません。

2.zabbixのダッシュボード内の障害ウィジェットを障害発生時間帯に確認しておりましたが、その際、agent.pingの障害通知はありませんでした。
※監視データ>障害では、agent.pingの障害の履歴がありました。

3.トリガー発報のあった複数のホストで、障害発生時間帯のagent.pingのグラフも確認しましたが、その時間帯にデータの欠損(グラフが途切れていない、値1)はありませんでした。

↧

メールがユーザにより送信されていない

April 11, 2022, 3:44 am

≫ Next: 月次性能監視の指標について

≪ Previous: 複数ホストのagent.ping監視でトリガー発報が発生した原因について

メディアタイプ Email で2つのメールアドレスにメールを送信設定していますが、
片方のメールアドレスにしか送信が行われていません。
バージョンは Zabbix 5.0.11です。

zabbix自体のログの確認方法等を教えていただけないでしょうか。
また、他にも原因の調査方法がありましたらご助言お願いしたいです。

「アクション」の「実行内容」で「ユーザに送信」の箇所で、2つのユーザに送信設定を行っています。
しかし、1方のユーザだけにメールが送信され、もう片方のユーザには送信できていません。

アクションログを見ても送信できているユーザへのログはあるのですが、送信できていないユーザへのログが（WEB上からは）存在しないように思えます。
送信できてないないユーザに対して、何もしていないように見えるのですが、調査方法を教えていただけると助かります。

よろしくお願いします。

↧

月次性能監視の指標について

April 13, 2022, 2:36 am

≫ Next: kubernetes Podログをlogrtで監視する際に過去ログを拾ってしまう

≪ Previous: メールがユーザにより送信されていない

お世話になっております。

月次の性能監視をZABBIXで行いたいと考えています。
月次で平均を取得し、基準を満たすかどうか判定し、ダッシュボードに表示したいです。
例えばメモリの利用率を値として取得し、月次の平均を算出すると75%とする。
その結果を基準:70%と照らし合わせて今月は利用率が高かったと判定する。今月のメモリ使用率は×判定。

このように判定した各アイテムの結果をダッシュボード一括で表示させる方法はないでしょうか。
また、できれば〇×などで判定を表現したいのですが、方法はあるでしょうか。
〇×で表示して、各グラフとともにwebブラウザの印刷機能で印刷したいです。

あいまいな表現ですみませんが、ご回答お願い致します。

↧

kubernetes Podログをlogrtで監視する際に過去ログを拾ってしまう

April 14, 2022, 4:24 am

≫ Next: アクション実行エラーにつきまして

≪ Previous: 月次性能監視の指標について

■Zabbixバージョン
Zabbix-server：5.0.21
Zabbix-agent2：5.0.21 (OS:ubuntu 20.04)

■質問
logrtを用いてpodのログを監視している方で以下事象にあった方がいれば解決策を伺いたいです。
ホスト(ubuntu VM)の /var/log/pods/namespace_deployment/container/x.log (xは任意の数字)をlogrtで監視時に突然過去ログを拾ってしまう事象。

■logrt item 設定内容
logrt[{#LOG_DIR_PATH1}/\d+\.log,""\""log\"":(.*),\""stream"",,1000,skip,\1]
item収集間隔は3sec
※LOG_DIR_PATH1は自作LLDで /var/log/pods/namespace_deployment/container/x.log を拾うようになっております

■agent2設定
BufferSize=8000 (65535でも本事象発生しております)

■その他わかっていること

↧

アクション実行エラーにつきまして

April 14, 2022, 11:17 pm

≫ Next: ログメッセージの監視

≪ Previous: kubernetes Podログをlogrtで監視する際に過去ログを拾ってしまう

お世話になっております。

以下問題が発生し、解決策がわからないためご協力いただければと思います。

=======================================================================
■前提
Zabbixサーバで検知した障害メッセージをアクションでスクリプトを実行し、
上位監視サーバへ転送している。

===============
zabbix 4.4.8
OS RHEL7.6
===============

■発生している問題
とあるサーバにて3分で3000件を超えるログ監視による障害メッセージを検知。
うち、アクションでエラーが7件発生、上位監視サーバへメッセージを転送できず。

■実現したいこと
上位監視サーバへのメッセージ転送エラーをなくしたい。

■エラーメッセージ
Get value from agent failed:ZBX_TCP_READ() timed out

=======================================================================

上記エラーメッセージが発生した原因として、zabbix_server.confの「Timeout」が

↧

ログメッセージの監視

April 18, 2022, 11:02 am

≫ Next: トリガ条件式について

≪ Previous: アクション実行エラーにつきまして

おそらく初歩的なことだとは思いますが、探してみましたが方法が見つからなかったため、質問させていただきます。

<実施したい内容>
ファイル内の文字列監視を実施し、特定の文字列を確認した際にアラートを出力

<確認したいファイルのフォルダパス>
/var/log

<確認したいファイル名称>
messages

<監視したい文字列>
hogehoge

<入力コマンド>
zabbix_server -V
<結果>
zabbix_server (Zabbix) 5.4.7

Web画面から作成
<作成したアイテム>
名前:testlog
タイプ:Zabbixエージェント(アクティブ)
キー:log[/var/log/messages]
データ型:ログ
監視間隔:1m
監視間隔のカスタマイズ:設定なし
ヒストリの保存期間:90d
ログの時間の形成:設定なし
説明:設定なし
有効:チェック状態

<作成したアイテムの状態>
監視データ > 最新データより確認
名前:testlog
最新の値:

アイテムは作成出来ていると思うのですが、トリガーの作成がうまくいかず苦戦しています。
<トリガー>
名前:<好きな名前を入れる>
イベント名:設定なし

↧

トリガ条件式について

April 20, 2022, 7:30 am

≫ Next: zabbix_proxy.confにDBPassを設定するとエラーになる

≪ Previous: ログメッセージの監視

障害の条件式：30秒監視間隔で、"ABC"が含まれるメッセージあれば検知対象としている。
{Template :snmptrap[***-**-MIB::***** type=. value=INTEGER: 3].iregexp("ABC",30)}<>0

復旧条件式：30秒経過後、trapを検知しなければ、自動的に復旧したものとみなす。
{Template :snmptrap[***-**-MIB::***** type=. value=INTEGER: 3].nodata(30)}=1

今回の事象：
10秒間隔で掲題のアラートを検知するインシデントが発生。
アラーム内容には"ABC"が含まれていないメッセージに関しても障害として検知してしまう。←検知しないようにしたい。
どのような条件式にすれば、今後同様の事象が発生した際に対応できるか。

お忙しいところ恐縮ですが、ご教示願います。

↧

zabbix_proxy.confにDBPassを設定するとエラーになる

April 20, 2022, 7:44 pm

≫ Next: DNSサーバ障害時にエージェント監視エラー(agent ping失敗)の発生について

≪ Previous: トリガ条件式について

お世話になっております。

Zabbix Server/Proxy/Agent2 6.0
Rocky Linux release 8.5 (Green Obsidian)
MariaDB 10.6

zabbix_proxy.confにDBPassを設定するとproxyがエラーになり、server側で未監視状態になります。
ゲストサーバを構築しなおしてみたりいろいろやったのですが、解決できませんでした。
同コンフィグ内の別の設定値はエラーに影響していないことを確認しています。
下記に構築手順とログを記載させていただきました。
設定が間違えている箇所などございましたらご指摘いただけますと幸いです。

◆Proxy構築手順(ホスト名:zabbix-p)
# dnf install -y mariadb-server mariadb --allowerasing
# dnf install -y https://repo.zabbix.com/zabbix/6.0/rhel/8/x86_64/zabbix-release-6.0-1.el...
# dnf install -y zabbix-proxy-mysql zabbix-sql-scripts zabbix-server-mysql zabbix-agent2

↧