摘要:告警關(guān)聯(lián)唯一使監(jiān)控和報(bào)警都步入正軌的好辦法,就是通過(guò)告警關(guān)聯(lián)。企業(yè)如果適應(yīng)了告警關(guān)聯(lián),信息告警的圖表盤(pán)上確實(shí)能減少很多壓力。
對(duì)于許多 IT 和運(yùn)維團(tuán)隊(duì)來(lái)說(shuō),Nagios 既是一個(gè)福音也是一個(gè)詛咒。一方面,Naigos 在 IT 應(yīng)用的工作領(lǐng)域中,給予了你可以實(shí)時(shí)查看告警數(shù)據(jù)的可能性;但是另一方面,Nagios 也能夠生成超級(jí)多的告警,對(duì)于任何一個(gè)運(yùn)維人員或是運(yùn)維團(tuán)隊(duì)來(lái)說(shuō)都是 hold 不住的。
由于告警浪潮的原因,我們收件箱時(shí)常會(huì)爆滿,移動(dòng)電話也會(huì)被逼調(diào)成靜音狀態(tài)。更令人沮喪的是,這些告警只不過(guò)僅僅是噪音而已。
Nagios 所欠缺的就是一個(gè)智能的管理系統(tǒng),可以在噪音背景中,幫助運(yùn)維人員挑選出真正的有意義的告警。
當(dāng)然,說(shuō)起來(lái)容易做起來(lái)難。
在上一篇文章中,我們討論了為什么 Naigos 起初會(huì)生成如此之多的告警,并且很少是需要實(shí)際執(zhí)行的。
那么現(xiàn)在,讓我們來(lái)討論下該如何把告警智能化。
唯一使監(jiān)控和報(bào)警都步入正軌的好辦法,就是通過(guò)告警關(guān)聯(lián)。如果成百上千個(gè)告警都潛在的指向著同一個(gè)根本問(wèn)題「當(dāng)然情況也常常如此」,我們需要的就是一種能夠瞬間查找到關(guān)聯(lián)這些告警的方法,這才是真正的問(wèn)題所在。
以下這個(gè)例子,可以很好的理解告警關(guān)聯(lián),并告訴你如何提升應(yīng)用監(jiān)控。
例如一個(gè) MySOL 集群,這里面一些主機(jī)的頁(yè)面上有著很高的錯(cuò)誤率,而其余一些只是發(fā)出低內(nèi)存的警告。此時(shí)你的 Nagios 圖表盤(pán)在30分鐘里,會(huì)接受到不止20個(gè)獨(dú)特的告警,這其實(shí)看起來(lái)沒(méi)有太大的意義。你的電子郵件收件箱看起來(lái)就像一個(gè)垃圾桶,并且當(dāng)你離開(kāi)辦公室以后,你口袋里的移動(dòng)電話還會(huì)嗡嗡的響。
我們可以用一個(gè)正確的方式和一個(gè)錯(cuò)誤的方式來(lái)分別處理這些告警。錯(cuò)誤的方式就是將所有這些告警都作為單一的獨(dú)立信息,而不是把這些警告看做是一個(gè)完整事件的代表。這樣當(dāng)告警洪潮來(lái)臨的時(shí)候,我們根本無(wú)法尋找到這個(gè)發(fā)起者。
而正確的方法則是,透過(guò)圖表盤(pán)的數(shù)據(jù)來(lái)看這些報(bào)警關(guān)聯(lián)的特征,整條告警潮流可能都會(huì)被組合在一起。所有這些集群的頁(yè)面錯(cuò)誤告警都將被聚合,指出真正的根源所在,并且會(huì)一直在我們的掌控中,即使被告警浪潮淹沒(méi)也不怕。
除了沒(méi)有關(guān)聯(lián)性質(zhì)的「比如在 MySQL 節(jié)點(diǎn)上的一個(gè)存儲(chǔ)問(wèn)題」事件,大部分的告警都可以被整合收集在一起。我們可以輕易的歸類(lèi)這些告警信息,并跟其他的類(lèi)似事件劃分開(kāi)。這樣在一個(gè)告警洪流中,被湮滅的將會(huì)是其他無(wú)意義的告警了。
告警關(guān)聯(lián)是一個(gè)分組的方法,有著高度相關(guān)聯(lián)的一系列告警信息,就會(huì)被分為一個(gè)高級(jí)事件。
還有其他方法可以對(duì)抗告警洪潮嗎?有是有,但它們都很無(wú)用。
一個(gè)通常被用于企業(yè)的方法,就是告警過(guò)濾。監(jiān)控工程師自己配置的圖表盤(pán),僅局限于少量的警報(bào),指定為高安全性的警報(bào)。可預(yù)計(jì)的到,這樣的圖表盤(pán)將比一個(gè)完整的圖表盤(pán)會(huì)大大的減少告警噪音。
但是,這里有三個(gè)關(guān)于告警過(guò)濾的問(wèn)題不容忽視。首先,它在你的操作可視化上創(chuàng)造了一個(gè)盲點(diǎn),這樣會(huì)使問(wèn)題癌變,因?yàn)橥ǔG闆r下,低程度的告警是高程度告警的前提。例如,一個(gè) CPU 負(fù)載事件可能很快就會(huì)演變成一個(gè)全面的故障。
通過(guò)忽視掉低程度的問(wèn)題,你強(qiáng)迫自己進(jìn)入一個(gè)只操作高程度告警的反應(yīng)模式。此時(shí)你已經(jīng)背離了告警監(jiān)控的初衷了———接收告警的目的是在他們急劇上升之前就能夠解決掉潛在的問(wèn)題。然而,告警過(guò)濾經(jīng)常是完全相反地,因?yàn)榈统潭鹊氖录?huì)被積極的開(kāi)除的,等到潛在的威脅已經(jīng)影響到了用戶(hù)以后,風(fēng)險(xiǎn)報(bào)警才會(huì)對(duì)團(tuán)隊(duì)做出響應(yīng)。
第二個(gè)問(wèn)題是關(guān)于過(guò)濾本身的,過(guò)濾后圖表盤(pán)上的信息會(huì)變更得非常的簡(jiǎn)單且難以捉摸。以上面 MySQL 為例,在你的高嚴(yán)重報(bào)表的儀表盤(pán)中,要了解到所有的頁(yè)面故障率是不現(xiàn)實(shí)的。因此,當(dāng)你消除掉低內(nèi)存的告警后,你的肩上依然有可能背負(fù)著其余的有效告警。
最后也是最主要的問(wèn)題,就是這種過(guò)濾的設(shè)定只能鎖定已知的問(wèn)題。如果一個(gè)新的高風(fēng)險(xiǎn)事件出現(xiàn),將會(huì)被過(guò)濾器無(wú)情的回避忽視掉,從而無(wú)法被歸類(lèi)到既定的圖表盤(pán)中去查看與處理。
相比之下,告警關(guān)聯(lián)可以使你很好的抵抗告警洪潮,也不會(huì)丟失問(wèn)題的可見(jiàn)性。企業(yè)如果適應(yīng)了告警關(guān)聯(lián),信息告警的圖表盤(pán)上確實(shí)能減少很多壓力。
在 Onealert 中,我們開(kāi)發(fā)了一個(gè)基于云端的分布式現(xiàn)代化告警關(guān)聯(lián)性平臺(tái),并且我們還優(yōu)化了與 Nagios 等一系列開(kāi)源監(jiān)控工具的集成。
Onealert 能夠集成你的 Nagios 告警,它會(huì)用一個(gè)智能算法,來(lái)處理和關(guān)聯(lián)這些告警。整個(gè) Onealert 圖表盤(pán)是一個(gè)基于云端的應(yīng)用服務(wù),代表著所有 Nagios 告警,可以有效地組合成高層次的事件。
高效精準(zhǔn): Onealert 的算法能夠減少你99%的告警負(fù)荷,同時(shí)保持高精度性。
自定義配置:Onealert 允許你為特定的告警事件配置自定義規(guī)則,避免遺漏。
一站式關(guān)聯(lián):除了 Nagios,Onealert 在其他監(jiān)控工具中也可以完美的結(jié)合,比如 Zabbix,監(jiān)控寶,阿里云等。
然而你也不必要完全相信我的話,咱們可以嘗試著自己安裝下 Onealert,學(xué)習(xí)更簡(jiǎn)單的生活,使你的工作也在無(wú)窮無(wú)盡的告警中變得更有意義。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/7939.html
摘要:自動(dòng)化監(jiān)控這里我需要問(wèn)兩個(gè)重要的問(wèn)題為什么洪水警戒會(huì)一直發(fā)生并且為什么會(huì)愈演愈烈問(wèn)題的根源其實(shí)是基于告警監(jiān)控的積極一面自動(dòng)化。所以,我們對(duì)配置好閾值,并把這項(xiàng)艱巨的工作委派給它。開(kāi)發(fā)人員通過(guò)吸收客戶(hù)的反饋指導(dǎo),會(huì)選擇短平快的項(xiàng)目。 如果你受困于 Nagios 的告警洪潮中不能自拔,那么這兩篇連載博客就是為你而生的。讓我們來(lái)詳細(xì)的闡述下這個(gè)問(wèn)題! showImg(https://segm...
摘要:如何有效處理緊急事件驅(qū)動(dòng)的工作,成為特別是運(yùn)維主管運(yùn)維工作的關(guān)鍵。通知到位和及時(shí)響應(yīng)。機(jī)器學(xué)習(xí)領(lǐng)域是未來(lái)的重要發(fā)展方向,目前我們還在摸索中。機(jī)器學(xué)習(xí)告警合并事件單的處理如果告警量很大,告警后續(xù)處理和跟蹤往往會(huì)依賴(lài)于外部團(tuán)隊(duì)部門(mén)外或公司外。 編者按]本文作者為陳伯龍,云告警平臺(tái)[OneAlert創(chuàng)始人,著《云計(jì)算與OpenStack》,在IT運(yùn)營(yíng)管理、云計(jì)算方面從業(yè)10多年。 正文 互聯(lián)...
摘要:如何有效處理緊急事件驅(qū)動(dòng)的工作,成為特別是運(yùn)維主管運(yùn)維工作的關(guān)鍵。通知到位和及時(shí)響應(yīng)。機(jī)器學(xué)習(xí)領(lǐng)域是未來(lái)的重要發(fā)展方向,目前我們還在摸索中。機(jī)器學(xué)習(xí)告警合并事件單的處理如果告警量很大,告警后續(xù)處理和跟蹤往往會(huì)依賴(lài)于外部團(tuán)隊(duì)部門(mén)外或公司外。 編者按]本文作者為陳伯龍,云告警平臺(tái)[OneAlert創(chuàng)始人,著《云計(jì)算與OpenStack》,在IT運(yùn)營(yíng)管理、云計(jì)算方面從業(yè)10多年。 正文 互聯(lián)...
摘要:或參考集成安裝文檔通過(guò)微信報(bào)警提供腳本命令插件,通過(guò)新增用戶(hù)通知的方式,調(diào)用命令將告警通知發(fā)送至云告警平臺(tái),根據(jù)通知策略,分派和通知到用戶(hù),提供微信短信電話和郵件方式。 引言 Nagios 作為業(yè)界非常強(qiáng)大的一款開(kāi)源監(jiān)視系統(tǒng)。 監(jiān)控網(wǎng)絡(luò)服務(wù)(SMTP、POP3、HTTP、NNTP、PING 等); 監(jiān)控主機(jī)資源(處理器負(fù)荷、磁盤(pán)利用率等); 簡(jiǎn)單地插件設(shè)計(jì)使得用戶(hù)可以方便地?cái)U(kuò)展自己服...
摘要:本文主要分為三個(gè)部分,將介紹監(jiān)控系統(tǒng)的歷史流派及如何選型,希望對(duì)讀者能有所幫助。圖監(jiān)控系統(tǒng)發(fā)展歷史早期的監(jiān)控系統(tǒng)互聯(lián)網(wǎng)發(fā)展早期的監(jiān)控系統(tǒng),主要是指基于簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議的網(wǎng)絡(luò)監(jiān)控和系統(tǒng)主要指操作系統(tǒng)監(jiān)控。 本文作者 劉俊微博平臺(tái)監(jiān)控技術(shù)負(fù)責(zé)人,負(fù)責(zé)微博平臺(tái)、PC微博大規(guī)模監(jiān)控系統(tǒng)的建設(shè),主要關(guān)注實(shí)時(shí)大數(shù)據(jù)、運(yùn)維自動(dòng)化、智能化方向,2014年加入微博,之前曾在新浪、搜狐等公司從事運(yùn)維監(jiān)控方面的工...
閱讀 3768·2021-09-02 15:11
閱讀 4773·2021-08-16 10:47
閱讀 1661·2019-08-29 18:35
閱讀 3180·2019-08-28 17:54
閱讀 2932·2019-08-26 11:37
閱讀 1574·2019-08-23 16:51
閱讀 1897·2019-08-23 14:36
閱讀 1879·2019-08-23 14:21