摘要:自動(dòng)化監(jiān)控這里我需要問兩個(gè)重要的問題為什么洪水警戒會(huì)一直發(fā)生并且為什么會(huì)愈演愈烈問題的根源其實(shí)是基于告警監(jiān)控的積極一面自動(dòng)化。所以,我們對(duì)配置好閾值,并把這項(xiàng)艱巨的工作委派給它。開發(fā)人員通過吸收客戶的反饋指導(dǎo),會(huì)選擇短平快的項(xiàng)目。
如果你受困于 Nagios 的告警洪潮中不能自拔,那么這兩篇連載博客就是為你而生的。讓我們來詳細(xì)的闡述下這個(gè)問題!
運(yùn)維人員都有著獨(dú)立的監(jiān)控工具,因此會(huì)經(jīng)常受到 Nagios 告警吵鬧的影響。很多運(yùn)維人員對(duì) Nagios 都是愛恨交加的,Nagios 給了你實(shí)時(shí)的可見性,可以了解你的 IT 基礎(chǔ)設(shè)施的內(nèi)部運(yùn)作。用 Naigos,你可以辨認(rèn)出哪一臺(tái)主機(jī)內(nèi)存不足,哪臺(tái)服務(wù)器會(huì)占用太多 CPU 周期,哪一個(gè)應(yīng)用由于訪問時(shí)間太長(zhǎng)而跳轉(zhuǎn)離開。你也能夠足夠早的得到告警信息,在他們影響最終用戶之前解決掉問題,最大限度的讓 Nagios 為你而戰(zhàn)。
然而這些都是理論上的,不難發(fā)現(xiàn),Nagios 最終導(dǎo)致的問題跟它解決掉的問題其實(shí)是一樣多的。讓我們退一小步來講,Nagios 實(shí)際上并不會(huì)引起問題,只是它會(huì)使運(yùn)維團(tuán)隊(duì)鑒別出真正的問題時(shí)更加困難。舉個(gè)例子,當(dāng)小孩子哭鬧時(shí),并不一定是真的做錯(cuò)了什么,他們只是想被關(guān)注,或是因?yàn)樗麄兘?jīng)驗(yàn)有限,無法處理一件微不足道的小事,而在他們看來這卻是一個(gè)大大的問題,所以會(huì)使勁兒的哭。作為父母,我們知道摔傷的膝蓋只需要一個(gè)創(chuàng)可貼,但在疼痛來臨的那一刻,你的孩子會(huì)認(rèn)為他可能永遠(yuǎn)無法再走路了。
處理 Nagios 告警就像哄一個(gè)哭泣的孩子一樣,從外觀上看,我們并沒有什么好的方法能夠輕松區(qū)分一個(gè)摔傷的膝蓋和一個(gè)折斷的腿。因?yàn)?Nagios(實(shí)際上也是大多數(shù)監(jiān)控系統(tǒng)的通病)的每一個(gè)告警都看起來像即將到來的重大問題,又或者只是一個(gè)平常的小事而已。因此即便父母近乎一瞬間就會(huì)知道,他們手上有一個(gè)亟需處理的問題需要解決,但關(guān)鍵是我們并不能區(qū)分這鱷魚的眼淚是真是假。
這里我需要問兩個(gè)重要的問題:為什么洪水警戒會(huì)一直發(fā)生?并且為什么會(huì)愈演愈烈?
問題的根源其實(shí)是基于告警監(jiān)控的積極一面:自動(dòng)化。沒有任何一個(gè)運(yùn)維人員,甚至是整個(gè)運(yùn)維團(tuán)隊(duì),能夠手動(dòng)解析成千上萬個(gè)數(shù)據(jù),用來查明問題。沒有人會(huì)要求運(yùn)營(yíng)團(tuán)隊(duì)時(shí)刻盯著圖表去指出隨時(shí)出現(xiàn)的問題所在。
所以,我們對(duì) Nagios 配置好閾值,并把這項(xiàng)艱巨的工作委派給它。然后 Nagios 會(huì)通過我們?cè)O(shè)定好的所有的監(jiān)控去尋找超過閾值的事件,并向我們報(bào)告。
說到這里,發(fā)現(xiàn)問題了嗎?
純自動(dòng)化終歸不如人工智能,窗戶打開了,新鮮空氣伴隨著蒼蠅蚊子都會(huì)進(jìn)來。最終的結(jié)果會(huì)比你想象的直接得多:設(shè)定的這種配置,會(huì)把我們埋葬在浪潮般的告警洪流中,這就是 Nagios 所做的事情。
那么如何解決這個(gè)左右為難的問題呢?首先我們先列出問題點(diǎn)都有哪些:
1、無法辨認(rèn)
現(xiàn)代的應(yīng)用已經(jīng)不再是單多帶帶立的個(gè)體了,它不再依賴于一個(gè)強(qiáng)大的服務(wù)器,相反它可以從防火墻、服務(wù)器直接上升到云層共享,它可能依賴于數(shù)十、甚至成百上千個(gè)服務(wù)器支持著。所以當(dāng)應(yīng)用程序遇到問題時(shí),我們得到的是數(shù)以百計(jì)的警報(bào),并且往往都指向同一個(gè)緣由,即使它們看起來像一個(gè)多帶帶的問題。
2、關(guān)聯(lián)性
在過去的十年中,單一的應(yīng)用之間因?yàn)樵S多共同的服務(wù)而彼此互通著,這一問題將隨著時(shí)間的推移而變得更加明顯,越來越多的開發(fā)者會(huì)創(chuàng)造更多的應(yīng)用程序。這使得公司發(fā)展的很快,而對(duì)應(yīng)的擴(kuò)展性,關(guān)聯(lián)穩(wěn)定性和可維護(hù)性卻日趨上演成了主角。
這也就意味著,一個(gè)單一的問題可能會(huì)影響到多個(gè)服務(wù)器,在一個(gè)服務(wù)器上的問題,也可能會(huì)逐步升級(jí)到鄰近的應(yīng)用層面,逐漸從幾十個(gè)服務(wù)器中創(chuàng)造一系列告警。
然而,哪一個(gè)服務(wù)器是根源?在一個(gè)巨大的告警洪流中,它是不可能區(qū)分出來的。
3、快節(jié)奏的時(shí)代
在這個(gè)快節(jié)奏的時(shí)代,工程師團(tuán)隊(duì)必須調(diào)整他們的目標(biāo)與頂層的業(yè)務(wù)相結(jié)合。這種轉(zhuǎn)變意味著,我們現(xiàn)在會(huì)越來越少的看到長(zhǎng)達(dá)幾年之久的,在學(xué)術(shù)上非常靚麗的研發(fā)。開發(fā)人員通過吸收客戶的反饋指導(dǎo),會(huì)選擇短平快的項(xiàng)目。不幸的是,這影響了我們保持準(zhǔn)確和最新監(jiān)控配置的能力。當(dāng)我們完成配置的閾值和分類的時(shí)候,我們的應(yīng)用已經(jīng)變了。隨著時(shí)間的推移,我們積累了大量無意義的監(jiān)測(cè)或者過時(shí)的閾值數(shù)據(jù)。
然后,你能夠區(qū)分出這些遺留的噪音哪些是應(yīng)該被忽視的,哪些是可以制止的,哪些又是會(huì)導(dǎo)致宕機(jī)的亟需待解決的問題嗎?
的確,配置實(shí)時(shí)的監(jiān)控閾值是一項(xiàng)非常重要的工作,但不幸的是,我們的監(jiān)控告警系統(tǒng)壓根兒跟不上時(shí)代的變遷。
Onealert 智能告警監(jiān)控可以把你的 Nagios 告警關(guān)聯(lián)到任一高層事件,因此你能更快的辨認(rèn)出關(guān)聯(lián)性的問題,而不是人工去涉足數(shù)以千計(jì)的 Nagios 告警洪流,你現(xiàn)在能夠以統(tǒng)一的標(biāo)準(zhǔn)來檢閱它們,清晰的從噪音中分離出有意義的信號(hào)。這就是運(yùn)維團(tuán)隊(duì)所需要的辨認(rèn)關(guān)鍵性信息的能力,關(guān)聯(lián)告警的能力,跟上快節(jié)奏時(shí)代的能力。
離開 Onealert 會(huì)讓你受到威脅,配置錯(cuò)誤,宕機(jī)等一系列問題,因?yàn)檎嬲慕鉀Q方案已經(jīng)埋葬在了告警浪潮之中。
敬請(qǐng)期待下一節(jié),我將更深入的探討,通過 Onealert 告警信息關(guān)聯(lián),如何智能的添加進(jìn)你的 Naigos 告警中。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/7940.html
摘要:音視頻音視頻隨著互聯(lián)網(wǎng)的發(fā)展,對(duì)音視頻的需求越來越多,然而音視頻無亂是播放還是編解碼,封裝對(duì)性能要求都比較高,那現(xiàn)階段的前端再音視頻領(lǐng)域都能做些什么呢。 @(音視頻)[Audio|Video|MSE] 音視頻隨著互聯(lián)網(wǎng)的發(fā)展,對(duì)音視頻的需求越來越多,然而音視頻無亂是播放還是編解碼,封裝對(duì)性能要求都比較高,那現(xiàn)階段的前端再音視頻領(lǐng)域都能做些什么呢。 [TOC] 音頻或視頻的播放 htm...
摘要:測(cè)試和開發(fā)可以說是前世的一對(duì)宿孽,今世的一對(duì)兒冤家。如果測(cè)試在工作中不講究方式方法讓已經(jīng)比較緊張的測(cè)試開發(fā)關(guān)系雪上加霜。將按照嚴(yán)重程度進(jìn)行分級(jí)管理。 測(cè)試和開發(fā)可以說是前世的一對(duì)宿孽,今世的一對(duì)兒冤家。開發(fā)的工作就是按照PM的設(shè)計(jì)將產(chǎn)品最終造出來,而測(cè)試則是在開發(fā)已完成的工作里找錯(cuò)誤,尋不是。顯然,測(cè)試這樣的工作會(huì)讓開發(fā)很不爽,其實(shí)不但是開發(fā),每個(gè)人都不喜歡自己的勞動(dòng)成果別別人挑毛病。...
摘要:測(cè)試和開發(fā)可以說是前世的一對(duì)宿孽,今世的一對(duì)兒冤家。如果測(cè)試在工作中不講究方式方法讓已經(jīng)比較緊張的測(cè)試開發(fā)關(guān)系雪上加霜。將按照嚴(yán)重程度進(jìn)行分級(jí)管理。 測(cè)試和開發(fā)可以說是前世的一對(duì)宿孽,今世的一對(duì)兒冤家。開發(fā)的工作就是按照PM的設(shè)計(jì)將產(chǎn)品最終造出來,而測(cè)試則是在開發(fā)已完成的工作里找錯(cuò)誤,尋不是。顯然,測(cè)試這樣的工作會(huì)讓開發(fā)很不爽,其實(shí)不但是開發(fā),每個(gè)人都不喜歡自己的勞動(dòng)成果別別人挑毛病。...
摘要:測(cè)試和開發(fā)可以說是前世的一對(duì)宿孽,今世的一對(duì)兒冤家。如果測(cè)試在工作中不講究方式方法讓已經(jīng)比較緊張的測(cè)試開發(fā)關(guān)系雪上加霜。將按照嚴(yán)重程度進(jìn)行分級(jí)管理。 測(cè)試和開發(fā)可以說是前世的一對(duì)宿孽,今世的一對(duì)兒冤家。開發(fā)的工作就是按照PM的設(shè)計(jì)將產(chǎn)品最終造出來,而測(cè)試則是在開發(fā)已完成的工作里找錯(cuò)誤,尋不是。顯然,測(cè)試這樣的工作會(huì)讓開發(fā)很不爽,其實(shí)不但是開發(fā),每個(gè)人都不喜歡自己的勞動(dòng)成果別別人挑毛病。...
閱讀 900·2021-10-13 09:39
閱讀 3781·2021-10-12 10:12
閱讀 1858·2021-08-13 15:07
閱讀 1068·2019-08-29 15:31
閱讀 2939·2019-08-26 13:25
閱讀 1840·2019-08-23 18:38
閱讀 1951·2019-08-23 18:25
閱讀 1904·2019-08-23 17:20