摘要:解決突發(fā)事故意味著什么通常認為解決突發(fā)事故是積極舉措。以平均恢復前時間為評估手段可能會掩飾警示,將紅燈變?yōu)榘踩木G燈。迅速解決突發(fā)事故是否總是最佳選擇在領域,僅評估影響業(yè)務正常運行的時間無異于給嬰兒浸有白蘭地的奶嘴。
在團隊紛紛談起工作效率的時候,對運維工作者,他們通常喜歡用「故障的平均解決時間」來衡量團隊的工作效率。然而這往往是不正確的。一個迅速解決大量突發(fā)事故的團隊十分高效,而實際上這更有可能意味著該團隊的基礎設施十分脆弱易損。那我們應該使用什么標準來衡量團隊的工作效率呢?
**本文系國內 ITOM 管理平臺 OneAPM 翻譯整理自Dan Turchin 2015 撰寫的文章
《What is MTTR?Or why not to feed the baby cognac》,**
MTTR(平均恢復前時間)是什么?我們不已字面的角度去回答它,這個提問更傾向于它的哲學意義?;诮鉀Q突發(fā)事故的時間來測量評估工作效率已經(jīng)過于絕對,顯得老舊。就如同大海中的一帆孤舟,漂泊不定,不知方向。
如同禪宗關于只手之聲的謎語一般,解謎的要點是首先提問如下問題:
什么是突發(fā)事故?
解決突發(fā)事故意味著什么?
解決問題是不是越快越好?
我的答案如下:
(突發(fā)事故)是對人、進程或事物有負面影響的,被某些非預期行為觸發(fā)的問題。它們通常是更嚴重問題的征兆,經(jīng)??赡軐е孪到y(tǒng)或者業(yè)務發(fā)生毀滅性的的災難。并且通常能經(jīng)由常規(guī)方式修復,比如重啟機器、重新連接、重啟程序三部曲。
但是對于IT運維的目標,并不是通過修復自己制造的問題而獲取贊譽,而是經(jīng)營一個不會出現(xiàn)大量突發(fā)事故的健康的服務器環(huán)境。由「平均恢復前時間」所驅動的生產運作系統(tǒng)管理通常會誤認為,一個迅速解決大量突發(fā)事故的團隊十分高效,而實際上這更有可能意味著該團隊的基礎設施十分脆弱易損。
通常認為解決突發(fā)事故是積極舉措。然而事實上解決突發(fā)事故時,正確的做法是首先判定被評估對象。以「平均恢復前時間」為評估手段可能會掩飾警示,將紅燈變?yōu)榘踩木G燈。其他度量手段,例如平均故障間隔時間,對于判定基礎設施是否保持一貫健康運行狀態(tài)而言,是更佳的度量指標。
在IT領域,僅評估影響業(yè)務正常運行的時間無異于給嬰兒浸有白蘭地的奶嘴。雖然孩子迅速停止哭泣,但他的爸爸卻可能因此入獄(然而媽媽絕對不會作出給嬰兒喂酒的糟糕決斷)。
(平均恢復前時間)是討論運營卓越性的基點。它的價值在每個企業(yè)中不盡相同,且是眾多評價健康進程和基礎設施的指標之一。最好的統(tǒng)計方法是計算全時段所有突發(fā)事件在「未解決狀態(tài)」下的時長,而不是事件「被解決」狀l態(tài)下的時長除以突發(fā)事件總數(shù)。在后一種情況下,(系統(tǒng)正常運行)持續(xù)時間是基于機器時間戳(區(qū)別于運營人員提供的狀態(tài)改變點)進行計算的,此時機器會使用監(jiān)測數(shù)據(jù)(作為基線),重啟的相同突發(fā)事件(或稱為震蕩)總會被認定為獨立突發(fā)事件。
請不要把這篇文章看做是 IT 技術準則的無端攻擊,請將它看作是一封邀請信,邀請你花半個小時來評估 MTTR 否是與商業(yè)價最契合的度量手段。
OneAlert 是北京藍海訊通科技有限公司旗下產品,中國首個 SaaS 模式的云告警平臺,集成國內外主流監(jiān)控/支撐系統(tǒng),實現(xiàn)一個平臺上集中處理所有IT事件,提升IT可靠性。想了解更多信息,請訪問 OneAlert 官網(wǎng) 。
本文轉自 OneAPM 官方博客
文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://www.ezyhdfw.cn/yun/7962.html
摘要:平均解決事件解決時間是衡量業(yè)務準備的最佳標準。平均每小時折合損失。說明整個團隊的響應及時率是不錯的。小結致力減少告警數(shù)量及時響應如果不能及時響應,能夠升級處理,最終提升解決時間,個核心關鍵指標是運維支撐工作非常關鍵的指標。 很難說,生活在這個數(shù)據(jù)大爆炸的時代對運維同學是福還是禍。靈活的監(jiān)控系統(tǒng)、開放 API 和易用的數(shù)據(jù)可視化資源可以將任何想要的數(shù)據(jù)圖表化地顯示出來,但是,過多的數(shù)據(jù)容...
摘要:告警當一個問題通過告警系統(tǒng)將消息以短信電話郵件等方式告知給用戶時,我們稱之為一條告警。圖統(tǒng)一告警系統(tǒng)結構圖告警收斂對于告警平臺每天會產生數(shù)以萬計的告警,這些告警對于運維或開發(fā)人員都需要去分析甄別優(yōu)先級并處理故障。 一、背景一套監(jiān)控系統(tǒng)檢測和告警是密不可分的,檢測用來發(fā)現(xiàn)異常,告警用來將問題信息發(fā)送給相應的人。v...
摘要:總故障時間是關于告警事件數(shù)量與各告警事件時長的函數(shù)。一個月的告警數(shù)據(jù)顯示平均響應時間為分鐘平均解決時間為分鐘。確定團隊領導人此人將在解決故障期間帶領團隊工作。找到并解決問題事件解決時間大部分花在確定告警問題的過程中。 前不久,我們討論了運維不容錯過的 4個關鍵指標,其中平均解決時間(MTTR)被認為是衡量業(yè)務的最佳標準,隨后也分析了「告警等級」對MTTR的重要性。 正確看待 MTTR ...
摘要:為了掌握你的告警事件響應時間,在你已經(jīng)開始處理告警時,強烈建議及時響應認領,例如通過移動端微信頁面移動等方式及時認領。這一點國外做的很棒,在短信電話移動都可以很容易確認認領在微信端可以認領和關閉。 這是《運維不容錯過的4個關鍵指標》的姐妹篇,上篇文章介紹了優(yōu)秀運維團隊需要關注的4個關鍵指標,我們分享了平均恢復時間 MTTR、平均響應時間 MTTA 等概念。這篇是介紹一些實踐方法,更好的...
閱讀 3747·2023-04-25 19:56
閱讀 1732·2021-11-12 10:36
閱讀 1849·2021-11-08 13:19
閱讀 1601·2019-08-30 14:06
閱讀 3086·2019-08-30 11:01
閱讀 1804·2019-08-29 13:23
閱讀 2793·2019-08-29 11:18
閱讀 3498·2019-08-26 13:35