MTTR是什么？或者說為什么別給嬰兒喝白蘭地

wizChen 發(fā)布于2019-05-28 17:00 / 525人閱讀

摘要：解決突發(fā)事故意味著什么通常認為解決突發(fā)事故是積極舉措。以平均恢復前時間為評估手段可能會掩飾警示，將紅燈變?yōu)榘踩木G燈。迅速解決突發(fā)事故是否總是最佳選擇在領域，僅評估影響業(yè)務正常運行的時間無異于給嬰兒浸有白蘭地的奶嘴。

在團隊紛紛談起工作效率的時候，對運維工作者，他們通常喜歡用「故障的平均解決時間」來衡量團隊的工作效率。然而這往往是不正確的。一個迅速解決大量突發(fā)事故的團隊十分高效，而實際上這更有可能意味著該團隊的基礎設施十分脆弱易損。那我們應該使用什么標準來衡量團隊的工作效率呢？

**本文系國內 ITOM 管理平臺 OneAPM 翻譯整理自Dan Turchin 2015 撰寫的文章
《What is MTTR?Or why not to feed the baby cognac》，**

MTTR（平均恢復前時間）是什么？我們不已字面的角度去回答它，這個提問更傾向于它的哲學意義?；诮鉀Q突發(fā)事故的時間來測量評估工作效率已經(jīng)過于絕對，顯得老舊。就如同大海中的一帆孤舟，漂泊不定，不知方向。

如同禪宗關于只手之聲的謎語一般，解謎的要點是首先提問如下問題：

什么是突發(fā)事故？

解決突發(fā)事故意味著什么？

解決問題是不是越快越好？

我的答案如下:

什么是突發(fā)事故？

（突發(fā)事故）是對人、進程或事物有負面影響的，被某些非預期行為觸發(fā)的問題。它們通常是更嚴重問題的征兆，經(jīng)?？赡軐е孪到y(tǒng)或者業(yè)務發(fā)生毀滅性的的災難。并且通常能經(jīng)由常規(guī)方式修復，比如重啟機器、重新連接、重啟程序三部曲。

但是對于IT運維的目標，并不是通過修復自己制造的問題而獲取贊譽，而是經(jīng)營一個不會出現(xiàn)大量突發(fā)事故的健康的服務器環(huán)境。由「平均恢復前時間」所驅動的生產運作系統(tǒng)管理通常會誤認為，一個迅速解決大量突發(fā)事故的團隊十分高效，而實際上這更有可能意味著該團隊的基礎設施十分脆弱易損。

解決突發(fā)事故意味著什么？

通常認為解決突發(fā)事故是積極舉措。然而事實上解決突發(fā)事故時，正確的做法是首先判定被評估對象。以「平均恢復前時間」為評估手段可能會掩飾警示，將紅燈變?yōu)榘踩木G燈。其他度量手段，例如平均故障間隔時間，對于判定基礎設施是否保持一貫健康運行狀態(tài)而言，是更佳的度量指標。

迅速解決突發(fā)事故是否總是最佳選擇？

在IT領域，僅評估影響業(yè)務正常運行的時間無異于給嬰兒浸有白蘭地的奶嘴。雖然孩子迅速停止哭泣，但他的爸爸卻可能因此入獄（然而媽媽絕對不會作出給嬰兒喂酒的糟糕決斷）。

那么，什么是 MTTR（平均恢復前時間）？

（平均恢復前時間）是討論運營卓越性的基點。它的價值在每個企業(yè)中不盡相同，且是眾多評價健康進程和基礎設施的指標之一。最好的統(tǒng)計方法是計算全時段所有突發(fā)事件在「未解決狀態(tài)」下的時長，而不是事件「被解決」狀l態(tài)下的時長除以突發(fā)事件總數(shù)。在后一種情況下，（系統(tǒng)正常運行）持續(xù)時間是基于機器時間戳（區(qū)別于運營人員提供的狀態(tài)改變點）進行計算的，此時機器會使用監(jiān)測數(shù)據(jù)（作為基線），重啟的相同突發(fā)事件（或稱為震蕩）總會被認定為獨立突發(fā)事件。

請不要把這篇文章看做是 IT 技術準則的無端攻擊，請將它看作是一封邀請信，邀請你花半個小時來評估 MTTR 否是與商業(yè)價最契合的度量手段。

OneAlert 是北京藍海訊通科技有限公司旗下產品，中國首個 SaaS 模式的云告警平臺，集成國內外主流監(jiān)控/支撐系統(tǒng)，實現(xiàn)一個平臺上集中處理所有IT事件，提升IT可靠性。想了解更多信息，請訪問 OneAlert 官網(wǎng) 。

本文轉自 OneAPM 官方博客

GPU云服務器云服務器或者說說什么為什么說阿里云服務器好為什么都說程序員不好

文章版權歸作者所有，未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉載請注明本文地址：http://www.ezyhdfw.cn/yun/7962.html

運維不容錯過的4個關鍵指標！

摘要：平均解決事件解決時間是衡量業(yè)務準備的最佳標準。平均每小時折合損失。說明整個團隊的響應及時率是不錯的。小結致力減少告警數(shù)量及時響應如果不能及時響應，能夠升級處理，最終提升解決時間，個核心關鍵指標是運維支撐工作非常關鍵的指標。很難說，生活在這個數(shù)據(jù)大爆炸的時代對運維同學是福還是禍。靈活的監(jiān)控系統(tǒng)、開放 API 和易用的數(shù)據(jù)可視化資源可以將任何想要的數(shù)據(jù)圖表化地顯示出來，但是，過多的數(shù)據(jù)容...

xiaodao 2019-05-28 16:58 評論0 收藏0
vivo統(tǒng)一告警平臺設計與實踐

摘要：告警當一個問題通過告警系統(tǒng)將消息以短信電話郵件等方式告知給用戶時，我們稱之為一條告警。圖統(tǒng)一告警系統(tǒng)結構圖告警收斂對于告警平臺每天會產生數(shù)以萬計的告警，這些告警對于運維或開發(fā)人員都需要去分析甄別優(yōu)先級并處理故障。一、背景一套監(jiān)控系統(tǒng)檢測和告警是密不可分的，檢測用來發(fā)現(xiàn)異常，告警用來將問題信息發(fā)送給相應的人。v...

Rocko 2021-11-22 14:56 評論0 收藏0
「技術大?！?em>是如何縮短事件平均解決時間的？

摘要：總故障時間是關于告警事件數(shù)量與各告警事件時長的函數(shù)。一個月的告警數(shù)據(jù)顯示平均響應時間為分鐘平均解決時間為分鐘。確定團隊領導人此人將在解決故障期間帶領團隊工作。找到并解決問題事件解決時間大部分花在確定告警問題的過程中。前不久，我們討論了運維不容錯過的 4個關鍵指標，其中平均解決時間（MTTR）被認為是衡量業(yè)務的最佳標準，隨后也分析了「告警等級」對MTTR的重要性。正確看待 MTTR ...

KavenFan 2019-05-28 17:00 評論0 收藏0
如何讓運維指標變得更有價值？

摘要：為了掌握你的告警事件響應時間，在你已經(jīng)開始處理告警時，強烈建議及時響應認領，例如通過移動端微信頁面移動等方式及時認領。這一點國外做的很棒，在短信電話移動都可以很容易確認認領在微信端可以認領和關閉。這是《運維不容錯過的4個關鍵指標》的姐妹篇，上篇文章介紹了優(yōu)秀運維團隊需要關注的4個關鍵指標，我們分享了平均恢復時間 MTTR、平均響應時間 MTTA 等概念。這篇是介紹一些實踐方法，更好的...

suxier 2019-05-28 16:56 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

wizChen

男|高級講師

我要關注我要私信

TA的文章

tensorflow1.14安裝

閱讀 3747·2023-04-25 19:56
[ C語言 ] 用C語言實現(xiàn)小游戲 ---- 三子棋代碼 + 解析

閱讀 1732·2021-11-12 10:36
SmartHost：大硬盤VPS月付6.95美元起，每T硬盤$4/月，可自定義ISO，美國拉斯維加斯

閱讀 1849·2021-11-08 13:19
CSS 盒模型

閱讀 1601·2019-08-30 14:06
co+generator

閱讀 3086·2019-08-30 11:01
挑逗Bootstrap4源代碼 - Grid篇（上）

閱讀 1804·2019-08-29 13:23
清除浮動的可用方式

閱讀 2793·2019-08-29 11:18
精讀《Serverless 給前端帶來了什么》

閱讀 3498·2019-08-26 13:35

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！