亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

數(shù)據(jù)庫hang故障分析

IT那活兒 / 2945人閱讀
數(shù)據(jù)庫hang故障分析
點(diǎn)擊上方“IT那活兒”公眾號,關(guān)注后了解更多內(nèi)容,不管IT什么活兒,干就完了!??!

故障簡述

1.1 知識點(diǎn)描述

應(yīng)用19.13PSU后,疑似觸發(fā)數(shù)據(jù)庫內(nèi)存Bug 32940955以及BUG 33415279、BUG 33225584,導(dǎo)致數(shù)據(jù)庫hang住。
1.2 問題處理簡述
中午11:43收到告警,數(shù)據(jù)庫節(jié)點(diǎn)1出現(xiàn)斷連告警,立即登入系統(tǒng)進(jìn)行檢查,發(fā)現(xiàn)數(shù)據(jù)庫整個(gè)hang住,兩個(gè)節(jié)點(diǎn)實(shí)例均無法執(zhí)行查詢等操作。進(jìn)一步檢查數(shù)據(jù)庫日志,發(fā)現(xiàn)頻繁報(bào)ORA-04031錯(cuò)誤。
為了快速恢復(fù)業(yè)務(wù),嘗試進(jìn)行殺會(huì)話,情況沒有明顯好轉(zhuǎn),12點(diǎn)15分經(jīng)客戶同意后停掉節(jié)點(diǎn)1的實(shí)例,隨后實(shí)例2恢復(fù)正常,并重新拉起節(jié)點(diǎn)1實(shí)例。
12:23左右,節(jié)點(diǎn)1再次出現(xiàn)嚴(yán)重性能問題,內(nèi)存資源不足,alert日志出現(xiàn)IO ERROR:無法打開磁盤,導(dǎo)致無法進(jìn)行IO讀寫,節(jié)點(diǎn)1發(fā)生實(shí)例重啟,重啟后,性能問題未解決。

再次經(jīng)客戶同意后,在12點(diǎn)33分對節(jié)點(diǎn)1實(shí)例進(jìn)行停止,隨后節(jié)點(diǎn)2恢復(fù)正常,在12:45嘗試手動(dòng)拉起節(jié)點(diǎn)1實(shí)例,所有節(jié)點(diǎn)均恢復(fù)正常狀態(tài)。在13:26手動(dòng)拉起節(jié)點(diǎn)1監(jiān)聽,至此所有節(jié)點(diǎn)均恢復(fù)正常訪問。


標(biāo)準(zhǔn)指導(dǎo)操作

2.1 故障過程回溯分析
1)等待事件分析
事后回溯分析,發(fā)現(xiàn)節(jié)點(diǎn)1 在11:33左右突然出現(xiàn)大量library cache相關(guān)等待事件:
2)主機(jī)資源使用情況分析
查看osw,確認(rèn)故障前主機(jī)資源正常。
3)應(yīng)用會(huì)話連接分析及相關(guān)時(shí)間點(diǎn)的等待事件記錄
11:33左右開始連到數(shù)據(jù)庫的應(yīng)用會(huì)話數(shù)明顯突增:
查看等待事件發(fā)現(xiàn)主要是latch: shared pool等待事件:
4)后臺(tái)日志記錄分析
查看DB ALERT日志發(fā)現(xiàn)大量ORA-4031報(bào)錯(cuò)。
繼續(xù)查看db alert日志發(fā)現(xiàn)11:43:33開始pmon進(jìn)程獲取latch一直失敗,12:15:17由于pmon進(jìn)程掛死導(dǎo)致實(shí)例宕掉。
5)Trace日志分析
查看pmon trace日志發(fā)現(xiàn)pmon一直在等待內(nèi)存分配。
6)IO性能分析
檢查12:23 alert日志出現(xiàn)IO ERROR:無法打開磁盤。
12點(diǎn)33分左右,有嚴(yán)重的IO性能問題,經(jīng)分析為內(nèi)存資源耗盡導(dǎo)致IO性能嚴(yán)重下降。
2.2 故障總結(jié)
查詢資料文檔發(fā)現(xiàn),應(yīng)用19.13PSU后,疑似觸發(fā)數(shù)據(jù)庫內(nèi)存Bug 32940955以及BUG 33415279、BUG 33225584。
2.3 后續(xù)處理措施
1)打patch 32940955,讓"so private sga"分布到各個(gè)Sub Pool里去。
2)打patch 33415279,避免"pga accounting"的內(nèi)存泄漏。
3)patch 33225584,解決了共享池內(nèi)存釋放的調(diào)用kghfrunp時(shí)超過1秒的 latch: shared pool 等待的問題。

4)需設(shè)置如下2個(gè)隱含參數(shù)

  • "_dlm_stats_collect"=0 :關(guān)閉DLM Statistics Collection功能以減少KJSC rnb slots內(nèi)存組件對shared pool空間的占用。
  • "_shared_pool_reserved_pct"=15 : 建議設(shè)置10%~15%之間,增大reserve pool的size,對于超過4.4KB的內(nèi)存請求是有益處的。




本文作者:胡周盼(上海新炬王翦團(tuán)隊(duì))

本文來源:“IT那活兒”公眾號


文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/129263.html

相關(guān)文章

  • 阿里云出現(xiàn)大規(guī)模故障 “多云”部署或成趨勢

    摘要:昨天凌晨,阿里云出現(xiàn)大規(guī)模故障,導(dǎo)致部分互聯(lián)網(wǎng)公司和運(yùn)行不暢,甚至癱瘓。阿里云表示,針對此次故障,將根據(jù)協(xié)議,盡快處理賠償事宜,但并未公開詳細(xì)的賠償細(xì)節(jié)。事實(shí)上,這并非阿里云首次出現(xiàn)故障。由此可見,阿里云此次宕機(jī)事件影響程度著實(shí)不小。昨天凌晨,阿里云出現(xiàn)大規(guī)模故障,導(dǎo)致部分互聯(lián)網(wǎng)公司和App運(yùn)行不暢,甚至癱瘓。一時(shí)之間,阿里云官微下幾乎被反饋宕機(jī)問題的留言攻陷,有網(wǎng)友調(diào)侃稱,程序員、運(yùn)營和運(yùn)...

    xiaodao 評論0 收藏0
  • 阿里云宕機(jī)啟示錄:多云戰(zhàn)略成趨勢,云服務(wù)技術(shù)是決勝關(guān)鍵

    摘要:對此,阿里云官方回應(yīng)稱,宕機(jī)原因?yàn)?,華北地域可用區(qū)部分服務(wù)器等實(shí)例出現(xiàn),后經(jīng)緊急排查處理后逐步恢復(fù)。這也意味著,在未來的云服務(wù)競爭中,云服務(wù)供應(yīng)商的技術(shù)能力仍將是決勝關(guān)鍵。在多云戰(zhàn)略時(shí)代,帶領(lǐng)企業(yè)走出恐慌區(qū),擴(kuò)大學(xué)習(xí)區(qū)是關(guān)鍵。隨著上云企業(yè)的越來越多,云服務(wù)宕機(jī)帶來了潛在風(fēng)險(xiǎn)也越來越大。 昨天(3月3日)凌晨,沒有任何征兆,阿里云出現(xiàn)大規(guī)模宕機(jī)故障,華北地區(qū)很多互聯(lián)網(wǎng)公司都受波及,一大波...

    Ilikewhite 評論0 收藏0
  • RustCon Asia 講師和議程公布!

    摘要:還有從歐洲飛來的不同國籍的講師和長期在社區(qū)活躍貢獻(xiàn)的開發(fā)者將與大家在北京相聚。將是一次亞洲社區(qū)的大聚會(huì),也因?yàn)榇舜未髸?huì),亞洲本土的社區(qū)連接到了全球其它地區(qū)的社區(qū)。大會(huì)現(xiàn)場將有同傳支持,所以不必?fù)?dān)心語言障礙。 RustCon Asia 上線 CFP(Call For Proposals)接受議題提交的兩周時(shí)間里,我們共計(jì)收到了中英文議題 50 份!內(nèi)容非常豐富并且比我們預(yù)期的更加多元,在...

    MrZONT 評論0 收藏0

發(fā)表評論

0條評論

最新活動(dòng)
閱讀需要支付1元查看
<