有一段時(shí)間,某數(shù)據(jù)庫在整點(diǎn)期間總是會(huì)發(fā)出幾條連接失敗的告警,如下
2019-08-14 10:00:22, 29.211.?.?/??db can not connect, Warning from 5.223-mon_pri_conn.sh! |
1.分析監(jiān)聽日志發(fā)現(xiàn)監(jiān)聽存在重啟行為
14-AUG-2019 10:00:16 * (CONNECT_DATA=(SERVICE_NAME=dbinst1)(CID=(PROGRAM=sqlplus)(HOST=localhost.bss_rh6_dqjkj01_35.176)(USER=ftpuser))) * (ADDRESS=(PROTOCOL=tcp)(HOST=29.211.35.176)(PORT=19573)) * establish * dbinst1 * 0 TNS-12540: TNS:internal limit restriction exceeded .... 14-AUG-2019 10:00:20 * 12582 ---異常前每秒短連接 11 14-AUG-2019 09:59:55 ---異常整個(gè)期間數(shù)據(jù)庫等待事件正常,無明顯高消耗 |
2.排查問題期間的os負(fù)載情況
OSWBB_ARCHIVE_DEST /u01/osw/oswbb/archive zzz ***Wed Aug 14 10:00:10 CST 2019 procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu----- r b swpd free buff cache si so bi bo in cs us sy id wa st 31 6 0 446655712 33212 1998720 0 0 1 3 0 0 1 1 98 0 021 22 0 446779968 35236 2008236 0 0 16300 96 259964 240440 11 3 83 3 0 25 27 0 446795360 37040 2020368 0 0 29096 48 235608 212541 11 3 82 4 0 zzz ***Wed Aug 14 10:00:24 CST 2019 procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu----- r b swpd free buff cache si so bi bo in cs us sy id wa st 6 18 0 443893696 72420 2204804 0 0 1 3 0 0 1 1 98 0 0 13 12 0 444055840 74432 2228936 0 0 22880 16 90258 85804 5 2 88 6 0 6 17 0 444172864 76036 2250128 0 0 19980 100 70041 61176 4 3 86 7 0 zzz ***Wed Aug 14 10:00:36 CST 2019 procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu----- r b swpd free buff cache si so bi bo in cs us sy id wa st 6 20 0 444360928 83052 2341764 0 0 1 3 0 0 1 1 98 0 0 6 24 0 444552928 83740 2098432 0 0 4436 1212 67242 61741 4 3 85 8 0 125 220 0 444898240 84812 2102292 0 0 3892 1544 174504 140362 12 13 55 19 0 1.10秒的時(shí)候 r21 b22, 該機(jī)器為ssd存儲(chǔ),平常cpu-b不到5,這里值已經(jīng)有點(diǎn)異常 2.36秒的時(shí)候出現(xiàn)r 125 b220,可能為監(jiān)聽重啟積壓導(dǎo)致,且異常時(shí)間點(diǎn)在監(jiān)聽重啟后,不能確認(rèn)是該問題導(dǎo)致故障。 |
top - 10:00:36 up 288 days, 14:24, 2 users, load average: 215.59, 68.64, 29.25 1.近一分鐘load達(dá)到215,且較5分鐘、15分鐘load值出現(xiàn)直線上升。 2.通常在linux平臺(tái) load avg為系統(tǒng)整體load, 包含 cpu load, io load等等.簡單理解為 R+D狀態(tài)的process,不代表cpu使用率,但load高一定存在某一方面的高負(fù)載情況. |
重點(diǎn)排查一下異常期間的ps 數(shù)據(jù),排除S(sleep)狀態(tài)進(jìn)程,可以看到大量的IO相關(guān)D進(jìn)程 [oracle@dbserver1 tmp]$ cat /tmp/ps1024.txt | awk {print $1,$9,$10,$13,$14} | sort | uniq -c [oracle@dbserver1 tmp]$ cat /tmp/ps1024.txt | grep 10:00 | awk {print $1,$9,$10,$11,$13,$14} | sort | uniq -c 115 oracle filp_o D 10:00:15 oracledbinst11 (LOCAL=NO) <--------- 10:00:15建立的短連接 115 積壓的大量短連接積處于filp_o 狀態(tài),io可能存在異常 75 oracle filp_o D 10:00:16 oracledbinst11 (LOCAL=NO) 排查ash信息再次確認(rèn)數(shù)據(jù)庫負(fù)載較低,io響應(yīng)也在毫秒級(jí),無明顯異常 使用strace跟蹤測試建立連接期間,發(fā)現(xiàn)監(jiān)聽派生 LOCAL=NO進(jìn)程后會(huì)讀取大量的ORACLE_HOME本地lib庫,并進(jìn)一步排查/u01文件系統(tǒng)狀態(tài) [oracle@dbserver1 tmp]$ cat /tmp/stsqlplus.txt | grep 12.2.0/db [oracle@dbserver1 tmp]$ lsblk ..... zzz ***Wed Aug 14 10:00:11 CST 2019 <-------cpu整體使用率不高,iowait整體也不高Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util <-------- sda-- /u01--ORACLE_HOME文件系統(tǒng)IO居高不下 await出現(xiàn)明顯等待 <--------sda-- /u01--ORACLE_HOME文件系統(tǒng) iowait持續(xù)居高不下 |
1.通過與應(yīng)用側(cè)溝通了解到在整點(diǎn)期間app營業(yè)廳會(huì)推出搶購活動(dòng)導(dǎo)致短連接明顯的上升
2.主機(jī)管理員反饋由于本地盤RAID出現(xiàn)故障盤導(dǎo)致響應(yīng)異常,以至于大量短連接掛死在ORACLE_HOME的lib庫讀取上,達(dá)到監(jiān)聽隊(duì)列上限值后引發(fā)監(jiān)聽重啟.
1.推進(jìn)應(yīng)用程序短連接進(jìn)行連接池化整改。
2.更換本地盤為SSD存儲(chǔ)提升ORACLE_HOME的讀寫性能。
注:本次故障版本為oracle12.2,在oracle12c之后的版本中,數(shù)據(jù)庫會(huì)持續(xù)寫出大量的垃圾trace信息不僅影響IO性能且影響文件系統(tǒng)正常使用率,建議多帶帶指定diag目錄以及使用SSD存儲(chǔ)安裝ORACLE_HOME 。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/130031.html
摘要:更多關(guān)于阿里云彈性公網(wǎng)的介紹請(qǐng)移步這里。你下載的版本可能比鋼哥的高,不過安裝步驟是一樣的??偨Y(jié)至此,數(shù)據(jù)庫的完整開發(fā)環(huán)境就搭建好了。在接下來的文章里,鋼哥將帶你做進(jìn)一步的優(yōu)化,敬請(qǐng)期待。 本文是鋼哥的Oracle APEX系列文章中的其中一篇,完整 Oracle APEX 系列文章如下: Oracle APEX 系列文章1:Oracle APEX, 讓你秒變?nèi)珬i_發(fā)的黑科技 Orac...
閱讀 1459·2023-01-11 13:20
閱讀 1815·2023-01-11 13:20
閱讀 1267·2023-01-11 13:20
閱讀 2007·2023-01-11 13:20
閱讀 4227·2023-01-11 13:20
閱讀 2885·2023-01-11 13:20
閱讀 1489·2023-01-11 13:20
閱讀 3814·2023-01-11 13:20