亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

k8s--記一次“怪異”的時(shí)間修改導(dǎo)致的系列問題

IT那活兒 / 2346人閱讀
k8s--記一次“怪異”的時(shí)間修改導(dǎo)致的系列問題

點(diǎn)擊上方“IT那活兒”,關(guān)注后了解更多精彩內(nèi)容?。?!



 故障背景 


某日,k8s上運(yùn)行的一些業(yè)務(wù)反應(yīng)服務(wù)出現(xiàn)異常,幾個(gè)業(yè)務(wù)均出現(xiàn)不同程度的業(yè)務(wù)慢或者業(yè)務(wù)無法使用的情況,而且訪問ceph集群也出現(xiàn)緩慢或者mount的fs無法讀取等問題。
經(jīng)過簡(jiǎn)單的分析,最后匯總了各自業(yè)務(wù)問題后,我們發(fā)現(xiàn)了業(yè)務(wù)客戶端時(shí)間與當(dāng)前時(shí)間都存在相差8小時(shí)的問題,導(dǎo)致了業(yè)務(wù)的失敗。
以下將整個(gè)事件的前因后果及分析過程與大家分享一下。


 分析過程 


1. 因?yàn)楸救素?fù)責(zé)k8s的后端ceph存儲(chǔ),所以在接到問題的第一時(shí)間后,檢查了ceph的存儲(chǔ)情況,確實(shí)發(fā)現(xiàn)了有少許客戶端響應(yīng)超時(shí)的問題,具體如下:
2. 為了查看具體的客戶端信息,登錄mds服務(wù)器,運(yùn)行ceph daemon mds.`hostname` dump_blocked_ops 查看具體被阻塞的客戶端如下:
3. 通過以上可以看到具體的客戶端為client.151504,然后通過ls命令查看具體客戶端使用的目錄,判斷使用目錄為/we***,進(jìn)而鎖定業(yè)務(wù)W以及客戶端IP為IP-9。
ceph tell mds.`hostname` client ls |grep -E "inst|num_caps|root”
4. 因?yàn)闃I(yè)務(wù)使用的是容器運(yùn)行,對(duì)于ceph集群來說,只能查到客戶端的宿主機(jī)具體地址IP-9,具體對(duì)應(yīng)的容器已經(jīng)無法查到了。
于是通知管理k8s集群的同事,檢查對(duì)應(yīng)的IP-9主機(jī)上的W業(yè)務(wù)所使用的容器是否正常。      
5. 經(jīng)過檢查容器確實(shí)對(duì)ceph的目錄訪問出現(xiàn)卡頓而且ls等命令無法正常顯示出。
同時(shí)進(jìn)一步檢查日志等情況,會(huì)發(fā)現(xiàn)時(shí)間偏差的告警。
6. 再進(jìn)一步檢查服務(wù)器時(shí)間,date顯示時(shí)間與當(dāng)前時(shí)間相差8小時(shí)。
于是對(duì)服務(wù)器的messages日志進(jìn)行分析,發(fā)現(xiàn)時(shí)間被更改,而且NTP同步暫未完成。



 業(yè)務(wù)恢復(fù) 


原因確認(rèn)是時(shí)間異常后,對(duì)此IP-9服務(wù)器的時(shí)間進(jìn)行同步并恢復(fù),但業(yè)務(wù)自愈性較差,于是對(duì)容器內(nèi)的業(yè)務(wù)進(jìn)程進(jìn)行了重啟恢復(fù),重啟后業(yè)務(wù)恢復(fù)正常,ceph側(cè)的異??蛻舳烁婢痺arn也消失了,狀態(tài)恢復(fù)為OK。



 鎖定“真兇” 


雖然業(yè)務(wù)恢復(fù),但是更改時(shí)間的根因卻一直未找到,直到鎖定了近期剛遷移進(jìn)來的業(yè)務(wù)A。

因?yàn)锳主機(jī)所在的IP-8主機(jī)才出現(xiàn)過同樣時(shí)間異常的問題,而服務(wù)異常后,我們將此服務(wù)A由IP-8主機(jī)遷移到了IP-9主機(jī)。
巧的是遷移后的第二天就再次出現(xiàn)了文中的上述問題,于是在詢問了業(yè)務(wù)A的相關(guān)人員后,最終鎖定了“真兇”就是業(yè)務(wù)A
業(yè)務(wù)A因?yàn)槿萜鲀?nèi)使用的是UTC時(shí)區(qū),所以應(yīng)用date顯示的時(shí)間數(shù)字與我們一般使用的CST時(shí)區(qū)在數(shù)字上相差了8小時(shí)。
但是其實(shí)兩者時(shí)間是一致的,只是顯示的差異問題。所以,我們的業(yè)務(wù)A相關(guān)人員就對(duì)容器里的時(shí)間進(jìn)行了手動(dòng)修改,然后影響到了整臺(tái)宿主機(jī)。



 問題復(fù)盤 


雖然“真兇”最終抓獲,但是容器更改的時(shí)間影響了宿主機(jī),這顯然是一個(gè)并不合理的解釋。
因?yàn)槔碚撋先萜魉鶕碛械臋?quán)限更改時(shí)間這種類似的操作是不允許延伸到影響容器所在的宿主機(jī)的。
于是,為了進(jìn)一步了解這個(gè)bug一樣的設(shè)定,我們深入分析了一下容器所使用的鏡像。
最終定位是因?yàn)榇藰I(yè)務(wù)A鏡像的加入集群,并未進(jìn)行鏡像安全相關(guān)的掃描和審核,導(dǎo)致使用的自有容器鏡像默認(rèn)具有很高的權(quán)限,進(jìn)而導(dǎo)致了容器中更改時(shí)間影響到了宿主機(jī)。
此結(jié)論我們?cè)诮?jīng)過審核的鏡像中得到驗(yàn)證,使用date修改審核過的容器的時(shí)間,并不會(huì)影響宿主機(jī)時(shí)間。
至此,“怪異”的事件總算最終塵埃落定。而且還需提醒一下小伙伴們使用date命令時(shí),一定要留意命令結(jié)果中顯示的是CST還是UTC或者其他時(shí)區(qū),要修正時(shí)間的話,切記要先修正了時(shí)區(qū)后,再修正時(shí)間。



本文作者:何青

本文來源:IT那活兒(上海新炬王翦團(tuán)隊(duì))

分享

收藏

點(diǎn)贊

在看

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/129665.html

相關(guān)文章

  • 一次線上頻繁FGC事件和解決方式

    摘要:直接顯示了一個(gè)疑似內(nèi)存泄漏的問題。然后分析文件給出的信息,發(fā)現(xiàn)一個(gè)叫的類。文件里面說的內(nèi)存泄漏的大概的意思就是說,這個(gè)類里面的存放的東西太多了,爆掉了。修改了代碼將調(diào)用的地方改成了單例。修改完線上跑了一段日子,后來也沒有出現(xiàn)過這樣的問題。 問題描述: ????早上去公司上班,突然就郵件一直報(bào)警,接口報(bào)異常,然后去查服務(wù)器的運(yùn)行情況,發(fā)現(xiàn)java的cpu爆了.接著就開始排查問題 問題解決...

    Alliot 評(píng)論0 收藏0
  • k8s安裝總結(jié)

    摘要:主要在文件附加下面的源我使用的是阿里的鏡像,如果你使用的其他國(guó)內(nèi)鏡像,請(qǐng)找對(duì)應(yīng)的鏡像源然后執(zhí)行下列命令,安裝軟件。參考資料只要用小朋友都能部署基本安裝基于阿里云鏡像站安裝用在上快速構(gòu)建測(cè)試集群 本次安裝環(huán)境是Ubuntu16.04,其他環(huán)境下,shell命令會(huì)有一些不同,但步驟應(yīng)該大致相同,默認(rèn)docker已經(jīng)安裝完成 下載 下載安裝下列軟件 kubelet Node上運(yùn)行的節(jié)點(diǎn)代理...

    Nosee 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<