亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

記一次磁盤故障導(dǎo)致的es訪問異常

IT那活兒 / 883人閱讀
記一次磁盤故障導(dǎo)致的es訪問異常



事件背景



某日接業(yè)務(wù)側(cè)反應(yīng)elasticsearch查詢速度很慢,偶爾出結(jié)果但是多數(shù)會超時,報錯{"statusCode":502,"error":"Bad Gateway","message":"Client request timeout"}



分析過程




一時間檢查手機短信,因為es集群節(jié)點服務(wù)掛掉會有告警產(chǎn)生的,檢查后發(fā)現(xiàn)并無告警發(fā)出。于是登錄服務(wù)器進一步分析;

此es集群共計5個節(jié)點,逐一登錄服務(wù)器查看進程和端口,發(fā)現(xiàn)所有進程都在,9200端口也正常,也都有正常的連接.

于是模擬業(yè)務(wù)反應(yīng)的命令,使用kibana進行查詢,發(fā)現(xiàn)確實timeout,此時查看kibana日志,并無明顯異常出現(xiàn)。

因近期集群內(nèi)新加入的業(yè)務(wù)較多,es集群為多個業(yè)務(wù)合用,于是第一反應(yīng)是kibana的內(nèi)存不夠,于是修改了kibana的jvm配置,并重啟kibana。此時發(fā)現(xiàn)啟動kibana無法連接es集群。報錯"warning","savedobjects-service"],"pid":26191,"message":"Unable to connect to Elasticsearch. Error: Request Timeout after 30000ms"}而且kibana的5601端口也打不開。

嘗試修改timeout參數(shù)由30000ms至60000ms,再次重啟報錯依舊。于是懷疑es問題,再次使用9200端口逐個檢查es,發(fā)現(xiàn)所有節(jié)點的9200都正常(包括最好定位問題的194節(jié)點)。

此時使用_cat/nodes命令檢查,發(fā)現(xiàn)從其他節(jié)點看不到194節(jié)點。

于是懷疑問題出現(xiàn)在194節(jié)點,再次進去194機器檢查,發(fā)現(xiàn)es的數(shù)據(jù)盤有一塊損壞,目錄/data10

因es集群有副本的機制,損壞一塊盤其實不影響數(shù)據(jù)的整體性的,但是這塊損壞的盤似乎導(dǎo)致了194節(jié)點的es服務(wù)hang死,被集群其他節(jié)點踢出,但是進程和端口卻又依舊存在,導(dǎo)致了告警的失效。

為了盡快恢復(fù)服務(wù),我們修改了194節(jié)點的es配置,將path.data:內(nèi)容注釋了data10這個損壞的路徑,然后重啟了194節(jié)點的es服務(wù)。

再次檢查_cat/nodes,發(fā)現(xiàn)已成功加入集群,登錄kibana也成功進入。

通知業(yè)務(wù)查詢,已經(jīng)能夠跑出結(jié)果了。

此時的集群狀態(tài)為yellow,主要是損壞的盤中丟了副本,需要等待集群進行數(shù)據(jù)的同步完成。

最終es集群同步完成,集群恢復(fù)為 green狀態(tài)。



總結(jié)結(jié)論



  1. elasticsearch的數(shù)據(jù)目錄故障會導(dǎo)致集群狀態(tài)異常,即使故障節(jié)點的服務(wù)和端口正常,甚至9200端口信息都正常;

  2. 單純的進程和端口告警已無法滿足監(jiān)控es集群的狀態(tài)了;

  3. 定位問題后再回頭查看194的日志,其實能找到/data10的報錯的,但排查問題時因節(jié)點數(shù)過多沒有仔細查看每個es服務(wù)日志的上下文

  4. 后續(xù)考慮對磁盤報錯也進行監(jiān)控,從而避免這種因硬件故障導(dǎo)致的服務(wù)異常出現(xiàn)。


END


更多精彩干貨分享

點擊下方名片關(guān)注

IT那活兒

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/129806.html

相關(guān)文章

  • 一次MongoDB高負載性能優(yōu)化

    摘要:年月日本文是關(guān)于記錄某次游戲服務(wù)端的性能優(yōu)化此處涉及的技術(shù)包括引擎隨著游戲?qū)肴藬?shù)逐漸增加單個集合的文檔數(shù)已經(jīng)超過經(jīng)常有玩家反饋說卡特別是在服務(wù)器遷移后從核降到核卡頓更嚴重了遂開始排查問題確認服務(wù)器壓力首先使用命令查看總體情況此時占用不高 Last-Modified: 2019年6月13日11:08:19 本文是關(guān)于記錄某次游戲服務(wù)端的性能優(yōu)化, 此處涉及的技術(shù)包括: MongoDB...

    huhud 評論0 收藏0
  • 一次MongoDB高負載性能優(yōu)化

    摘要:年月日本文是關(guān)于記錄某次游戲服務(wù)端的性能優(yōu)化此處涉及的技術(shù)包括引擎隨著游戲?qū)肴藬?shù)逐漸增加單個集合的文檔數(shù)已經(jīng)超過經(jīng)常有玩家反饋說卡特別是在服務(wù)器遷移后從核降到核卡頓更嚴重了遂開始排查問題確認服務(wù)器壓力首先使用命令查看總體情況此時占用不高 Last-Modified: 2019年6月13日11:08:19 本文是關(guān)于記錄某次游戲服務(wù)端的性能優(yōu)化, 此處涉及的技術(shù)包括: MongoDB...

    vibiu 評論0 收藏0

發(fā)表評論

0條評論

IT那活兒

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<