亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

一個開發(fā)眼中的運維

Hanks10100 / 2580人閱讀

摘要:資源包括什么內(nèi)存磁盤網(wǎng)絡(luò)文件描述符外部緩存數(shù)據(jù)庫等,編程語言是如何管理資源的合理的算法架構(gòu)保證了資源的合理使用,分配內(nèi)存使用網(wǎng)絡(luò)等等。

在云計算時代,開發(fā)和運維的結(jié)合變得越來越重要。在DIFF論壇第一期,前新浪SAE運維主管,鄭志勇,分享了《一個開發(fā)眼中的運維》根據(jù)自己從開發(fā)人員轉(zhuǎn)型運維之后的心得,談如何把在開發(fā)上的運用抽象思維方式運用到運維領(lǐng)域。


1. 運維不是什么?

運維不是打雜的,運維不是客服,運維也不是服務(wù)開發(fā)的,但要做好合作。

2. 運維是什么?

運維服務(wù)于整個產(chǎn)品,保證架構(gòu)合理,系統(tǒng)穩(wěn)定。運維只對業(yè)務(wù)穩(wěn)定負(fù)責(zé),所有的工作都是奔著這個去的。

3. 你如何寫程序,寫程序的目的是什么?

程序是為了完成特定的功能。為了完成特定的功能,程序需要申請資源、使用資源、管理資源,功能完成后,還要釋放資源。說到底,就是跟資源打交道,和資源打交道的工具是“編程語言”。
資源包括什么?內(nèi)存、CPU、磁盤、網(wǎng)絡(luò)、文件描述符、外部API、緩存、數(shù)據(jù)庫等,編程語言是如何管理資源的、合理的算法/架構(gòu)保證了資源的合理使用,malloc/free分配內(nèi)存、connec、close使用網(wǎng)絡(luò)等等。

4. 什么樣的程序算好程序?

正確的程序算好程序。

邏輯正確,使用資源盡可能的少;

沒有bug,沒有把機器資源耗盡;

穩(wěn)定性好,不會異常退出;

可用性高,有HA方案,不會因為一臺機器(或一個進程)無法提供服務(wù),而影響整個系統(tǒng)的服務(wù);

沒有單點是基本要求;

容易擴展,只需要簡單的增加資源(CPU、內(nèi)存、磁盤、機器等)就行,不需要太多人工遷數(shù)據(jù)、修改配置等;

容易維護,包括容易配置、容易部署、容易監(jiān)控等。

5. 如何寫出好程序?

什么樣的程序不出錯?代碼少的程序錯誤少,邏輯簡單的程序錯誤少,需要管理的資源少的程序錯誤少。要復(fù)用代碼,減少代碼的數(shù)量。

要抽象,分層,內(nèi)聚,解藕,簡化邏輯,隔離資源,才能簡化邏輯,隔離資源,限制錯誤。

沒有持久狀態(tài)的程序好擴展,沒有持久狀態(tài)意味著上下線機器不需要遷移數(shù)據(jù)。沒有狀態(tài)的程序也很容易做HA方案。

配置簡單,日志豐富,能提供程序狀態(tài)查詢的程序好運維。

但程序不可能沒有數(shù)據(jù),通過集中管理數(shù)據(jù)庫,讓數(shù)據(jù)盡量只讀,預(yù)加載數(shù)據(jù)等手段隔離邏輯和數(shù)據(jù),也能讓擴展變的容易。

6. 系統(tǒng)是什么?

系統(tǒng)是我們運維的目標(biāo),不了解系統(tǒng)是什么,就不知道如何運維。

系統(tǒng)是網(wǎng)絡(luò),是機器,是程序。是把網(wǎng)絡(luò),機器,程序組織起來的架構(gòu)。

機器角色應(yīng)該是盡量單一的,架構(gòu)應(yīng)該是數(shù)據(jù)流簡單的,基礎(chǔ)業(yè)務(wù)服務(wù)化的。

系統(tǒng)是動態(tài)的,運維系統(tǒng)首先考慮的不是當(dāng)下成本,而是系統(tǒng)變更(擴容,上下線機器)的成本。

運維必需是簡單的,要考慮的一個新手,如何能盡快上手工作,而不是冗長的文檔和復(fù)雜的培訓(xùn)。

7. 寫程序和做運維是類似的,甚至一樣的!程序提供單一功能,而運維搭建,維護的系統(tǒng)提供全部的功能,開發(fā)人員開發(fā)的程序只是整個系統(tǒng)的一個部分。

從某個角度說,開發(fā)人員做的事情越少,系統(tǒng)越容易穩(wěn)定,因為開源的總是更靠譜。這是減少代碼,也是復(fù)用。

但運維卻理應(yīng)比開發(fā)更不容易犯錯,因為運維只需要管理資源,而不需要應(yīng)對復(fù)雜的業(yè)務(wù)邏輯。

這是個矛盾,因為開發(fā)負(fù)責(zé)的復(fù)雜業(yè)務(wù)邏輯,是運維負(fù)責(zé)的系統(tǒng)的一部分,前者不穩(wěn)定,后者也別想消停。

所以運維不懂開發(fā),至少要懂如何控制復(fù)雜度,如何隔離故障,如何服務(wù)降級。出色的運維人員,只要精通一門語言,必然也是出色的開發(fā)(反之亦然)。但什么是出色的運維呢?大部分運維人員,只是一個熟練的操作工人。出色的運維必然更了解系統(tǒng)(原理),這要讀很多書,做很多思考,有很多實踐。
只看這個cat bigfile.txt | parallel --pipe wc -l | awk "{s+=$1} END {print s}"你能不能想出parallel加速的原理是什么?

8. 你是否了解你運維的資源?

CPU高意味著什么?你是不是應(yīng)該先問問是sys,user,iowait這三個的哪個高?是單個CPU高,還是整體都搞?

你是否了解有的程序CPU使用率90%就有問題了,而有的350%了還沒問題?

load高意味著cpu高嗎?內(nèi)存耗盡導(dǎo)致load高的原理是什么?內(nèi)存耗盡回導(dǎo)致io高嗎?

9. 是否正確的監(jiān)控了資源?

監(jiān)控了磁盤使用率,是不是也監(jiān)控了磁盤的io能力,raid卡呢?磁盤損壞呢?監(jiān)控了網(wǎng)卡使用率,是不是也監(jiān)控了丟包率?

10. 資源是否一定對應(yīng)硬件?

CPU,內(nèi)存,磁盤,帶寬都有對應(yīng)的硬件,那些沒有硬件對應(yīng)的資源呢?文件描述符,端口數(shù),進程數(shù)是不是資源?

路由表,iptables,cron是不是資源?

MySQL主從,第三方REST接口是不是資源?

11. 為什么要盡量把一切抽象為資源?

還記得剛才說程序要講抽象么,為什么linux一切皆文件?一切運維對象都抽象為資源后,就可以用盡量統(tǒng)一的方法來管理(配置,監(jiān)控)。
如果新上線一臺機器無比容易,為什么還要費盡修復(fù)刪除的/usr目錄呢,把它當(dāng)成新機器重做上線就行了。

12. 運維原則:

線上變更必需走配置管理。線上系統(tǒng)對任何人應(yīng)該是只讀的,只有配置管理程序有權(quán)寫。這樣保證了,變更是可重復(fù)的,可復(fù)制的。手工加路由,手工修改文件權(quán)限,手工配置ip,手工配置nfs,手工起虛擬機等等。一切在線上手工做的操作,于團隊都是無益的,因為團隊失去了一次改進配置管理的機會。任何操作不是想我就這一臺機器,而是想我有1000臺機器怎么辦。

上線業(yè)務(wù)必需先問,如何保證HA,如何擴展,如何運維/監(jiān)控。這三個問題不解決,謹(jǐn)慎上線,當(dāng)然上線必需使用配置管理上線。

隔離復(fù)雜度,要簡化,抽象。抽象指角色抽象。運維眼中沒有計數(shù)用的mc,和緩存用的mc,運維眼中只有mc,于是所有的mc都來自mc池,mc池通過puppet配置,創(chuàng)建mc的過程編程了簡單的
puppet配置。一旦把自己管理的所有業(yè)務(wù)抽象/分拆為幾種有限的“業(yè)務(wù)”,緩存、mysql、httpd等,一切就簡單了。例如我們有緩存池、數(shù)據(jù)庫池、redis池、httpd池。(參考:4、5)

先解決問題,然后是以后如何避免此類問題,后者更重要。

不犯第三次錯誤(重復(fù)的問題不出現(xiàn)第三次)。第一次算不知道,第二次算不小心,第三次特么是故意的吧。如果每個問題都能徹底有效解決(最終落實到配置變更和監(jiān)控),問題就會越來越少。

時刻思考如何“偷懶”,運維越清閑,系統(tǒng)越穩(wěn)定。

13. 配置管理是如何管理資源的?

包,所有線上的軟件/腳本都是通過(rpm)包管理的。

文件,所有的變更“持久化”都是通過文件。程序的配置文件,sysctl,iptables,route,cron等凡是能用配置文件控制的一切。

進程,所有的進程都是用配置管理啟動的,或者通過配置管理寫文件到系統(tǒng)啟動目錄,例如rc3.d。

你能相到的一切,無論是配置keepalived,還是添加用戶,都抽象為這三個。如果不能抽象為這三個,請再思考兩個小時。
如果系統(tǒng)可以由這三者全部控制,而這三者又全部寫入了配置管理,這意味著按照配置管理配置出來的系統(tǒng)就一定是對的。擴容,升級,機器的上線,下線從此該有多容易。而運維人員,可以通過配置管理,一覽整個系統(tǒng),通過持續(xù)改進的模板,配置更容易學(xué)習(xí),不容易出錯。

監(jiān)控

的正確性,業(yè)務(wù)響應(yīng)時間也要同等關(guān)注的。

基礎(chǔ)監(jiān)控要全面,但不一定實時報警。如果業(yè)務(wù)不受影響,又何必半夜起來處理宕機呢?如果業(yè)務(wù)有問題,全面的監(jiān)控會幫你發(fā)現(xiàn)問題的蛛絲馬跡。

如果memcache偶爾響應(yīng)慢,你怎么能想到是swap導(dǎo)致的呢?全面的監(jiān)控可以幫你發(fā)現(xiàn)這一點。把業(yè)務(wù)邏輯抽象為資源,可以統(tǒng)一業(yè)務(wù)監(jiān)控和基礎(chǔ)監(jiān)控。(監(jiān)控如何算全面,參考8、9)

運維技巧

重裝操作系統(tǒng),使用puppet重新配置,是系統(tǒng)恢復(fù)到正確狀態(tài)的最佳途徑。理論上,新裝的機器使用puppet配置后一定是能用的,否則,就是puppet寫的有問題。

區(qū)分無狀態(tài)的機器和有狀態(tài)的機器,盡量把狀態(tài)集中,然后集中精力運維這些有狀態(tài)的機器。
寧可通過網(wǎng)絡(luò)把狀態(tài)集中也要盡量讓機器避免有狀態(tài),無狀態(tài)的機器非常好運維。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/7889.html

相關(guān)文章

  • 虎牙直播運維負(fù)責(zé)人張觀石 | 解密SRE的六種能力及虎牙運維實踐

    摘要:虎牙直播運維負(fù)責(zé)人張觀石張觀石,擁有余年網(wǎng)站開發(fā)架構(gòu)運維經(jīng)驗?zāi)壳瓣P(guān)注互聯(lián)網(wǎng)服務(wù)可靠性系統(tǒng)工程運維平臺的規(guī)劃建設(shè)網(wǎng)站高可用架構(gòu)等方面在音視頻傳輸質(zhì)量評估微服務(wù)運維方面積累了豐富的經(jīng)驗。 showImg(https://segmentfault.com/img/bVbjqGq); 虎牙直播運維負(fù)責(zé)人張觀石 張觀石,擁有10余年網(wǎng)站開發(fā)、架構(gòu)、運維經(jīng)驗;目前關(guān)注互聯(lián)網(wǎng)服務(wù)可靠性系統(tǒng)工程、運維...

    Jonathan Shieber 評論0 收藏0
  • 虎牙直播運維負(fù)責(zé)人張觀石 | 解密SRE的六種能力及虎牙運維實踐

    摘要:本文是根據(jù)虎牙直播運維負(fù)責(zé)人張觀石月日在攜手魅族百度云主辦的第十三期魅族開放日虎牙直播平臺實踐演講中的分享內(nèi)容整理而成。英雄聯(lián)盟是全球最大的電子競技賽事,目前正在如火如荼進行,從今天開始進入了總決賽的淘汰賽階段了。 showImg(https://segmentfault.com/img/bVblQM9?w=1080&h=720); 本文是根據(jù)虎牙直播運維負(fù)責(zé)人張觀石10月20日在ms...

    ixlei 評論0 收藏0
  • 解密百度智能運維工程的架構(gòu)建設(shè)

    摘要:作者介紹王藝,百度云智能運維架構(gòu)研發(fā)負(fù)責(zé)人。年轉(zhuǎn)向運維方向,作為智能運維架構(gòu)方向的技術(shù)負(fù)責(zé)人,致力于為百度智能運維平臺和產(chǎn)品提供高性能高可用可擴展的系統(tǒng)架構(gòu)和基礎(chǔ)設(shè)施。持續(xù)的數(shù)據(jù)建設(shè),是智能運維建設(shè)的關(guān)鍵。 作者介紹王藝,百度云智能運維架構(gòu)研發(fā)負(fù)責(zé)人。2010年加入百度,先后負(fù)責(zé)百度鏈接庫、百度志愿計算、百度統(tǒng)一資源管理的研發(fā),經(jīng)歷過千億級網(wǎng)頁鏈接的洗禮,也調(diào)度過數(shù)十萬量級的服務(wù)器,熱衷于直...

    HtmlCssJs 評論0 收藏0
  • 中型企業(yè)運維平臺

    摘要:大部分小企業(yè)的運維就是加一些腳本就可以搞定了。極端大型的企業(yè),比如,比如騰訊,百度等,都有一套非常完善和復(fù)雜的運維平臺。做一個這樣的運維平臺是不容易的。 這是一個未經(jīng)驗證的假設(shè),just a dump of my current thought。 大部分小企業(yè)的運維就是 ssh 加一些 fabric 腳本就可以搞定了。極端大型的企業(yè),比如 google twitter,比如騰訊 SN...

    jaysun 評論0 收藏0
  • 他山之石——運維平臺哪家強?

    摘要:當(dāng)云平臺出現(xiàn)網(wǎng)絡(luò)故障系統(tǒng)故障等問題,這對云租戶用戶有時甚至是致命的,所以不少是由高級別開發(fā)人員轉(zhuǎn)型而來。目前國內(nèi)各大云廠商也基本都提供了應(yīng)用運維平臺,包括騰訊藍鯨阿里華為等。 DevOps 全鏈路 下圖是我們熟知的軟件研發(fā)環(huán)節(jié),在迭代頻率高的研發(fā)組織里,一天可能要經(jīng)歷多次如下循環(huán)。對于用戶群體龐大或者正在經(jīng)歷大幅業(yè)務(wù)擴張的企業(yè)研發(fā)組織,除了重點關(guān)注應(yīng)用的快速上線之外,如何保障應(yīng)用的高可...

    mylxsw 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<