消息隊列二三事

dack 發(fā)布于2019-08-19 11:03 / 3277人閱讀

摘要：但是我們明顯能感覺到這會降低吞吐量，因為消息不能并行投遞了，而且會阻塞等待，也沒法發(fā)揮的威力。

最近在看kafka的代碼，就免不了想看看消息隊列的一些要點：服務(wù)質(zhì)量（QOS）、性能、擴(kuò)展性等等，下面一一探索這些概念，并談?wù)勗谔囟ǖ南㈥犃?strong>如kafka或者mosquito中是如何具體實現(xiàn)這些概念的。

服務(wù)質(zhì)量 服務(wù)語義

服務(wù)質(zhì)量一般可以分為三個級別，下面說明它們不同語義。

At most once

至多一次，消息可能丟失，但絕不會重復(fù)傳輸。
生產(chǎn)者：完全依賴底層TCP/IP的傳輸可靠性，不做特殊處理，所謂“發(fā)送即忘”。kafka中設(shè)置acks=0。
消費者：先保存消費進(jìn)度，再處理消息。kafka中設(shè)置消費者自動提交偏移量并設(shè)置較短的提交時間間隔。

At least once

至少一次，消息絕不會丟，但是可能會重復(fù)。
生產(chǎn)者：要做消息防丟失的保證。kafka中設(shè)置acks=1 或 all并設(shè)置retries>0。
消費者：先處理消息，再保存消費進(jìn)度。kafka中設(shè)置消費者自動提交偏移量并設(shè)置很長的提交時間間隔，或者直接關(guān)閉自動提交偏移量，處理消息后手動調(diào)用同步模式的偏移量提交。

Exactly once

精確一次，每條消息肯定會被傳輸一次且僅一次。
這個級別光靠消息隊列本身并不好保證，有可能要依賴外部組件。
生產(chǎn)者：要做消息防丟失的保證。kafka中設(shè)置acks=1 或 all并設(shè)置retries>0。mosquito中通過四步握手與DUP、MessageID等標(biāo)識來實現(xiàn)單次語義。
消費者：要做消息防重復(fù)的保證，有多種方案，如：在保存消費進(jìn)度和處理消息這兩個操作中引入兩階段提交協(xié)議；讓消息冪等；讓消費處理與進(jìn)度保存處于一個事務(wù)中來保證原子性。kafka中關(guān)閉自動提交偏移量，并設(shè)置自定義的再平衡監(jiān)聽器，監(jiān)聽到分區(qū)發(fā)生變化時從外部組件讀取或者存儲偏移量，保證自己或者其他消費者在更換分區(qū)時能讀到最新的偏移量從而避免重復(fù)?？傊褪墙Y(jié)合ConsumerRebalanceListener、seek和一個外部系統(tǒng)（如支持事務(wù)的數(shù)據(jù)庫）共同來實現(xiàn)單次語義。此外，kafka還提供了GUID以便用戶自行實現(xiàn)去重。kafka 0.11版本通過3個大的改動支持EOS：1.冪等的producer；2. 支持事務(wù)；3. 支持EOS的流式處理(保證讀-處理-寫全鏈路的EOS)。
這三個級別可靠性依次增加，但是延遲和帶寬占用也會增加，所以實際情況中，要依據(jù)業(yè)務(wù)類型做出權(quán)衡。

可靠性

上面的三個語義不僅需要生產(chǎn)者和消費者的配合實現(xiàn)，還要broker本身的可靠性來進(jìn)行保證。可靠性就是只要broker向producer發(fā)出確認(rèn)，就一定要保證這個消息可以被consumer獲取。

kafka 中一個topic有多個partition，每個partition又有多個replica，所有replica中有一個leader，ISR是一定要同步leader后才能返回提交成功的replica集，OSR內(nèi)的replica盡力的去同步leader，可能數(shù)據(jù)版本會落后。在kafka工作的過程中，如果某個replica同步速度慢于replica.lag.time.max.ms指定的閾值，則被踢出ISR存入OSR，如果后續(xù)速度恢復(fù)可以回到ISR中?？梢耘渲?b>min.insync.replicas指定ISR中的replica最小數(shù)量，默認(rèn)該值為1。LEO是分區(qū)的最新數(shù)據(jù)的offset，當(dāng)數(shù)據(jù)寫入leader后，LEO就立即執(zhí)行該最新數(shù)據(jù)，相當(dāng)于最新數(shù)據(jù)標(biāo)識位。HW是當(dāng)寫入的數(shù)據(jù)被同步到所有的ISR中的副本后，數(shù)據(jù)才認(rèn)為已提交，HW更新到該位置，HW之前的數(shù)據(jù)才可以被消費者訪問，保證沒有同步完成的數(shù)據(jù)不會被消費者訪問到，相當(dāng)于所有副本同步數(shù)據(jù)標(biāo)識位。

每個partition的所有replica需要進(jìn)行leader選舉（依賴ZooKeeper）。在leader宕機(jī)后，只能從ISR列表中選取新的leader，無論ISR中哪個副本被選為新的leader，它都知道HW之前的數(shù)據(jù)，可以保證在切換了leader后，消費者可以繼續(xù)看到HW之前已經(jīng)提交的數(shù)據(jù)。當(dāng)ISR中所有replica都宕機(jī)該partition就不可用了，可以設(shè)置unclean.leader.election.enable=true，該選項使得kafka選擇任何一個活的replica成為leader然后繼續(xù)工作，此replica可能不在ISR中，就可能導(dǎo)致數(shù)據(jù)丟失。所以實際使用中需要進(jìn)行可用性與可靠性的權(quán)衡。

kafka建議數(shù)據(jù)可靠存儲不依賴于數(shù)據(jù)強(qiáng)制刷盤（會影響整體性能），而是依賴于replica。

順序消費

順序消費是指消費者處理消息的順序與生產(chǎn)者投放消息的順序一致。
主要可能破壞順序的場景是生產(chǎn)者投放兩條消息AB，然后A失敗重投遞導(dǎo)致消費者拿到的消息是BA。

kafka中能保證分區(qū)內(nèi)部消息的有序性，其做法是設(shè)置max.in.flight.requests.per.connection=1，也就是說生產(chǎn)者在未得到broker對消息A的確認(rèn)情況下是不會發(fā)送消息B的，這樣就能保證broker存儲的消息有序，自然消費者請求到的消息也是有序的。
但是我們明顯能感覺到這會降低吞吐量，因為消息不能并行投遞了，而且會阻塞等待，也沒法發(fā)揮 batch 的威力。
如果想要整個topic有序，那就只能一個topic一個partition了，一個consumer group也就只有一個consumer了。這樣就違背了kafka高吞吐的初衷。

重復(fù)消費

重復(fù)消費是指一個消息被消費者重復(fù)消費了。 這個問題也是上面第三個語義需要解決的。

一般的消息系統(tǒng)如kafka或者類似的rocketmq都不能也不提倡在系統(tǒng)內(nèi)部解決，而是配合第三方組件，讓用戶自己去解決。究其原因還是解決問題的成本與解決問題后獲得的價值不匹配，所以干脆不解決，就像操作系統(tǒng)對待死鎖一樣，采取“鴕鳥政策”。
但是kafka 0.11還是處理了這個問題，見發(fā)行說明，維護(hù)者是想讓用戶無可挑剔嘛 [笑cry]。

性能

衡量一個消息系統(tǒng)的性能有許多方面，最常見的就是下面幾個指標(biāo)。

連接數(shù)

是指系統(tǒng)在同一時刻能支持多少個生產(chǎn)者或者消費者的連接總數(shù)。連接數(shù)和broker采用的網(wǎng)絡(luò)IO模型直接相關(guān)，常見模型有：單線程、連接每線程、Reactor、Proactor等。
單線程一時刻只能處理一個連接，連接每線程受制于server的線程數(shù)量，Reactor是目前主流的高性能網(wǎng)絡(luò)IO模型，Proactor由于操作系統(tǒng)對真異步的支持不太行所以尚未流行。

kafka的broker采用了類似于Netty的Reactor模型：1（1個Acceptor線程）+N（N個Processor線程）+M（M個Work線程）。
其中Acceptor負(fù)責(zé)監(jiān)聽新的連接請求，同時注冊OPACCEPT事件，將新的連接按照RoundRobin的方式交給某個Processor線程處理。
每個Processor都有一個NIO selector，向 Acceptor分配的 SocketChannel 注冊 OPREAD、OPWRITE事件，對socket進(jìn)行讀寫。N由num.networker.threads決定。
Worker負(fù)責(zé)具體的業(yè)務(wù)邏輯如：從requestQueue中讀取請求、數(shù)據(jù)存儲到磁盤、把響應(yīng)放進(jìn)responseQueue中等等。M的大小由num.io.threads決定。

Reactor模型一般基于IO多路復(fù)用（如select，epoll），是非阻塞的，所以少量的線程能處理大量的連接。
如果大量的連接都是idle的，那么Reactor使用epoll的效率是杠杠的，如果大量的連接都是活躍的，此時如果沒有Proactor的支持就最好把epoll換成select或者poll。
具體做法是-Djava.nio.channels.spi.SelectorProvider把sun.nio.ch包下面的EPollSelectorProvider換成PollSelectorProvider。

QPS

是指系統(tǒng)每秒能處理的請求數(shù)量。QPS通?？梢泽w現(xiàn)吞吐量（該術(shù)語很廣，可以用TPS/QPS、PV、UV、業(yè)務(wù)數(shù)/小時等單位體現(xiàn)）的大小。

kafka中由于可以采用 batch 的方式（還可以壓縮），所以每秒鐘可以處理的請求很多（因為減少了解析量、網(wǎng)絡(luò)往復(fù)次數(shù)、磁盤IO次數(shù)等）。另一方面，kafka每一個topic都有多個partition，所以同一個topic下可以并行（注意不是并發(fā)喲）服務(wù)多個生產(chǎn)者和消費者，這也提高了吞吐量。

平均響應(yīng)時間

平均響應(yīng)時間是指每個請求獲得響應(yīng)需要的等待時間。

kafka中處理請求的瓶頸（也就是最影響響應(yīng)時間的因素）最有可能出現(xiàn)在哪些地方呢？
網(wǎng)絡(luò)？ 有可能，但是這個因素總體而言不是kafka能控制的，kafka可以對消息進(jìn)行編碼壓縮并批量提交，減少帶寬占用；
磁盤？ 很有可能，所以kafka從分利用OS的pagecache，并且對磁盤采用順序?qū)?/strong>，這樣能大大提升磁盤的寫入速度。同時kafka還使用了零拷貝技術(shù)，把普通的拷貝過程：disk->read buffer->app buffer->socket buffer->NIC buffer 中，read buffer到app buffer的拷貝過程省略了（所以上下文切換也減少了），加快了處理速度。這個功能依賴于 java 的 transferTo，底層由 linux 的sendfile系統(tǒng)調(diào)用實現(xiàn)。在 linux2.4及以上 中，數(shù)據(jù)可以直接從 read buffer 拷貝到 NIC buffer ，達(dá)到了最短拷貝路徑。
此外還有文件分段技術(shù)，每個partition都分為多個segment，避免了大文件操作的同時提高了并行度。
CPU？ 不大可能，因為消息隊列的使用并不涉及大量的計算，常見消耗有線程切換、編解碼、壓縮解壓、內(nèi)存拷貝等，這些在大數(shù)據(jù)處理中一般不是瓶頸。

并發(fā)數(shù)
是指系統(tǒng)同時能處理的請求數(shù)量數(shù)。一般而言，QPS = 并發(fā)數(shù)/平均響應(yīng)時間 或者說 并發(fā)數(shù) = QPS*平均響應(yīng)時間。

這個參數(shù)一般只能估計或者計算，沒法直接測。顧名思義，機(jī)器性能越好當(dāng)然并發(fā)數(shù)越高咯。此外注意用上多線程技術(shù)并且提高代碼的并行度、優(yōu)化IO模型、減少減少內(nèi)存分配和釋放等手段都是可以提高并發(fā)數(shù)的。
擴(kuò)展性
消息系統(tǒng)的可擴(kuò)展性是指要為系統(tǒng)組件添加的新的成員的時候比較容易。

kafka中擴(kuò)展性的基石就是topic采用的partition機(jī)制。第一，Kafka允許Partition在cluster中的Broker之間移動，以此來解決數(shù)據(jù)傾斜問題。第二，支持自定義的Partition算法，比如你可以將同一個Key的所有消息都路由到同一個Partition上去（來獲得順序）。第三，partition的所有replica通過ZooKeeper來進(jìn)行集群管理，可以動態(tài)增減副本。第四，partition也支持動態(tài)增減。

對于producer，不存在擴(kuò)展問題，只要broker還夠你連接就行。
對于consumer，一個consumer group中的consumer可以增減，但是最好不要超過一個topic的partition數(shù)量，因為多余的consumer并不能提升處理速度，一個partition在同一時刻只能被一個consumer group中的一個consumer消費

代碼上的可擴(kuò)展性就屬于設(shè)計模式的領(lǐng)域了，這里不談。
參考
《kafka技術(shù)內(nèi)幕》
Kafka的存儲機(jī)制以及可靠性
Kafka 0.11.0.0 是如何實現(xiàn) Exactly-once 語義的

查看原文，來自mageekchiu。總結(jié)不到位的地方請不吝賜教。

云服務(wù)器 GPU云服務(wù)器隊列消息消息隊列消息隊列端口消息隊列收費

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/76905.html

上一篇：渣渣的 ElasticSearch 源碼解析 —— 啟動流程（下）

下一篇：渣渣的 ElasticSearch 源碼解析 —— 啟動流程（上）

相關(guān)文章

RabbitMQ二三事

摘要：路由關(guān)鍵字根據(jù)這個關(guān)鍵字進(jìn)行消息投遞。則就是根據(jù)不同路由鍵，把消息發(fā)送到某一類隊列中。關(guān)于的一個重要注意事項是它根據(jù)所謂的節(jié)點名稱存儲數(shù)據(jù)，默認(rèn)為主機(jī)名。 RabbitMQ概覽 RabbitMQ是一個高性能的分布式消息中間件。它由Erlang編寫，這種語言天生支持分布式，而且性能極高（但是比較難上手）。通信概念 RabbitMQ簡單理解就是一個隊列服務(wù)，我們的生產(chǎn)者不斷地往它投遞消息...

JeOam 2019-07-01 12:37 評論0 收藏0

PHP多進(jìn)程初探 --- 進(jìn)程間通信二三事

摘要：多進(jìn)程通信之一命名管道。多進(jìn)程通信之三信號量與共享內(nèi)存。共享內(nèi)存是最快是進(jìn)程間通信方式，因為個進(jìn)程之間并不需要數(shù)據(jù)復(fù)制，而是直接操控同一份數(shù)據(jù)。的一些書籍中甚至不建議新手輕易使用這種進(jìn)程間通信的方式，因為這是一種極易產(chǎn)生死鎖的解決方案。 [原文地址：https://blog.ti-node.com/blog...] 往往開啟多進(jìn)程的目的是為了一起干活加速效率，前面說了不同進(jìn)程之間的內(nèi)存...

hearaway 2019-07-01 10:37 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

dack

男|高級講師

我要關(guān)注我要私信

TA的文章
閱讀更多

第一次寫博客--自我介紹

閱讀 2466·2021-10-09 09:44

職場中，寧可裝傻，也不要自作聰明！

閱讀 2204·2021-10-08 10:05

網(wǎng)維云-2021新春嘉年華活動鉅惠就現(xiàn)在 2核2G5M云服務(wù)器僅需80元=3個月購買一年更優(yōu)惠

閱讀 3481·2021-07-26 23:38

CSS進(jìn)階篇--Normalize.css的使用（重置表）

閱讀 3083·2019-08-28 18:16

Webpack附錄

閱讀 876·2019-08-26 11:55

【leetcode】2. 兩數(shù)相加

閱讀 1894·2019-08-23 18:29

隱藏火狐和谷歌瀏覽器滾動條

閱讀 2115·2019-08-23 18:05

第二集: 從零開始實現(xiàn)一套pc端vue的ui組件庫(icon組件)

閱讀 1406·2019-08-23 17:02

最新活動

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

消息隊列二三事

相關(guān)文章

RabbitMQ二三事

PHP多進(jìn)程初探 --- 進(jìn)程間通信二三事

發(fā)表評論

0條評論

dack

男|高級講師

TA的文章

第一次寫博客--自我介紹

職場中，寧可裝傻，也不要自作聰明！

網(wǎng)維云-2021新春嘉年華活動鉅惠就現(xiàn)在 2核2G5M云服務(wù)器僅需80元=3個月購買一年更優(yōu)惠

CSS進(jìn)階篇--Normalize.css的使用（重置表）

Webpack附錄

【leetcode】2. 兩數(shù)相加

隱藏火狐和谷歌瀏覽器滾動條

第二集: 從零開始實現(xiàn)一套pc端vue的ui組件庫(icon組件)

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

消息隊列二三事

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！