大白話布隆過濾器

meteor199 發(fā)布于2019-05-23 16:22 / 2992人閱讀

摘要：可以看出，僅僅從布隆過濾器本身而言，根本沒有存放完整的數(shù)據(jù)，只是運(yùn)用一系列隨機(jī)映射函數(shù)計(jì)算出位置，然后填充二進(jìn)制向量。也就是說布隆過濾器只能判斷數(shù)據(jù)是否一定不存在，而無(wú)法判斷數(shù)據(jù)是否一定存在。我向布隆過濾器插入了，然后用來(lái)測(cè)試誤判率。

本文是站在小白的角度去討論布隆過濾器，如果你是科班出身，或者比較聰明，又或者真正想完全搞懂布隆過濾器的可以移步。

不知道從什么時(shí)候開始，本來(lái)默默無(wú)聞的布隆過濾器一下子名聲大燥，仿佛身在互聯(lián)網(wǎng)，做著開發(fā)的，無(wú)人不知，無(wú)人不曉，哪怕對(duì)技術(shù)不是很關(guān)心的小伙伴也聽過它的名號(hào)。我也花了不少時(shí)間去研究布隆過濾器，看了不少博客，無(wú)奈不是科班出身，又沒有那么聰明的頭腦，又比較懶...經(jīng)過“放棄，拿起，放棄，拿起”的無(wú)限輪回，應(yīng)該算是了解了布隆過濾器的核心思想，所以想給大家分享下。

布隆過濾器的應(yīng)用

我們先來(lái)看下布隆過濾器的應(yīng)用場(chǎng)景，讓大家知道神奇的布隆過濾器到底能做什么。

緩存穿透

我們經(jīng)常會(huì)把一部分?jǐn)?shù)據(jù)放在Redis等緩存，比如產(chǎn)品詳情。這樣有查詢請(qǐng)求進(jìn)來(lái)，我們可以根據(jù)產(chǎn)品Id直接去緩存中取數(shù)據(jù)，而不用讀取數(shù)據(jù)庫(kù)，這是提升性能最簡(jiǎn)單，最普遍，也是最有效的做法。一般的查詢請(qǐng)求流程是這樣的：先查緩存，有緩存的話直接返回，如果緩存中沒有，再去數(shù)據(jù)庫(kù)查詢，然后再把數(shù)據(jù)庫(kù)取出來(lái)的數(shù)據(jù)放入緩存，一切看起來(lái)很美好。但是如果現(xiàn)在有大量請(qǐng)求進(jìn)來(lái)，而且都在請(qǐng)求一個(gè)不存在的產(chǎn)品Id，會(huì)發(fā)生什么？既然產(chǎn)品Id都不存在，那么肯定沒有緩存，沒有緩存，那么大量的請(qǐng)求都懟到數(shù)據(jù)庫(kù)，數(shù)據(jù)庫(kù)的壓力一下子就上來(lái)了，還有可能把數(shù)據(jù)庫(kù)打死。雖然有很多辦法都可以解決這問題，但是我們的主角是“布隆過濾器”，沒錯(cuò)，“布隆過濾器”就可以解決（緩解）緩存穿透問題。至于為什么說是“緩解”，看下去你就明白了。

大量數(shù)據(jù)，判斷給定的是否在其中

現(xiàn)在有大量的數(shù)據(jù)，而這些數(shù)據(jù)的大小已經(jīng)遠(yuǎn)遠(yuǎn)超出了服務(wù)器的內(nèi)存，現(xiàn)在再給你一個(gè)數(shù)據(jù)，如何判斷給你的數(shù)據(jù)在不在其中。如果服務(wù)器的內(nèi)存足夠大，那么用HashMap是一個(gè)不錯(cuò)的解決方案，理論上的時(shí)間復(fù)雜度可以達(dá)到O(1)，但是現(xiàn)在數(shù)據(jù)的大小已經(jīng)遠(yuǎn)遠(yuǎn)超出了服務(wù)器的內(nèi)存，所以無(wú)法使用HashMap，這個(gè)時(shí)候就可以使用“布隆過濾器”來(lái)解決這個(gè)問題。但是還是同樣的，會(huì)有一定的“誤判率”。

什么是布隆過濾器

布隆過濾器是一個(gè)叫“布隆”的人提出的，它本身是一個(gè)很長(zhǎng)的二進(jìn)制向量，既然是二進(jìn)制的向量，那么顯而易見的，存放的不是0，就是1。

現(xiàn)在我們新建一個(gè)長(zhǎng)度為16的布隆過濾器，默認(rèn)值都是0，就像下面這樣：

現(xiàn)在需要添加一個(gè)數(shù)據(jù)：

我們通過某種計(jì)算方式，比如Hash1，計(jì)算出了Hash1(數(shù)據(jù))=5，我們就把下標(biāo)為5的格子改成1，就像下面這樣：

我們又通過某種計(jì)算方式，比如Hash2，計(jì)算出了Hash2(數(shù)據(jù))=9，我們就把下標(biāo)為9的格子改成1，就像下面這樣：

還是通過某種計(jì)算方式，比如Hash3，計(jì)算出了Hash3(數(shù)據(jù))=2，我們就把下標(biāo)為2的格子改成1，就像下面這樣：

這樣，剛才添加的數(shù)據(jù)就占據(jù)了布隆過濾器“5”，“9”，“2”三個(gè)格子。

可以看出，僅僅從布隆過濾器本身而言，根本沒有存放完整的數(shù)據(jù)，只是運(yùn)用一系列隨機(jī)映射函數(shù)計(jì)算出位置，然后填充二進(jìn)制向量。

這有什么用呢？比如現(xiàn)在再給你一個(gè)數(shù)據(jù)，你要判斷這個(gè)數(shù)據(jù)是否重復(fù)，你怎么做？

你只需利用上面的三種固定的計(jì)算方式，計(jì)算出這個(gè)數(shù)據(jù)占據(jù)哪些格子，然后看看這些格子里面放置的是否都是1，如果有一個(gè)格子不為1，那么就代表這個(gè)數(shù)字不在其中。這很好理解吧，比如現(xiàn)在又給你了剛才你添加進(jìn)去的數(shù)據(jù)，你通過三種固定的計(jì)算方式，算出的結(jié)果肯定和上面的是一模一樣的，也是占據(jù)了布隆過濾器“5”，“9”，“2”三個(gè)格子。

但是有一個(gè)問題需要注意，如果這些格子里面放置的都是1，不一定代表給定的數(shù)據(jù)一定重復(fù)，也許其他數(shù)據(jù)經(jīng)過三種固定的計(jì)算方式算出來(lái)的結(jié)果也是相同的。這也很好理解吧，比如我們需要判斷對(duì)象是否相等，是不可以僅僅判斷他們的哈希值是否相等的。

也就是說布隆過濾器只能判斷數(shù)據(jù)是否一定不存在，而無(wú)法判斷數(shù)據(jù)是否一定存在。

按理來(lái)說，介紹完了新增、查詢的流程，就要介紹刪除的流程了，但是很遺憾的是布隆過濾器是很難做到刪除數(shù)據(jù)的，為什么？你想想，比如你要?jiǎng)h除剛才給你的數(shù)據(jù)，你把“5”，“9”，“2”三個(gè)格子都改成了0，但是可能其他的數(shù)據(jù)也映射到了“5”，“9”，“2”三個(gè)格子啊，這不就亂套了嗎？

相信經(jīng)過我這么一介紹，大家對(duì)布隆過濾器應(yīng)該有一個(gè)淺顯的認(rèn)識(shí)了，至少你應(yīng)該清楚布隆過濾器的優(yōu)缺點(diǎn)了：

優(yōu)點(diǎn)：由于存放的不是完整的數(shù)據(jù)，所以占用的內(nèi)存很少，而且新增，查詢速度夠快；

缺點(diǎn)：隨著數(shù)據(jù)的增加，誤判率隨之增加；無(wú)法做到刪除數(shù)據(jù)；只能判斷數(shù)據(jù)是否一定不存在，而無(wú)法判斷數(shù)據(jù)是否一定存在。

可以看到，布隆過濾器的優(yōu)點(diǎn)和缺點(diǎn)一樣明顯。

在上文中，我舉的例子二進(jìn)制向量長(zhǎng)度為16，由三個(gè)隨機(jī)映射函數(shù)計(jì)算位置，在實(shí)際開發(fā)中，如果你要添加大量的數(shù)據(jù)，僅僅16位是遠(yuǎn)遠(yuǎn)不夠的，為了讓誤判率降低，我們還可以用更多的隨機(jī)映射函數(shù)、更長(zhǎng)的二進(jìn)制向量去計(jì)算位置。

guava實(shí)現(xiàn)布隆過濾器

現(xiàn)在相信你對(duì)布隆過濾器應(yīng)該有一個(gè)比較感性的認(rèn)識(shí)了，布隆過濾器核心思想其實(shí)并不難，難的在于如何設(shè)計(jì)隨機(jī)映射函數(shù)，到底映射幾次，二進(jìn)制向量的長(zhǎng)度設(shè)置為多少比較好，這可能就不是一般的開發(fā)可以駕馭的了，好在Google大佬給我們提供了開箱即用的組件，來(lái)幫助我們實(shí)現(xiàn)布隆過濾器，現(xiàn)在就讓我們看看怎么Google大佬送給我們的“禮物”吧。

首先在pom引入“禮物”：

        
            com.google.guava
            guava
            19.0

然后就可以測(cè)試?yán)玻?/p>

    private static int size = 1000000;//預(yù)計(jì)要插入多少數(shù)據(jù)

    private static double fpp = 0.01;//期望的誤判率

    private static BloomFilter bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size, fpp);

    public static void main(String[] args) {
        //插入數(shù)據(jù)
        for (int i = 0; i < 1000000; i++) {
            bloomFilter.put(i);
        }
        int count = 0;
        for (int i = 1000000; i < 2000000; i++) {
            if (bloomFilter.mightContain(i)) {
                count++;
                System.out.println(i + "誤判了");
            }
        }
        System.out.println("總共的誤判數(shù):" + count);
    }

代碼簡(jiǎn)單分析：我們定義了一個(gè)布隆過濾器，有兩個(gè)重要的參數(shù)，分別是我們預(yù)計(jì)要插入多少數(shù)據(jù)，我們所期望的誤判率，誤判率不能為0。我向布隆過濾器插入了0-1000000，然后用1000000-2000000來(lái)測(cè)試誤判率。

運(yùn)行結(jié)果：

1999501誤判了
1999567誤判了
1999640誤判了
1999697誤判了
1999827誤判了
1999942誤判了
總共的誤判數(shù):10314

現(xiàn)在總共有100萬(wàn)數(shù)據(jù)是不存在的，誤判了10314次，我們計(jì)算下誤判率

和我們定義的期望誤判率0.01相差無(wú)幾。

redis實(shí)現(xiàn)布隆過濾器

上面使用guava實(shí)現(xiàn)布隆過濾器是把數(shù)據(jù)放在本地內(nèi)存中，無(wú)法實(shí)現(xiàn)布隆過濾器的共享，我們還可以把數(shù)據(jù)放在redis中，用 redis來(lái)實(shí)現(xiàn)布隆過濾器，我們要使用的數(shù)據(jù)結(jié)構(gòu)是bitmap，你可能會(huì)有疑問，redis支持五種數(shù)據(jù)結(jié)構(gòu)：String，List，Hash，Set，ZSet，沒有bitmap呀。沒錯(cuò)，實(shí)際上bitmap的本質(zhì)還是String。

可能有小伙伴會(huì)說，納尼，布隆過濾器還沒介紹完，怎么又出來(lái)一個(gè)bitmap，沒事，你可以把bitmap就理解為一個(gè)二進(jìn)制向量。

要用redis來(lái)實(shí)現(xiàn)布隆過濾器，我們需要自己設(shè)計(jì)映射函數(shù)，自己度量二進(jìn)制向量的長(zhǎng)度，這對(duì)我來(lái)說，無(wú)疑是一個(gè)不可能完成的任務(wù)，只能借助搜索引擎，下面直接放出代碼把。

public class RedisMain {
    static final int expectedInsertions = 100;//要插入多少數(shù)據(jù)
    static final double fpp = 0.01;//期望的誤判率

    //bit數(shù)組長(zhǎng)度
    private static long numBits;

    //hash函數(shù)數(shù)量
    private static int numHashFunctions;

    static {
        numBits = optimalNumOfBits(expectedInsertions, fpp);
        numHashFunctions = optimalNumOfHashFunctions(expectedInsertions, numBits);
    }

    public static void main(String[] args) {
        Jedis jedis = new Jedis("192.168.0.109", 6379);
        for (int i = 0; i < 100; i++) {
            long[] indexs = getIndexs(String.valueOf(i));
            for (long index : indexs) {
                jedis.setbit("codebear:bloom", index, true);
            }
        }
        for (int i = 0; i < 100; i++) {
            long[] indexs = getIndexs(String.valueOf(i));
            for (long index : indexs) {
                Boolean isContain = jedis.getbit("codebear:bloom", index);
                if (!isContain) {
                    System.out.println(i + "肯定沒有重復(fù)");
                }
            }
            System.out.println(i + "可能重復(fù)");
        }
    }

    /**
     * 根據(jù)key獲取bitmap下標(biāo)
     */
    private static long[] getIndexs(String key) {
        long hash1 = hash(key);
        long hash2 = hash1 >>> 16;
        long[] result = new long[numHashFunctions];
        for (int i = 0; i < numHashFunctions; i++) {
            long combinedHash = hash1 + i * hash2;
            if (combinedHash < 0) {
                combinedHash = ~combinedHash;
            }
            result[i] = combinedHash % numBits;
        }
        return result;
    }

    private static long hash(String key) {
        Charset charset = Charset.forName("UTF-8");
        return Hashing.murmur3_128().hashObject(key, Funnels.stringFunnel(charset)).asLong();
    }

    //計(jì)算hash函數(shù)個(gè)數(shù)
    private static int optimalNumOfHashFunctions(long n, long m) {
        return Math.max(1, (int) Math.round((double) m / n * Math.log(2)));
    }

    //計(jì)算bit數(shù)組長(zhǎng)度
    private static long optimalNumOfBits(long n, double p) {
        if (p == 0) {
            p = Double.MIN_VALUE;
        }
        return (long) (-n * Math.log(p) / (Math.log(2) * Math.log(2)));
    }
}

運(yùn)行結(jié)果：

88可能重復(fù)
89可能重復(fù)
90可能重復(fù)
91可能重復(fù)
92可能重復(fù)
93可能重復(fù)
94可能重復(fù)
95可能重復(fù)
96可能重復(fù)
97可能重復(fù)
98可能重復(fù)
99可能重復(fù)

本篇博客到這里就結(jié)束了，謝謝大家。

云服務(wù)器 GPU云服務(wù)器布隆過濾器布隆去重大白話大白話docker入門

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/7188.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

meteor199

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflowgpu

閱讀 2760·2023-04-25 15:15
秒殺系統(tǒng)企業(yè)級(jí)實(shí)戰(zhàn)應(yīng)用（真實(shí)工業(yè)界案例）

閱讀 1390·2021-11-25 09:43
Wordpress廢棄的函數(shù)

閱讀 1661·2021-11-23 09:51
C/C++游戲項(xiàng)目詳細(xì)教學(xué)：《掃雷》

閱讀 1161·2021-11-12 10:36
C語(yǔ)言實(shí)現(xiàn)入門級(jí)小游戲——三子棋（萬(wàn)字長(zhǎng)篇）

閱讀 2951·2021-11-11 16:55
RAKsmart：美國(guó)獨(dú)立服務(wù)器，硅谷機(jī)房，月付$76起

閱讀 1024·2021-11-08 13:18
Time4VPS：萬(wàn)圣節(jié)促銷，全場(chǎng)5折優(yōu)惠，linux vps，3.99 EUR/月起，windos

閱讀 800·2021-10-28 09:31
css基本樣式1（7.1）

閱讀 2114·2019-08-30 15:47

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

大白話布隆過濾器

緩存穿透

大量數(shù)據(jù)，判斷給定的是否在其中

相關(guān)文章

**布隆過濾器簡(jiǎn)介**

**布隆過濾器的Python實(shí)現(xiàn)(標(biāo)準(zhǔn)、計(jì)數(shù)、標(biāo)準(zhǔn)擴(kuò)容、計(jì)數(shù)擴(kuò)容)**

說一說布隆過濾器

發(fā)表評(píng)論

0條評(píng)論

meteor199

男|高級(jí)講師

TA的文章

tensorflowgpu

秒殺系統(tǒng)企業(yè)級(jí)實(shí)戰(zhàn)應(yīng)用（真實(shí)工業(yè)界案例）

Wordpress廢棄的函數(shù)

C/C++游戲項(xiàng)目詳細(xì)教學(xué)：《掃雷》

C語(yǔ)言實(shí)現(xiàn)入門級(jí)小游戲——三子棋（萬(wàn)字長(zhǎng)篇）

RAKsmart：美國(guó)獨(dú)立服務(wù)器，硅谷機(jī)房，月付$76起

Time4VPS：萬(wàn)圣節(jié)促銷，全場(chǎng)5折優(yōu)惠，linux vps，3.99 EUR/月起，windos

css基本樣式1（7.1）

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

大白話布隆過濾器

緩存穿透

大量數(shù)據(jù)，判斷給定的是否在其中

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

大量數(shù)據(jù)，判斷給定的是否在其中