导航:首页 > 净水问答 > 布隆过滤器的思想

布隆过滤器的思想

发布时间:2020-12-16 00:02:12

1. 用python安装布隆过滤器报错,这怎么解决

但是布隆过滤器的缺点和优点一样明显。误算率是其中之一。随着存入的元素数量增回加,误算率随之增答加。但是如果元素数量太少,则使用散列表足矣。另外,一般情况下不能从布隆过滤器中删除元素。我们很容易想到把位列阵变成整数数组

2. 布隆过滤器的检索效率为什么快于哈希算法

bloom filter的特点是会出现误报,但不会漏报,也就是说对于bloom filter验证的一个数据文件,可能不包含你查找内的数据项,容但是包含你查找的数据项的数据文件它一定是会返回的,key-value系统中bloom filter返回的数据文件还是需要查看里面的内容...

3. 布隆过滤器的缺点

但是布隆过滤器的缺点和优点一样明显。误算率是其中之一。随着存入的专元素数量增加,属误算率随之增加。但是如果元素数量太少,则使用散列表足矣。
另外,一般情况下不能从布隆过滤器中删除元素。我们很容易想到把位列阵变成整数数组,每插入一个元素相应的计数器加1, 这样删除元素时将计数器减掉就可以了。然而要保证安全的删除元素并非如此简单。首先我们必须保证删除的元素的确在布隆过滤器里面. 这一点单凭这个过滤器是无法保证的。另外计数器回绕也会造成问题。
在降低误算率方面,有不少工作,使得出现了很多布隆过滤器的变种。

4. 看过的视频让用户不再观看为什么使用布隆过滤器而不是直接使用setBit与getBit进行取值比对呢

不行。

因为布隆过滤器的原理是用多个hash函数对id进行hash后得到一系列值,而在布隆数组中看这些值回对应答的位上是否命中,如果都命中说明这个值重复。
用id不经过hash直接去对比,乍一想好像可以,但是你想想,假如id是10位,并且我们只用数字,那么布隆过滤器的长度只有10位(0123456789),这个长度的过滤器几乎没法使用,容量太低,误差率太高。即使算上大小写字母,也只有62个,看似62很多,但是这里定死了id必须用这62个字符,而假如中间加一层hash,那id用什么字符和我布隆过滤器用什么字符以及过滤器的长度都可以自由指定,灵活很多。

5. 如何用python写布隆过滤器

下面的是网络上找到的python的布隆过滤器的实现.

#!/usr/local/bin/python2.7
#coding=gbk
'''
Createdon2012-11-7

@author:palydawn
'''
importcmath
fromBitVectorimportBitVector

classBloomFilter(object):
def__init__(self,error_rate,elementNum):
#计算所需要的bit数
self.bit_num=-1*elementNum*cmath.log(error_rate)/(cmath.log(2.0)*cmath.log(2.0))

#四字节对齐
self.bit_num=self.align_4byte(self.bit_num.real)

#分配内存
self.bit_array=BitVector(size=self.bit_num)

#计算hash函数个数
self.hash_num=cmath.log(2)*self.bit_num/elementNum

self.hash_num=self.hash_num.real

#向上取整
self.hash_num=int(self.hash_num)+1

#产生hash函数种子
self.hash_seeds=self.generate_hashseeds(self.hash_num)

definsert_element(self,element):
forseedinself.hash_seeds:
hash_val=self.hash_element(element,seed)
#取绝对值
hash_val=abs(hash_val)
#取模,防越界
hash_val=hash_val%self.bit_num
#设置相应的比特位
self.bit_array[hash_val]=1

#检查元素是否存在,存在返回true,否则返回false
defis_element_exist(self,element):
forseedinself.hash_seeds:
hash_val=self.hash_element(element,seed)
#取绝对值
hash_val=abs(hash_val)
#取模,防越界
hash_val=hash_val%self.bit_num

#查看值
ifself.bit_array[hash_val]==0:
returnFalse
returnTrue

#内存对齐
defalign_4byte(self,bit_num):
num=int(bit_num/32)
num=32*(num+1)
returnnum

#产生hash函数种子,hash_num个素数
defgenerate_hashseeds(self,hash_num):
count=0
#连续两个种子的最小差值
gap=50
#初始化hash种子为0
hash_seeds=[]
forindexinxrange(hash_num):
hash_seeds.append(0)
forindexinxrange(10,10000):
max_num=int(cmath.sqrt(1.0*index).real)
flag=1
fornuminxrange(2,max_num):
ifindex%num==0:
flag=0
break

ifflag==1:
#连续两个hash种子的差值要大才行
ifcount>0and(index-hash_seeds[count-1])<gap:
continue
hash_seeds[count]=index
count=count+1

ifcount==hash_num:
break
returnhash_seeds

defhash_element(self,element,seed):
hash_val=1
forchinstr(element):
chval=ord(ch)
hash_val=hash_val*seed+chval
returnhash_val
'''
#测试代码
bf=BloomFilter(0.001,1000000)
element='palydawn'
bf.insert_element(element)
printbf.is_element_exist('palydawn')'''

#其中使用了BitVector库,python本身的二进制操作看起来很麻烦,这个就简单多了

如果解决了您的问题请采纳!
如果未解决请继续追问

6. 布隆过滤器和hashmap的区别

但是复布隆过滤器的缺点和优点一样制明显。误算率是其中之一。随着存入的元素数量增加,误算率随之增加。但是如果元素数量太少,则使用散列表足矣。另外,一般情况下不能从布隆过滤器中删除元素。我们很容易想到把位列阵变成整数数组,每插入一个元

7. 如何用布隆过滤器过滤重复url,求Python代码实现

但是布隆过滤器的缺点和优点一样明显。误算率是其中之一。随着存入的元素数量增加,专误算率随之增加。但是属如果元素数量太少,则使用散列表足矣。另外,一般情况下不能从布隆过滤器中删除元素。我们很容易想到把位列阵变成整数数组

8. 如何用布隆过滤器去重mysql

在数据库中创建字段的UNIQUE属性
在数据库中创建一个唯一的索引,在插入数据之前检查待插入的数据是否存在
使用Set或HashSet保存数据,确保唯一

9. 布隆过滤器的优点

相比于其它的数抄据结袭构,布隆过滤器在空间和时间方面都有巨大的优势。布隆过滤器存储空间和插入/查询时间都是常数。另外, Hash函数相互之间没有关系,方便由硬件并行实现。布隆过滤器不需要存储元素本身,在某些对保密要求非常严格的场合有优势。
布隆过滤器可以表示全集,其它任何数据结构都不能;
k和m相同,使用同一组Hash函数的两个布隆过滤器的交并差运算可以使用位操作进行。
布隆过滤器

10. 基于布隆过滤器的非法URL识别,有没有能用Java

假如有1亿个不重复的正整数(大致范围已知),但是只有1G的内存可用,如何判断该范围内的某个数是否出现在这1亿个数中?最常用的处理办法是利用位图,1*108/1024*1024*8=11.9,也只需要申请12M的内存。但是如果是1亿个邮件地址,如何确定某个邮件地址是否在这1亿个地址中?这个时候可能大家想到的最常用的办法就是利用Hash表了,但是大家可以细想一下,如果利用Hash表来处理,必须开辟空间去存储这1亿个邮件地址,因为在Hash表中不可能避免的会发生碰撞,假设一个邮件地址只占8个字节,为了保证Hash表的碰撞率,所以需要控制Hash表的装填因子在0.5左右,那么至少需要2*8*108/1024*1024*1024=1.5G的内存空间,这种情况下利用Hash表是无法处理的。这个时候要用到另外一种数据结构-布隆过滤器(Bloom Filter),它是由Burton Howard Bloom在1970年提出的,它结合了位图和Hash表两者的优点,位图的优点是节省空间,但是只能处理整型值一类的问题,无法处理字符串一类的问题,而Hash表却恰巧解决了位图无法解决的问题,然而Hash太浪费空间。针对这个问题,布隆提出了一种基于二进制向量和一系列随机函数的数据结构-布隆过滤器。它的空间利用率和时间效率是很多算法无法企及的,但是它也有一些缺点,就是会有一定的误判率并且不支持删除操作。

布隆过滤器的原理
1
布隆过滤器需要的是一个位数组(这个和位图有点类似)和k个映射函数(和Hash表类似),在初始状态时,对于长度为m的位数组array,它的所有位都被置为0

2
对于有n个元素的集合S={s1,s2......sn},通过k个映射函数{f1,f2,......fk},将集合S中的每个元素sj(1<=j<=n)映射为k个值{g1,g2......gk},然后再将位数组array中相对应的array[g1],array[g2]......array[gk]置为1:

3
如果要查找某个元素item是否在S中,则通过映射函数{f1,f2.....fk}得到k个值{g1,g2.....gk},然后再判断array[g1],array[g2]......array[gk]是否都为1,若全为1,则item在S中,否则item不在S中。这个就是布隆过滤器的实现原理。
当然有读者可能会问:即使array[g1],array[g2]......array[gk]都为1,能代表item一定在集合S中吗?不一定,因为有这个可能:就是集合中的若干个元素通过映射之后得到的数值恰巧包括g1,g2,.....gk,那么这种情况下可能会造成误判,但是这个概率很小,一般在万分之一以下。
很显然,布隆过滤器的误判率和这k个映射函数的设计有关,到目前为止,有很多人设计出了很多高效实用的hash函数。并且可以证明布隆过滤器的误判率和位数组的大小以及映射函数的个数有关。假设误判率为p,位数组大小为m,集合数据个数为n,映射函数个数为k,它们之间的关系如下:
p=2-(m/n)*ln2 可得 m=(-n*lnp)/(ln2)2=-2*n*lnp=2*n*ln(1/p)
k=(m/n)*ln2=0.7*(m/n)
可以验证若p=0.1,(m/n)=9.6,即存储每个元素需要9.6bit位,此时k=0.7*(m/n)=6.72,即存储每个元素需要9.6个bit位,其中有6.72个bit位被置为1了,因此需要7个映射函数。从这里可以看出布隆过滤器的优越性了,比如上面例子中的,存储一个邮件地址,只需要10个bit位,而用hash表存储需要8*8=64个bit位。
一般情况下,p和n由用户设定,然后根据p和n的值设计位数组的大小和所需的映射函数的个数,再根据实际情况来设计映射函数。
尤其要注意的是,布隆过滤器是不允许删除元素的,因为若删除一个元素,可能会发生漏判的情况。不过有一种布隆过滤器的变体Counter Bloom Filter,可以支持删除元素,感兴趣的读者可以查阅相关文献资料。
END
布隆过滤器的应用
布隆过滤器在很多场合能发挥很好的效果,比如:网页URL的去重,垃圾邮件的判别,集合重复元素的判别,查询加速(比如基于key-value的存储系统)等,下面举几个例子:
1.有两个URL集合A,B,每个集合中大约有1亿个URL,每个URL占64字节,有1G的内存,如何找出两个集合中重复的URL。
很显然,直接利用Hash表会超出内存限制的范围。这里给出两种思路:
第一种:如果不允许一定的错误率的话,只有用分治的思想去解决,将A,B两个集合中的URL分别存到若干个文件中{f1,f2...fk}和{g1,g2....gk}中,然后取f1和g1的内容读入内存,将f1的内容存储到hash_map当中,然后再取g1中的url,若有相同的url,则写入到文件中,然后直到g1的内容读取完毕,再取g2...gk。然后再取f2的内容读入内存。。。依次类推,知道找出所有的重复url。
第二种:如果允许一定错误率的话,则可以用布隆过滤器的思想。
2.在进行网页爬虫时,其中有一个很重要的过程是重复URL的判别,如果将所有的url存入到数据库中,当数据库中URL的数量很多时,在判重时会造成效率低下,此时常见的一种做法就是利用布隆过滤器,还有一种方法是利用berkeley db来存储url,Berkeley db是一种基于key-value存储的非关系数据库引擎,能够大大提高url判重的效率。
布隆过滤器的简易版本实现:
#include<iostream>
#include<bitset>
#include<string>
#define MAX 2<<24
using namespace std;

bitset<MAX> bloomSet; //简化了由n和p生成m的过程

int seeds[7]={3, 7, 11, 13, 31, 37, 61}; //使用7个hash函数

int getHashValue(string str,int n) //计算Hash值
{
int result=0;
int i;
for(i=0;i<str.size();i++)
{
result=seeds[n]*result+(int)str[i];
if(result > 2<<24)
result%=2<<24;
}
return result;
}

bool isInBloomSet(string str) //判断是否在布隆过滤器中
{
int i;
for(i=0;i<7;i++)
{
int hash=getHashValue(str,i);
if(bloomSet[hash]==0)
return false;
}
return true;
}

void addToBloomSet(string str) //添加元素到布隆过滤器
{
int i;
for(i=0;i<7;i++)
{
int hash=getHashValue(str,i);
bloomSet.set(hash,1);
}
}

void initBloomSet() //初始化布隆过滤器
{
addToBloomSet("http://www..com");
addToBloomSet("http://www.cnblogs.com");
addToBloomSet("http://www.google.com");
}

int main(int argc, char *argv[])
{

int n;
initBloomSet();
while(scanf("%d",&n)==1)
{
string str;
while(n--)
{
cin>>str;
if(isInBloomSet(str))
cout<<"yes"<<endl;
else
cout<<"no"<<endl;
}

}
return 0;
}

阅读全文

与布隆过滤器的思想相关的资料

热点内容
自己建房污水管什么位置 浏览:177
水壶每次烧完水都有水垢 浏览:880
illy胶囊咖啡机除垢模式 浏览:133
分流属于蒸馏吗 浏览:861
电离子去宫颈糜烂效果好吗 浏览:906
300吨污水处理需要什么条件 浏览:598
360浏览器提升下载速度 浏览:826
容声ro34净水机怎么样 浏览:99
太阳能污水处理站运营怎么样 浏览:690
小米饮水机怎么单独接水管 浏览:212
胶南纯净水桶哪里有卖 浏览:807
做保养空气滤芯没换有什么事吗 浏览:556
污水区英语怎么写 浏览:278
含铍的污水怎么处理 浏览:236
生活废水纳管证明哪里开 浏览:646
纳滤和ro的区别 浏览:201
污水综合 浏览:752
小米空净什么时候换滤芯 浏览:647
树脂是加聚反应 浏览:958
纯水养什么最好 浏览:886