① 布隆过滤器和替代算法
布隆过滤器和替代算法:但是布隆过滤器的缺点和优点一样明显。误算率是其中之一。随着存入的元素数量增加,误算率随之增加。但是如果元素数量太少,则使用散列表足矣。
但是包含查找的数据项的数据文件它一定是会返回的,key-value系统中bloom filter返回的数据文件还是需要查看里面的内容才能知道是否存在所需的数据的,这就保证了执行结果的正确性和完整性。
只是多访问一些数据文件而已。在数据量很大key-value系统中,建立统一的B+树索引的代价是非常大的,维护成本也很高,因此综合起来bloom filter的性能是最好的。
缺点:
但是布隆过滤器的缺点和优点一样明显。误算率是其中之一。随着存入的元素数量增加,误算率随之增加。常见的补救办法是建立一个小的白名单,存储那些可能被误判的元素。但是如果元素数量太少,则使用散列表足矣。
另外,一般情况下不能从布隆过滤器中删除元素。我们很容易想到把位列阵变成整数数组,每插入一个元素相应的计数器加1, 这样删除元素时将计数器减掉就可以了。
② 布隆过滤器用的多少个hash函数
相比于其它的抄数据结构,布隆袭过滤器在空间和时间方面都有巨大的优势。布隆过滤器存储空间和插入/查询时间都是常数。另外, Hash函数相互之间没有关系,方便由硬件并行实现。布隆过滤器不需要存储元素本身,在某些对保密要求非常严格的场合有优势。
③ 看过的视频让用户不再观看为什么使用布隆过滤器而不是直接使用setBit与getBit进行取值比对呢
不行。
因为布隆过滤器的原理是用多个hash函数对id进行hash后得到一系列值,而在布隆数组中看这些值回对应答的位上是否命中,如果都命中说明这个值重复。
用id不经过hash直接去对比,乍一想好像可以,但是你想想,假如id是10位,并且我们只用数字,那么布隆过滤器的长度只有10位(0123456789),这个长度的过滤器几乎没法使用,容量太低,误差率太高。即使算上大小写字母,也只有62个,看似62很多,但是这里定死了id必须用这62个字符,而假如中间加一层hash,那id用什么字符和我布隆过滤器用什么字符以及过滤器的长度都可以自由指定,灵活很多。
④ 如何使用bloomfilter构建大型Java缓存系统
在如今的软件当中,缓存是解决很多问题的一个关键概念。你的应用可能会进行CPU密集型运算。你当然不想让这些运算一边又一边的重复执行,相反,你可以只执行一次, 把这个结果放在内存中作为缓存。有时系统的瓶颈在I/O操作上,比如你不想重复的查询数据库,你想把结果缓存起来,只在数据发生变化时才去数据查询来更新缓存。
与上面的情况类似,有些场合下我们需要进行快速的查找来决定如何处理新来的请求。例如,考虑下面这种情况,你需要确认一个URL是否指向一个恶意网站,这种需求可能会有很多。如果我们把所有恶意网站的URL缓存起来,那么会占用很大的空间。或者另一种情况,需要确认用户输入的字符串是包含了美国的地名。像“华盛顿的博物馆”——在这个字符串中,华盛顿是美国的一个地名。我们应该把美国所有的地名保存在内存中然后再查询吗?那样的话缓存会有多大?是否能在不使用数据库的前提下来高效地完成?
这就是为什么我们要跨越基本的数据结构map,在更高级的数据结构像布隆过滤器(bloomfilter)中来寻找答案。你可以把布隆过滤器看做Java中的集合(collection),你可以往它里面添加元素,查询某个元素是否存在(就像一个HashSet)。如果布隆过滤器说没有这个元素,那么可以肯定不含有这个元素,但是如果布隆过滤器说有某个元素,那么这个结果可能是错误的。如果我们在设计布隆过滤器时足够细心,我们可以把这种出错的概率控制在可接受范围内。
解释
布隆过滤器被设计为一个具有N的元素的位数组A(bit array),初始时所有的位都置为0.
添加元素
要添加一个元素,我们需要提供k个哈希函数。每个函数都能返回一个值,这个值必须能够作为位数组的索引(可以通过对数组长度进行取模得到)。然后,我们把位数组在这个索引处的值设为1。例如,第一个哈希函数作用于元素I上,返回x。类似的,第二个第三个哈希函数返回y与z,那么:
A[x]=A[y]=A[z] = 1
查找元素
查找的过程与上面的过程类似,元素将会被会被不同的哈希函数处理三次,每个哈希函数都返回一个作为位数组索引值的整数,然后我们检测位数组在x、y与z处的值是否为1。如果有一处不为1,那么就说明这个元素没有被添加到这个布隆过滤器中。如果都为1,就说明这个元素在布隆过滤器里面。当然,会有一定误判的概率。
算法优化
通过上面的解释我们可以知道,如果想设计出一个好的布隆过滤器,我们必须遵循以下准则:
好的哈希函数能够尽可能的返回宽范围的哈希值。
位数组的大小(用m表示)非常重要:如果太小,那么所有的位很快就都会被赋值为1,这样就增加了误判的几率。
哈希函数的个数(用k表示)对索引值的均匀分配也很重要。
计算m的公式如下:
m = - nlog p / (log2)^2;
这里p为可接受的误判率。
计算k的公式如下:
k = m/n log(2) ;
这里k=哈希函数个数,m=位数组个数,n=待检测元素的个数(后面会用到这几个字母)。
哈希算法
哈希算法是影响布隆过滤器性能的地方。我们需要选择一个效率高但不耗时的哈希函数,在论文《更少的哈希函数,相同的性能指标:构造一个更好的布隆过滤器》中,讨论了如何选用2个哈希函数来模拟k个哈希函数。首先,我们需要计算两个哈希函数h1(x)与h2(x)。然后,我们可以用这两个哈希函数来模仿产生k个哈希函数的效果:
gi(x) = h1(x) + ih2(x);
这里i的取值范围是1到k的整数。
Google guava类库使用这个技巧实现了一个布隆过滤器,哈希算法的主要逻辑如下:
long hash64 = …; //calculate a 64 bit hash function
//split it in two halves of 32 bit hash values
int hash1 = (int) hash64;
int hash2 = (int) (hash64 >>> 32);
//Generate k different hash functions with a simple loop
for (int i = 1; i <= numHashFunctions; i++) {
int nextHash = hash1 + i * hash2;
}
应用
从数学公式中,我们可以很明显的知道使用布隆过滤器来解决问题。但是,我们需要很好地理解布隆过滤器所能解决问题的领域。像我们可以使用布隆过滤器来存放美国的所有城市,因为城市的数量是可以大概确定的,所以我们可以确定n(待检测元素的个数)的值。根据需求来修改p(误判概率)的值,在这种情况下,我们能够设计出一个查询耗时少,内存使用率高的缓存机制。
实现
Google Guava类库有一个实现,查看这个类的构造函数,在这里面需要设置待检测元素的个数与误判率。
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;
//Create Bloomfilter
int expectedInsertions = ….;
double fpp = 0.03; // desired false positive probability
BloomFilter<CharSequence> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charse
⑤ 布隆过滤器的优点
相比于其它的数抄据结袭构,布隆过滤器在空间和时间方面都有巨大的优势。布隆过滤器存储空间和插入/查询时间都是常数。另外, Hash函数相互之间没有关系,方便由硬件并行实现。布隆过滤器不需要存储元素本身,在某些对保密要求非常严格的场合有优势。
布隆过滤器可以表示全集,其它任何数据结构都不能;
k和m相同,使用同一组Hash函数的两个布隆过滤器的交并差运算可以使用位操作进行。
布隆过滤器
⑥ 布隆过滤器的缺点
但是布隆过滤器的缺点和优点一样明显。误算率是其中之一。随着存入的专元素数量增加,属误算率随之增加。但是如果元素数量太少,则使用散列表足矣。
另外,一般情况下不能从布隆过滤器中删除元素。我们很容易想到把位列阵变成整数数组,每插入一个元素相应的计数器加1, 这样删除元素时将计数器减掉就可以了。然而要保证安全的删除元素并非如此简单。首先我们必须保证删除的元素的确在布隆过滤器里面. 这一点单凭这个过滤器是无法保证的。另外计数器回绕也会造成问题。
在降低误算率方面,有不少工作,使得出现了很多布隆过滤器的变种。
⑦ 如何用布隆过滤器去重mysql
在数据库中创建字段的UNIQUE属性
在数据库中创建一个唯一的索引,在插入数据之前检查待插入的数据是否存在
使用Set或HashSet保存数据,确保唯一
⑧ 如何用python写布隆过滤器
下面的是网络上找到的python的布隆过滤器的实现.
#!/usr/local/bin/python2.7
#coding=gbk
'''
Createdon2012-11-7
@author:palydawn
'''
importcmath
fromBitVectorimportBitVector
classBloomFilter(object):
def__init__(self,error_rate,elementNum):
#计算所需要的bit数
self.bit_num=-1*elementNum*cmath.log(error_rate)/(cmath.log(2.0)*cmath.log(2.0))
#四字节对齐
self.bit_num=self.align_4byte(self.bit_num.real)
#分配内存
self.bit_array=BitVector(size=self.bit_num)
#计算hash函数个数
self.hash_num=cmath.log(2)*self.bit_num/elementNum
self.hash_num=self.hash_num.real
#向上取整
self.hash_num=int(self.hash_num)+1
#产生hash函数种子
self.hash_seeds=self.generate_hashseeds(self.hash_num)
definsert_element(self,element):
forseedinself.hash_seeds:
hash_val=self.hash_element(element,seed)
#取绝对值
hash_val=abs(hash_val)
#取模,防越界
hash_val=hash_val%self.bit_num
#设置相应的比特位
self.bit_array[hash_val]=1
#检查元素是否存在,存在返回true,否则返回false
defis_element_exist(self,element):
forseedinself.hash_seeds:
hash_val=self.hash_element(element,seed)
#取绝对值
hash_val=abs(hash_val)
#取模,防越界
hash_val=hash_val%self.bit_num
#查看值
ifself.bit_array[hash_val]==0:
returnFalse
returnTrue
#内存对齐
defalign_4byte(self,bit_num):
num=int(bit_num/32)
num=32*(num+1)
returnnum
#产生hash函数种子,hash_num个素数
defgenerate_hashseeds(self,hash_num):
count=0
#连续两个种子的最小差值
gap=50
#初始化hash种子为0
hash_seeds=[]
forindexinxrange(hash_num):
hash_seeds.append(0)
forindexinxrange(10,10000):
max_num=int(cmath.sqrt(1.0*index).real)
flag=1
fornuminxrange(2,max_num):
ifindex%num==0:
flag=0
break
ifflag==1:
#连续两个hash种子的差值要大才行
ifcount>0and(index-hash_seeds[count-1])<gap:
continue
hash_seeds[count]=index
count=count+1
ifcount==hash_num:
break
returnhash_seeds
defhash_element(self,element,seed):
hash_val=1
forchinstr(element):
chval=ord(ch)
hash_val=hash_val*seed+chval
returnhash_val
'''
#测试代码
bf=BloomFilter(0.001,1000000)
element='palydawn'
bf.insert_element(element)
printbf.is_element_exist('palydawn')'''
#其中使用了BitVector库,python本身的二进制操作看起来很麻烦,这个就简单多了
如果解决了您的问题请采纳!
如果未解决请继续追问
⑨ 用python安装布隆过滤器报错,这怎么解决
但是布隆过滤器的缺点和优点一样明显。误算率是其中之一。随着存入的元素数量增回加,误算率随之增答加。但是如果元素数量太少,则使用散列表足矣。另外,一般情况下不能从布隆过滤器中删除元素。我们很容易想到把位列阵变成整数数组
⑩ 布隆过滤器既然有错误率,为什么还能应用在key-value系统中
bloom filter的特点是会出现误报,但不会漏报,也就是说对于bloom filter验证的一个数据内文件,可能不包含容你查找的数据项,但是包含你查找的数据项的数据文件它一定是会返回的,key-value系统中bloom filter返回的数据文件还是需要查看里面的内容才能知道是否存在所需的数据的,这就保证了执行结果的正确性和完整性。因此key-value系统不会因此而出错的,只是多访问一些数据文件而已。在数据量很大key-value系统中,建立统一的B+树索引的代价是非常大的,维护成本也很高,因此综合起来bloom filter的性能是最好的。