千家信息网

Redis去重的方法有哪些

发表于:2025-11-14 作者:千家信息网编辑
千家信息网最后更新 2025年11月14日,本篇内容主要讲解"Redis去重的方法有哪些",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"Redis去重的方法有哪些"吧!唯一计数是网站系统中十分常见的一
千家信息网最后更新 2025年11月14日Redis去重的方法有哪些

本篇内容主要讲解"Redis去重的方法有哪些",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"Redis去重的方法有哪些"吧!


唯一计数是网站系统中十分常见的一个功能特性,例如网站需要统计每天访问的人数 unique visitor (也就是 UV)。计数问题很常见,但解决起来可能十分复杂:一是需要计数的量可能很大,比如大型的站点每天有数百万的人访问,数据量相当大;二是通常还希望扩展计数的维度,比如除了需要每天的 UV,还想知道每周或每月的 UV,这样导致计算十分复杂。

在关系数据库存储的系统里,实现唯一计数的方法就是 select count(distinct ),它十分简单,但是如果数据量很大,这个语句执行是很慢的。用关系数据库另外一个问题是插入数据性能也不高。

Redis 解决这类计数问题得心应手,相比关系数据库速度更快,消耗资源更少,甚至提供了 3 种不同的方法。

1.基于 set

Redis 的 set 用于保存唯一的数据集合,通过它可以快速判断某一个元素是否存在于集合中,也可以快速计算某一个集合的元素个数,另外和可以合并集合到一个新的集合中。涉及的命令如下:

复制代码 代码如下:

SISMEMBER key member  # 判断 member 是否存在SADD key member  # 往集合中加入 memberSCARD key   # 获取集合元素个数

基于 set 的方法简单有效,计数精确,适用面广,易于理解,它的缺点是消耗资源比较大(当然比起关系数据库是少很多的),如果元素个数很大(比如上亿的计数),消耗内存很恐怖。

2.基于 bit

Redis 的 bit 可以用于实现比 set 内存高度压缩的计数,它通过一个 bit 1 或 0 来存储某个元素是否存在信息。例如网站唯一访客计数,可以把 user_id 作为 bit 的偏移量 offset,设置为 1 表示有访问,使用 1 MB的空间就可以存放 800 多万用户的一天访问计数情况。涉及的命令如下: 复制代码 代码如下:

SETBIT key offset value  # 设置位信息GETBIT key offset        # 获取位信息BITCOUNT key [start end] # 计数BITOP operation destkey key [key ...]  # 位图合并

基于 bit 的方法比起 set 空间消耗小得多,但是它要求元素能否简单映射为位偏移,适用面窄了不少,另外它消耗的空间取决于最大偏移量,和计数值无关,如果最大偏移量很大,消耗内存也相当可观。

3.基于 HyperLogLog

实现超大数据量精确的唯一计数都是比较困难的,但是如果只是近似的话,计算科学里有很多高效的算法,其中 HyperLogLog Counting 就是其中非常著名的算法,它可以仅仅使用 12 k左右的内存,实现上亿的唯一计数,而且误差控制在百分之一左右。涉及的命令如下: 复制代码 代码如下:

PFADD key element [element ...]  # 加入元素PFCOUNT key [key ...]   # 计数

这种计数方法真的很神奇,其中涉及到统计学中的一些均匀分布、随机概率、伯努利分布等,我也没有彻底弄明白,有兴趣可以深入研究相关文章。

redis 提供的这三种唯一计数方式各有优劣,可以充分满足不同情况下的计数要求。

4. 基于bloomfilter

BloomFilter是利用类似位图或者位集合数据结构来存储数据,利用位数组来简洁的表示一个集合,并且能够快速的判断一个元素是不是已经存在于这个集合。虽然BloomFilter不是100%准确,但是可以通过调节参数,使用Hash函数的个数,位数组的大小来降低失误率。这样调节完全可以把失误率降低到接近于0。可以满足大部分场景了。

假如此时有一个集合S = {x1, x2, … xn},Bloom Filter使用k个独立的hash函数,分别将集合中的每一个元素映射到{1,…,m}的范围。对于任何一个元素,被映射到的数字作为对应的位数组的索引,该位会被置为1。比如元素x1被hash函数映射到数字8,那么位数组的第8位就会被置为1。下图中集合S只有两个元素x和y,分别被3个hash函数进行映射,映射到的位置分别为(0,3,6)和(4,7,10),对应的位会被置为1:

现在假如要判断另一个元素是否是在此集合中,只需要被这3个hash函数进行映射,查看对应的位置是否有0存在,如果有的话,表示此元素肯定不存在于这个集合,否则有可能存在。

redis使用布隆过滤器需要安装插件:https://blog.csdn.net/u013030276/article/details/88350641

到此,相信大家对"Redis去重的方法有哪些"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

元素 数据 方法 代码 消耗 函数 很大 个数 位数 内存 数据库 网站 偏移 信息 命令 空间 问题 存储 不同 复杂 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 南方电网网络安全专业怎么样 数据库应用技术海南联盟答案 计算机网络安全学院介绍 幼儿园校园网络安全知识竞赛 金山区品质软件开发生产厂家 计算机网络安全技术怎么就业 局域网影音服务器 问道开服必须要用云服务器吗 腾讯数据库性能挑战 海珠高端网络安全建设 手机版方舟有哪些服务器 网络安全加班多吗 量子信息网络安全吗 云南大学 迪博数据库 新苹果手机换机后无法连接服务器 软件开发最常用的笔记本 福建pdu服务器电源厂商有哪些 魔兽世界2.43珠宝数据库 求电子科技互联网类小说 服务器断电了平台会自动启动吗 台湾的学术数据库用哪个 数据库定点小数 邓州软件开发专业 东数西算工程服务器的前景 小黑课堂之网络安全 华为存储服务器登陆地址 公司邮件服务器租用 软件开发的语言基础知识 一个服务器可以搭建几个青龙面板 宿豫网络安全
0