2000W 个不重复的 32 位长字符串存于 mysql 中，现在怎样判断该数据表中存在某个特定值？

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 3401 days ago, the information mentioned may be changed or developed.

目前的业务逻辑是，有 2000W 个 32 位长字符串存在 mysql 中，该 mysql 表就只有 2 个字段，自增 id 和 hash ，现在要验证这个表中是否存在某个 hash 值，怎样用最简单快速的方法查询？我想到过用 redis 来存，但是内存吃不消，有没有好的解决方案？谢谢

MySQL

Hash

字符

Redis

37 replies • 2017-04-15 21:57:32 +08:00

eote

Feb 15, 2017

排序+binary search

eote

Feb 15, 2017

或者 bitmap

forestyuan

Feb 15, 2017

建个索引然后用 SQL 查询就行了吧

withlqs

Feb 15, 2017

字典树

Reign

Feb 15, 2017 via iPhone

@forestyuan 感觉有点慢硬盘很渣

allenhu

Feb 15, 2017

加多一列 crc ，存 crc32 （ hash ），然后加 index idx_crc(crc32),配合缓存，速度不会太慢。

freeminder

Feb 15, 2017

bloom filter?

liuxu

Feb 15, 2017

这。。该 hash 分表了，根据 hash 最后 2-3 位分成 100-1000 个表。

XiaoFaye

Feb 15, 2017

@Reign 升级硬件能解决的问题，绝对不要浪费技术人员的时间。极有可能所花时间的价值已经远远超过硬件的价值。

w2exzz

Feb 15, 2017

显然是再增加一列啊……这一列保存 hash 值…… hash 值留 8 位就行了

然后搜索的时候先匹配 hash 值，匹配到了再匹配全部内容。都一致就找到了。
hash 不一致就 pass

forestyuan

Feb 15, 2017

如果自己写算法，一来容易有 BUG ，二来也不一定比数据库引擎优化的好。

Michaelssss

Feb 15, 2017

2000W 好像建个索引就完事了。。。。这数据量不大。。。 5~10MS 都出来了。。。
redis 你没必要全部扔进去啊，- -查询成功一次扔一次，缓存成功就直接走缓存，缓存失败再去 mysql ，这才是缓存的意义啊

Michaelssss

Feb 15, 2017

如果要自己写算法就是 boolean filter

jianzhiyao020

Feb 15, 2017

建索引啊，有这么复杂？

cloudzhou

Feb 15, 2017

@allenhu 方法可行

另外有一个取巧的方法，需要更改一下业务：
就是 hash 里面隐含着 id

我详细解释一下，比如在生成 hash 的时候（大部分是随机值）
hash 值为空，先 save 一下，得到自增 id ，比如 1000 ，然后简单的用 36 进制表示，就是 rs
然后命名规则如下：
1 位是表示 36 进制长度 + N 位是 36 进制值 + （ 32-1-N ）位随机值

然后 update set hash = '...' where id = 1000 更新进去

例子，比如 1000 ，那么表示为 2rs...
这样， hash 里面直接可以获取 id ，然后取出来直接进行字符匹配，判断是否正确。

allenhu

Feb 15, 2017

@cloudzhou 嗯，这个问题，不知道的还一通乱答， v 站水平也是参差不齐。

allenhu

Feb 15, 2017

@cloudzhou 你说的这个方法有点意思，但是好像并不能解决 lz 说的问题，因为一开始，你是没法知道自增 id 是多少的，你知道的只是后面那部分

manhere

Feb 15, 2017

彩虹表？

Abirdcfly

Feb 15, 2017 via iPhone

建索引，挺快的。

ichou

Feb 15, 2017 via iPhone

2000 万数据量不大啊，感觉有索引不至于慢到不能接受哦

ichou

Feb 15, 2017 via iPhone

@cloudzhou 你不觉得你多了一次写入么，哈哈
如果要保证原子性，你还必须要加上事务，写并发一旦飙起来，扑街

luban

Feb 15, 2017 via iPhone

redis 开压缩，两三 G 内存吧

billlee

Feb 15, 2017

才两千万，直接建索引足够了

xfwduke

Feb 15, 2017

有效数据行长度 40 bytes
2000kw 数据 762MB
算上 Innodb 的空洞, 各种乱七八糟的元数据, 3GB 差不多了吧
这点数据, 写算法都多余, 建个索引

就现在服务器的内存量, 最后整个索引估计都在 buffer pool 里面.
别说服务器了, 桌面机都能搞定, 并发访问不大的话

shiny

PRO

Feb 15, 2017

做索引，而且不需要整个字符串都在索引里面。

ryd994

Feb 16, 2017 via Android

hash 不要用 hex 字符串存，用二进制字符串或者 binary 类

ryd994

Feb 16, 2017 via Android

另外楼上有说取前几位加列的，你们真的懂数据库索引么？
索引 n 叉树结构本来就是先比较前面的
如果后几位的随机性比前几位好的话，取后几位做联合索引，或者用于分表，倒是有的
换句话说，如果这种技巧有用，数据库自己早就该用了

azh7138m

Feb 16, 2017 via Android

彩虹表吧，之前黄易那个我算完是 7500w 条， MySQL 分下表就好了，其他优化不做查起来也是快的飞起

jsou

Feb 16, 2017

才 2000w 数据,建个索引,一个 where 条件不就出来了.
如果这都要优化这优化那的,那这数据库软件就不能用了.

ijustdo

Feb 16, 2017

把这个 32 位串当做表的主键

Septembers

Feb 16, 2017

直接建立个 Hash Index 吧
see https://dev.mysql.com/doc/refman/5.7/en/index-btree-hash.html

Septembers

Feb 16, 2017

Hex String 直接 string 储存开销有点大
可用固长 binary 储存可获得小一半的开销（同时也能降低索引的储存开销）
see https://dev.mysql.com/doc/refman/5.7/en/binary-varbinary.html

abccoder

Feb 16, 2017

建立索引直接搞

ijustdo

Feb 16, 2017

别在 yy 其它建撒索引了把这个 32 位串当做表的主键这样最快不行你们可以试试看

realpg

PRO

Feb 19, 2017

高度怀疑楼主只是在编问题，根本没有这个环境进行测试

首先使用我的专用低性能测试机（用于测试程序性能） MYSQL 导入 2000W 条记录，插入 2000W 条数据用时 2787 秒(因为生成随机串的发生器有一定不随机性，生成了一部分重复数据，实际数据量 19787975 条，近似当两千万看吧懒得继续插了)

结构（索引情况）

服务器配置：
AMD 不知道啥时候的双核低端 CPU ， 2G*2 DDR2 800 内存，硬盘 500G 普通 SATA 淘汰硬盘

随便从库里找 50 个串进行搜索，使用 SQL NO CACHE 同时每个数据只查一次避免其他缓存干扰

执行时间均为 0.00002 秒

realpg

PRO

Feb 19, 2017

不小心发出去了
插入两千万条数据用了将近 3000 秒，对我的破机器 IO 性能有直接概念了吧
DDR2 内存时期的古董双核 AMD 入门 CPU ，执行性能也有概念了吧
索引直接加在 hash_id 上，未限定索引长度，全默认，唯一索引

直接检索，都是 0.0002 秒这个量级，检索过一次产生缓存以后，每次查询都是 0.0001

mingyun

Apr 15, 2017

@realpg 赞实践