如何优化百万级数据的 mysql 模糊搜索
在数据库数据量庞大时,进行模糊搜索操作往往会遇到效率低下的问题。本文重点讨论如何针对一千万级 mysql 数据实现高效的模糊搜索。
常规解法:不可行
一般情况下,无法使用索引进行模糊搜索。因此,每次执行搜索都需要全表扫描,导致性能低下。
索引表法:可行
这里,我们可以借鉴一种简单的索引表方法:
创建一个索引表,其中包含三列:
- 当前词
- 下一词
- 原始记录主键 id
对每一个关键词序列,插入一条记录。例如,对于关键词序列“模糊搜索”,将插入以下记录:
当前词 | 下一词 | 原始记录主键 id |
---|---|---|
模糊 | 搜 | 1 |
搜 | 索 | 1 |
索 | null | 1 |
搜索过程:
- 根据关键词序列中的第一个关键词查询索引表,获取原始记录主键 id。
- 根据主键 id 查询原始记录表,即可获得搜索结果。
例:搜索“模糊搜索”
SELECT DISTINCT 原记录主键ID FROM (SELECT 原记录主键ID FROM 索引表 WHERE 当前词 = '模糊' AND 下一词 = '索') JOIN (SELECT 原记录主键ID FROM 索引表 WHERE 当前词 = '索' AND 下一词 IS NULL) ON 原记录主键ID;
登录后复制
优势:
- 快速高效,搜索时间与关键词序列长度无关
- 不依赖内存,开销较小
限制:
- 索引表会随着数据量的增加而变大
- 需要额外维护索引表
其他方案:
内存加载法:
将数据全部加载到内存中,在内存中执行模糊搜索。该方法速度较快,但内存开销较大。
一切皆文件(everything)搜索法:
everything 使用了一种不同的搜索索引技术,称为文件系统筛选器驱动程序 (fsd)。该驱动程序会监控文件系统更改,并实时更新其索引。everything 可以快速搜索文件内容,模糊搜索也不例外,但它不是一个专门的数据库解决方案。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
【小浪云服务商 - 服务器12元起 - 挂机宝5元起】
THE END
暂无评论内容