MySQL模糊搜索的几种姿势
MySQL根据不同的应用场景,支持的模糊搜索方式有多种,例如应用最广泛的可能是Like匹配和RegExp正则匹配,二者虽然用法和原理都很相似,但实际上匹配原则却不尽相同,其中Like要求模式串与整个目标字段完全匹配才检索该记录,而RegExp则是要求目标字段包含模式串即可。
对于简单的判断模式串是否存在类型的模糊搜索,应用MySQL内置函数即可实现,例如Instr()、Locate()、Position()等。
当然,提到MySQL查询性能就不得不提到索引,对于字段模糊查询需求,我们也可以考虑添加全文索引(Fulltext)。
注:本文所用MySQL版本8.0.19,可视化工具Navicat Primium。
Like
Like算作MySQL中的谓词,其应用与is、=、>和<等符号用法类似。Like主要支持两种通配符,分别是"_"和"%",其中前者代表匹配1个任意字符,常用于充当占位符;而后者代表匹配0个或多个任意字符。从某种意义上讲,Like可看作是一个精简的正则表达式功能。
1SELECT words FROM tests WHERE words LIKE 'hello%';
1SELECT words FROM tests WHERE words LIKE 'hello_%';
另外:当在Like模式字段中,若不包含任何"_"和"%"通配符,则等价于"=",表示精确匹配,例如查询语句……Like "hello",则仅返回hello一条记录;还可在Like前加限定词Not,表示结果取反。
RegExp
正则表达式具有庞大而丰富的语法,MySQL语法中支持绝大部分正则表达式功能,几乎可以满足所有需求。本文不过多展开正则表达式相关介绍,仅在Like的基础上,简单介绍其与Like模糊搜索方式的区别。
1SELECT words FROM tests WHERE words REGEXP 'hello';
1SELECT words FROM tests WHERE words REGEXP '^hello';
内置函数
1SELECT INSTR("hello,world", 'hello');-- 1
2SELECT LOCATE('hello', "hello,world");-- 1
3SELECT POSITION('hello' in "hello, world"); -- 1
1SELECT words FROM tests WHERE INSTR(words, 'hello');
2SELECT words FROM tests WHERE LOCATE('hello', words);
3SELECT words FROM tests WHERE POSITION('hello' in words);
全文索引
抛开索引谈查询性能,都是耍流氓!
1SELECT words FROM tests WHERE MATCH(words) against('hello');
1SELECT MATCH(words) against('hello') FROM tests;
为了对比以上4种模糊搜索方式的性能,我们这里构建一个规模较大且更具一般性的数据表。本文选择采集若干条英文格言,用于创建目标数据库。
-
创建数据表。为简单起见,仅创建一个名为says的字段,且对其添加全文索引。
1CREATE TABLE IF NOT EXISTS sayings(says TEXT, FULLTEXT (says));
英文格言信息获取
1from pyquery import PyQuery as pq
2from pymysql import connect
3
4doc = pq(url='http://www.1juzi.com/new/43141.html', encoding = 'gb18030')
5items=doc("div.content>p:nth-child(2n+1)").items()
6hots = [item.text() for item in items]
7with connect(host="localhost", user="root", password="123456", db='teststr', charset='utf8') as cur:
8 sql_insert = 'insert into sayings values (%s);'
9 for _ in range(100):
10 cur.executemany(sql_insert, hots)
注:如果对pyquery爬虫运用感兴趣,可移步:一文
既然是英文励志格言短句,那么我们就来查询其中包括"success"的记录。
-
首先 查询语句中任意位置包含"success"的记录,4种方式SQL语句及执行时间为:
1-- LIKE通配符
2SELECT says FROM sayings WHERE says LIKE '%success%'
3> OK
4> 时间: 0.036s
5
6-- REGEXP正则匹配
7SELECT says FROM sayings WHERE says REGEXP 'success'
8> OK
9> 时间: 0.053s
10
11-- 内置函数查找
12SELECT says FROM sayings WHERE INSTR(says, 'success')
13> OK
14> 时间: 0.045s
15
16SELECT says FROM sayings WHERE LOCATE('success', says)
17> OK
18> 时间: 0.044s
19
20SELECT says FROM sayings WHERE POSITION('success' in says)
21> OK
22> 时间: 0.047s
23
24-- 全文索引
25SELECT says FROM sayings WHERE MATCH(says) against('Success')
26> OK
27> 时间: 0.006s
可见,全文索引速度最宽,领先其他方式接近一个量级;Like通配符速度其次,但与其他几种查询方式效率相差不大。
全文索引查询计划
Like通配符查询计划
-
查询语句中以"success"开头的记录 (全文索引方式不支持指定单词开头的查询任务),相应SQL语句即执行时间如下:
1SELECT says FROM sayings WHERE says LIKE 'success%'
2> OK
3> 时间: 0.015s
4
5SELECT says FROM sayings WHERE says REGEXP '^success'
6> OK
7> 时间: 0.046s
8
9SELECT says FROM sayings WHERE INSTR(says, 'success')=1
10> OK
11> 时间: 0.042s
12
13SELECT says FROM sayings WHERE LOCATE('success', says)=1
14> OK
15> 时间: 0.051s
16
17SELECT says FROM sayings WHERE POSITION('success' in says)=1
18> OK
19> 时间: 0.049s
20
21SELECT says FROM sayings WHERE MATCH(says) against('Success')
22> OK
23> 时间: 0.007s
Like'success%'仍然无法应用全文索引
所以,得到的结论是Like通配符无法有效利用全文索引加速查询,但在特定模式下的查询速度可快于通配符%模式下的查询。
-
Like通配符用于查询目标字段与模式串完全匹配的记录,且无法应用全文索引提高查询速度,但以特定字符开头的模糊查询比以"%"开头时速度提升明显 -
RegExp正则表达式功能强大,可实现任意模式查询,但执行效率一般 -
简单的子串有无查询还可应用MySQL内置函数,包括Instr()、Locate()和Position()等,用法相近,但效率一般 -
对于包含全文索引的目标字段查询,应用全文索引查询效率最高,但可定制性差,不支持任意匹配查询 -
记录数目较少时,几种查询方式效率均可接受,可根据任务需求灵活选用