强烈建议你试试无所不能的chatGPT，快点击我

MySQL必知必会 -- 全文本搜索

阅读量：4204 次

发布时间：2019-05-26

本文共 1888 字，大约阅读时间需要 6 分钟。

两个最常使用的引擎为MyISAM和InnoDB，前者支持全文本搜索，而后者不支持。

在前面我们通过 LIKE 关键字和正则表达式可以进行一些比较复杂的匹配，

但他们仍存在一些缺陷：

性能：能——通配符和正则表达式匹配通常要求MySQL尝试匹配表中所有行（而且这些搜索极少使用表索引）。因此，由于被搜索行数不断增加，这些搜索可能非常耗时。

明确控制——使用通配符和正则表达式匹配，很难（而且并不总是能）明确地控制匹配什么和不匹配什么。

智能化的结果——虽然基于通配符和正则表达式的搜索提供了非常灵活的搜索，但它们都不能提供一种智能化的选择结果的方法。

使用全文本搜索

一般在创建表时启用全文本搜索。CREATE TABLE语句接受FULLTEXT子句，

在索引之后，SELECT可与 Match() 和 Against() 一起使用以实际执行搜索。

在这里插入图片描述

针对 note_text 列进行全文本搜索。

使用两个函数Match()和Against()执行全文本搜索：

在这里插入图片描述

在这里插入图片描述

Against() 中指定了它以 rabbit 作为搜索表达式，由于有两行中有rabbit 所以返回了两行。

而且第一行中rabbit 在第三个位置，第二行在第20个位置，所以全文本搜索会进行按等级排序，越靠前等级值越高，如果没有rabbit 则等级值为0，且不返回行。

如果指定多个搜索项，则包含多数匹配词的那些行将具有比包含较少词（或仅有一个匹配）的那些行高的等级值。

使用扩展查询

查询扩展用来放宽所返回的全文本搜索结果的范围。

在使用查询扩展时，MySQL对数据和索引进行两遍扫描来完成搜索：

首先，进行一个基本的全文本搜索，找出与搜索条件匹配的所有行；

其次，MySQL检查这些匹配行并选择所有有用的词（我们将会简要地解释MySQL如何断定什么有用，什么无用）。

再其次，MySQL再次进行全文本搜索，这次不仅使用原来的条件，而且还使用所有有用的词。

利用查询扩展，能找出可能相关的结果，即使它们并不精确包含所查找的词。

在这里插入图片描述

查询扩展：

在这里插入图片描述

在这里插入图片描述

第一行包含词anvils，因此等级最高。

第二行与anvils无关，但因为它包含第一行中的两个词（customer和recommend），所以也检索出来。

第3行也包含这两个相同的词

布尔文本搜索

布尔方式（booleanmode）是全文本搜索的另外一种形式。以布尔方式，可以提供如下：

要匹配的词；

要排斥的词（如果某行包含这个词，则不返回该行，即使它包含其他指定的词也是如此）；

排列提示（指定某些词比其他词更重要，更重要的词等级更高）；

表达式分组；

另外一些内容。

即使没有定义 FULLTEXT 索引，也可以使用它。

在这里插入图片描述

加入表达式:

在这里插入图片描述

-rope* 明确地指示MySQL排除包含rope*（任何以rope开始的词，包括ropes）的行.

布尔操作符

在这里插入图片描述

例举：

在这里插入图片描述

但是要注意一点，虽然他们有等级值，但是在布尔方式中，不按等级值降序排序返回的行。

创建索引

索引相当于一个目录，会大大提升搜索效率，

但是要注意索引太多会影响插入和更新的效率，因为插入是同样需要更新索引文件，而且它占用磁盘，所以不能创建太多的索引

create index 索引名 on 表名(字段名(长度))	#字符串的时候需要指定长度drop index 索引名show index from 索引名show index from 表名 #查看表的索引#当我们创建主键和外建时，就会自动创建索引#可以这样查看所用的时间：set profiles = 1;show profiles;就可以查看每条语句的执行时间了

补充说明：

在索引全文本数据时，短词被忽略且从索引中排除。短词定义为那些具有3个或3个以下字符的词（如果需要，这个数目可以更改）。

MySQL带有一个内建的非用词（stopword）列表，这些词在索引全文本数据时总是被忽略。如果需要，可以覆盖这个列表（请参阅MySQL文档以了解如何完成此工作）。

许多词出现的频率很高，搜索它们没有用处（返回太多的结果）。因此，MySQL规定了一条50%规则，如果一个词出现在50%以上的行中，则将它作为一个非用词忽略。50%规则不用于IN BOOLEANMODE。

如果表中的行数少于3行，则全文本搜索不返回结果（因为每个词或者不出现，或者至少出现在50%的行中）。

忽略词中的单引号。例如，don’t索引为dont。

不具有词分隔符（包括日语和汉语）的语言不能恰当地返回全文本搜索结果。

如前所述，仅在MyISAM数据库引擎中支持全文本搜索。

转载地址：http://byxli.baihongyu.com/

你可能感兴趣的文章

论文浅尝 | 融合多粒度信息和外部语言知识的中文关系抽取

论文浅尝 | GMNN: Graph Markov Neural Networks

廖雪峰Python教程学习笔记3 hello.py

从内核看epoll的实现（基于5.9.9）

python与正则表达式

安装.Net Framework 4.7.2时出现“不受信任提供程序信任的根证书中终止”的解决方法

input type=“button“与input type=“submit“的区别

解决Github代码下载慢问题！

1.idea中Maven创建项目及2.对idea中生命周期的理解3.pom文件夹下groupId、artifactId含义

LeetCode-栈|双指针-42. 接雨水

stdin,stdout,stderr详解

Linux文件和设备编程

文件描述符

终端驱动程序：几个简单例子

登录linux密码验证很慢的解决办法

fcntl函数总结

HTML条件注释

Putty远程服务器的SSH经验

内核态与用户态

使用mingw(fedora)移植virt-viewer

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-09-25 07:20:14 当前IP: 18.226.96.155 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我