电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

MySQL 全文檢索的使用示例

瀏覽:141日期:2023-10-02 07:51:14
目錄1. 環(huán)境準(zhǔn)備2. 數(shù)據(jù)準(zhǔn)備3. 開(kāi)始表演4. 分詞引擎總結(jié)參考資料1. 環(huán)境準(zhǔn)備

MySQL 5.7.6之前,全文索引只支持英文全文索引,不支持中文全文索引,需要利用分詞器把中文段落預(yù)處理拆分成單詞,然后存入數(shù)據(jù)庫(kù)。 MySQL 5.7.6開(kāi)始,MySQL內(nèi)置了ngram全文解析器,用來(lái)支持中文、日文、韓文分詞。 本文使用的MySQL 版本是5.7.22,InnoDB數(shù)據(jù)庫(kù)引擎。

所以這里需要MySQL的版本大于5.7.6

-- 查看mysql的版本mysql> select version();+-----------+| version() |+-----------+| 5.7.33 |+-----------+1 row in set (0.02 sec)

在 mysql 配置文件中添加分詞以及最小詞語(yǔ)長(zhǎng)度 (如果已經(jīng)配置可以忽略)

ft_min_word_len 最小字符長(zhǎng)度默認(rèn)為 4,在英文條件下確實(shí)比較合理中文情況下需要修改;

ngram_token_size 分詞的最小長(zhǎng)度 舉個(gè)例子 不同長(zhǎng)度對(duì) 你好世界 的分詞

n=1: ’你’, ’好’, ’世’, ’界’ n=2: ’你好’, ’好世’, ’世界’ n=3: ’你好世’, ’好世界’ n=4: ’你好世界’

# /etc/mysql/mysql.conf.d/mysqld.cnfft_min_word_len = 2ngram_token_size = 2# 如果沒(méi)有則新增配置echo ’ft_min_word_len = 2ngram_token_size = 2’ >> mysqld.cnf# 重啟服務(wù)/etc/init.d/mysql restart

-- 查看配置mysql> SHOW VARIABLES LIKE ’ft_min_word_len’;SHOW VARIABLES LIKE ’ngram_token_size’;+-----------------+-------+| Variable_name | Value |+-----------------+-------+| ft_min_word_len | 2 |+-----------------+-------+1 row in set (0.02 sec) +------------------+-------+| Variable_name | Value |+------------------+-------+| ngram_token_size | 2 |+------------------+-------+1 row in set (0.03 sec)2. 數(shù)據(jù)準(zhǔn)備

-- mysql 于全文檢索的demomysql> CREATE TABLE `articles` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `title` varchar(50) DEFAULT NULL COMMENT ’主題’, `content` longtext NOT NULL COMMENT ’內(nèi)容’, PRIMARY KEY (`id`), FULLTEXT KEY `title_content_index` (`content`,`title`) /*!50100 WITH PARSER `ngram` */ ) ENGINE=InnoDB AUTO_INCREMENT=7 DEFAULT CHARSET=utf8;Query OK, 0 rows affected (0.20 sec) mysql> INSERT INTO articles (`title`, `content`) VALUES(’如果’,’今生今世 永不再將你想起 除了除了在有些個(gè)因落淚而濕潤(rùn)的夜里 如果如果你愿意’),(’愛(ài)情’,’有一天路標(biāo)遷了希望你能從容有一天橋墩斷了希望你能渡越有一天棟梁倒了希望你能堅(jiān)強(qiáng)有一天期待蔫了希望你能理解’),(’遠(yuǎn)和近’,’你 一會(huì)看我一會(huì)看云我覺(jué)得你看我時(shí)很遠(yuǎn)你看云時(shí)很近’),(’斷章’,’你站在橋上看風(fēng)景,看風(fēng)景人在樓上看你。明月裝飾了你的窗子,你裝飾了別人的夢(mèng)。’),(’獨(dú)語(yǔ)’,’我向你傾吐思念你如石像沉默不應(yīng)如果沉默是你的悲抑你知道這悲抑最傷我心’);Query OK, 5 rows affected (0.08 sec)Records: 5 Duplicates: 0 Warnings: 0 mysql> SELECT * from articles where match(content, title) against(’風(fēng)景’ in NATURAL LANGUAGE MODE) LIMIT 10;+----+--------+--------------------------------------------------------------------------------------------------------------------------+| id | title | content |+----+--------+--------------------------------------------------------------------------------------------------------------------------+| 10 | 斷章 | 你站在橋上看風(fēng)景,看風(fēng)景人在樓上看你。明月裝飾了你的窗子,你裝飾了別人的夢(mèng)。 |+----+--------+--------------------------------------------------------------------------------------------------------------------------+1 row in set (0.02 sec)3. 開(kāi)始表演 自然語(yǔ)言模式(NATURAL LANGUAGE MODE)

自然語(yǔ)言模式是MySQL 默認(rèn)的全文檢索模式。自然語(yǔ)言模式不能使用操作符,不能指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)等復(fù)雜查詢。

布隆模式(BOOLEAN MODE)

BOOLEAN模式可以使用操作符,可以支持指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)或者關(guān)鍵詞的權(quán)重高還是低等復(fù)雜查詢。

查詢擴(kuò)展(QUERY EXPANSION)

查詢的結(jié)果不僅匹配出結(jié)果同時(shí)可以聯(lián)想出其他你需要的結(jié)果。(類似關(guān)聯(lián)查詢,但是官網(wǎng)推薦僅支持短語(yǔ)查詢 否則會(huì)出現(xiàn)很多臟數(shù)據(jù))

-- 自然語(yǔ)言模式(NATURAL LANGUAGE MODE)查詢并得到評(píng)分mysql> SELECT id, title, MATCH ( content, title ) against ( ’風(fēng)景’ IN NATURAL LANGUAGE MODE ) AS score FROM articles;+----+-----------+--------------------+| id | title | score |+----+-----------+--------------------+| 7 | 如果 | 0 || 8 | 愛(ài)情 | 0 || 9 | 遠(yuǎn)和近 | 0 || 10 | 斷章 | 0.9771181344985962 || 11 | 獨(dú)語(yǔ) | 0 |+----+-----------+--------------------+5 rows in set (0.02 sec)-- 布隆模式(BOOLEAN MODE) 可以組合查詢mysql> SELECT id, title FROM articles where MATCH ( content, title ) against ( ’+風(fēng)景 -愛(ài)情’ IN BOOLEAN MODE );+----+--------+| id | title |+----+--------+| 10 | 斷章 |+----+--------+1 row in set (0.01 sec)-- 查詢擴(kuò)展(QUERY EXPANSION) 可以聯(lián)想出其他結(jié)果 mysql> SELECT id, title FROM articles where MATCH ( content, title ) against ( ’風(fēng)景’ WITH QUERY EXPANSION );+----+--------+| id | title |+----+--------+| 10 | 斷章 || 11 | 獨(dú)語(yǔ) |+----+--------+2 rows in set (0.02 sec) 4. 分詞引擎

目前官網(wǎng) MeCab Full-Text Parser 有支持日語(yǔ)的分詞插件(可以更好的理解語(yǔ)義)

內(nèi)置的 full-text parser 因?yàn)橛⑽闹袉卧~的邊界默認(rèn)是空格,所以在處理英文文本時(shí)可以簡(jiǎn)單的使用空格作為分隔符。但是在處理中文時(shí)需要理解語(yǔ)義的基礎(chǔ)上進(jìn)行有效的分詞,所以在處理中文、日文、韓文MySQL 提供了 ngram full-text (本文的配置就是 基于ngram的中文分詞)

總結(jié)

優(yōu)點(diǎn)

對(duì)比 like 查詢效率有提升(具體提升的測(cè)試沒(méi)有做) 全文搜索可以同時(shí)對(duì)多個(gè)字段做索引,like只能對(duì)單一字段搜索

對(duì)于中文的分詞可能需要在理解語(yǔ)義的基礎(chǔ)上才能有效的分詞;比如上文中的 你好世界(hello world)對(duì)于英文按空格切分就可以,中文則需要理解語(yǔ)義的基礎(chǔ)才能分成 你好/世界。

這里分享一下python中jieba分詞,有助于理解中文分詞的魅力

結(jié)巴分詞利用一個(gè)中文詞庫(kù),通過(guò)詞庫(kù)計(jì)算漢字之間構(gòu)成詞語(yǔ)的關(guān)聯(lián)概率,所以通過(guò)計(jì)算漢字之間的概率,就可以形成分詞的結(jié)果。

In [1]: import jiebaIn [2]: jieba.lcut('你好世界')Building prefix dict from the default dictionary ...Dumping model to file cache /var/folders/st/b16fyn3s57x_5vszjl599njw0000gn/T/jieba.cacheLoading model cost 0.937 seconds.Prefix dict has been built successfully.Out[2]: [’你好’, ’世界’]In [3]: jieba.lcut('hello world')Out[3]: [’hello’, ’ ’, ’world’]

對(duì)于一般的項(xiàng)目mysql的全文索引可以解決80%的需求,它可以較為完美的支持中文的檢索、自動(dòng)分詞、結(jié)果排序、組合查詢等功能;但性能應(yīng)該是瓶頸,Elastissearch可以友好的實(shí)現(xiàn)全文檢索。

全文索引不能達(dá)到like的效果,連著的語(yǔ)句會(huì)因?yàn)榉衷~形成多個(gè)詞語(yǔ)。

參考資料

Mysql fulltext

以上就是MySQL 全文檢索的使用示例的詳細(xì)內(nèi)容,更多關(guān)于MySQL 全文檢索的使用的資料請(qǐng)關(guān)注好吧啦網(wǎng)其它相關(guān)文章!

標(biāo)簽: MySQL 數(shù)據(jù)庫(kù)
相關(guān)文章:
主站蜘蛛池模板: 吹塑加工_大型吹塑加工_滚塑代加工-莱力奇吹塑加工有限公司 | 对夹式止回阀_对夹式蝶形止回阀_对夹式软密封止回阀_超薄型止回阀_不锈钢底阀-温州上炬阀门科技有限公司 | 粘度计NDJ-5S,粘度计NDJ-8S,越平水分测定仪-上海右一仪器有限公司 | 发电机组|柴油发电机组-批发,上柴,玉柴,潍柴,康明斯柴油发电机厂家直销 | 砂石生产线_石料生产线设备_制砂生产线设备价格_生产厂家-河南中誉鼎力智能装备有限公司 | 湖南长沙商标注册专利申请,长沙公司注册代理记账首选美创! | 对夹式止回阀_对夹式蝶形止回阀_对夹式软密封止回阀_超薄型止回阀_不锈钢底阀-温州上炬阀门科技有限公司 | 创富网-B2B网站|供求信息网|b2b平台|专业电子商务网站 | 背压阀|减压器|不锈钢减压器|减压阀|卫生级背压阀|单向阀|背压阀厂家-上海沃原自控阀门有限公司 本安接线盒-本安电路用接线盒-本安分线盒-矿用电话接线盒-JHH生产厂家-宁波龙亿电子科技有限公司 | 环氧乙烷灭菌器_压力蒸汽灭菌器_低温等离子过氧化氢灭菌器 _低温蒸汽甲醛灭菌器_清洗工作站_医用干燥柜_灭菌耗材-环氧乙烷灭菌器_脉动真空压力蒸汽灭菌器_低温等离子灭菌设备_河南省三强医疗器械有限责任公司 | 纯化水设备-纯水设备-超纯水设备-[大鹏水处理]纯水设备一站式服务商-东莞市大鹏水处理科技有限公司 | 半自动预灌装机,卡式瓶灌装机,注射器灌装机,给药器灌装机,大输液灌装机,西林瓶灌装机-长沙一星制药机械有限公司 | Maneurop/美优乐压缩机,活塞压缩机,型号规格,技术参数,尺寸图片,价格经销商 | 真空搅拌机-行星搅拌机-双行星动力混合机-广州市番禺区源创化工设备厂 | 合肥制氮机_合肥空压机厂家_安徽真空泵-凯圣精机 | 400电话_400电话申请_888元包年_400电话办理服务中心_400VIP网 | 广州食堂承包_广州团餐配送_广州堂食餐饮服务公司 - 旺记餐饮 | 外贸资讯网 - 洞悉全球贸易,把握市场先机| 温州在线网| _网名词典_网名大全_qq网名_情侣网名_个性网名 | 深圳美安可自动化设备有限公司,喷码机,定制喷码机,二维码喷码机,深圳喷码机,纸箱喷码机,东莞喷码机 UV喷码机,日期喷码机,鸡蛋喷码机,管芯喷码机,管内壁喷码机,喷码机厂家 | 建筑资质代办-建筑企业资质代办机构-建筑资质代办公司 | 武汉天安盾电子设备有限公司 - 安盾安检,武汉安检门,武汉安检机,武汉金属探测器,武汉测温安检门,武汉X光行李安检机,武汉防爆罐,武汉车底安全检查,武汉液体探测仪,武汉安检防爆设备 | 铝镁锰板厂家_进口钛锌板_铝镁锰波浪板_铝镁锰墙面板_铝镁锰屋面-杭州军晟金属建筑材料 | 暖气片十大品牌厂家_铜铝复合暖气片厂家_暖气片什么牌子好_欣鑫达散热器 | 低压载波电能表-单相导轨式电能表-华邦电力科技股份有限公司-智能物联网综合管理平台 | 拼装地板,悬浮地板厂家,悬浮式拼装运动地板-石家庄博超地板科技有限公司 | 自进式锚杆-自钻式中空注浆锚杆-洛阳恒诺锚固锚杆生产厂家 | 能耗监测系统-节能监测系统-能源管理系统-三水智能化 | 「银杏树」银杏树行情价格_银杏树种植_山东程锦园林 | 南京展台搭建-南京展会设计-南京展览设计公司-南京展厅展示设计-南京汇雅展览工程有限公司 | 山东太阳能路灯厂家-庭院灯生产厂家-济南晟启灯饰有限公司 | 真空泵厂家_真空泵机组_水环泵_旋片泵_罗茨泵_耐腐蚀防爆_中德制泵 | 27PR跨境电商导航 | 专注外贸跨境电商 | 纯化水设备-EDI-制药-实验室-二级反渗透-高纯水|超纯水设备 | 衬四氟_衬氟储罐_四氟储罐-无锡市氟瑞特防腐科技有限公司 | 学校用栓剂模,玻璃瓶轧盖钳,小型安瓿熔封机,实验室安瓿熔封机-长沙中亚制药设备有限公司 | 垃圾处理设备_餐厨垃圾处理设备_厨余垃圾处理设备_果蔬垃圾处理设备-深圳市三盛环保科技有限公司 | 在线浊度仪_悬浮物污泥浓度计_超声波泥位计_污泥界面仪_泥水界面仪-无锡蓝拓仪表科技有限公司 | 拉卡拉POS机官网 - 官方直营POS机办理|在线免费领取 | 不锈钢闸阀_球阀_蝶阀_止回阀_调节阀_截止阀-可拉伐阀门(上海)有限公司 |