当前位置: 首页 > news >正文

es拼音分词器(仅供自己参考)

github地址:https://github.com/infinilabs/analysis-pinyin(各种版本,对接es版本)

拼音分词器存在的问题:

1、是直接将每个字的拼音返回和一段话的拼音首字母返回,不能很好的分词。

2、不会保留中文,转为拼音之后,没有中文存在。

自定义分词器
默认的拼音分词器会将每个汉字单独分为拼音,而我们希望的是每个词条形成一组拼音,需要对拼音分词器做个性化定制,形成自定义分词器。

elasticsearch中分词器(analyzer)的组成包含三部分:

1、 character filters:在tokenizer之前对文本进行处理。例如删除字符、替换字符
 2、tokenizer:将文本按照一定的规则切割成词条(term)。例如keyword,就是不分词;还有ik_smart
3、tokenizer filter:将tokenizer输出的词条做进一步处理。例如大小写转换、同义词处理、拼音处理等
文档分词时会依次由这三部分来处理文档:

自定义分词器的配置:(只能是相应的索引库使用,创建了test索引库,那么自定义的只能在这个索引库中使用。不能在其他索引库中使用)

#自定义分词器,在ik和py的基础上自定义
PUT /test
{"settings": {"analysis": {"analyzer": { "my_analyzer": { "tokenizer": "ik_max_word",        #分词用ik"filter": "py"            #配置拼音分词器}},"filter": {"py": { "type": "pinyin",        #拼音分词器"keep_full_pinyin": false,         #   关闭了单个字符的转为拼音"keep_joined_full_pinyin": true,    #开启了词语的拼音转换"keep_original": true,                #保留中文"limit_first_letter_length": 16,        #首字母的长度小于16"remove_duplicated_term": true,        #去除重复的"none_chinese_pinyin_tokenize": false    #禁止除中文以为的其他语言转为拼音}}}},"mappings": {"properties": {"name":{"type": "text","analyzer": "my_analyzer","search_analyzer": "ik_smart"}}}
}

为了避免搜索的时候使用拼音搜到同音词,所以在搜索的时候使用ik分词器"search_analyzer": "ik_smart"


http://www.mrgr.cn/news/63184.html

相关文章:

  • Spring Boot解决 406 错误之返回对象缺少Getter/Setter方法引发的问题
  • 史上最全(全平台)docker所有安装方法!
  • /检测是否json格式参数;对现在 上月时间参数;JS判断数组(数组对象)是否发现变化;js判断对象是否是空对象
  • 【深度学习中的注意力机制10】11种主流注意力机制112个创新研究paper+代码——交叉注意力(Cross-Attention)
  • 解决 MySQL 中的死锁问题排查攻略(一)
  • CMake知识点
  • 《我的AUTOSAR之路》UDS 0x36 service
  • 【Hive sql 面试题】统计Top3歌单以及每个Top3歌单下的Top3歌曲(难)
  • JupyterLab,极其强大的下一代notebook!
  • SQL实战训练之,力扣:1843. 可疑银行账户
  • ChatGPT国内中文版镜像网站整理合集(2024/11/01)
  • 北方地区使用哪种通风天窗比较合适?
  • Docker命令备忘录----Linux运维
  • 408——计算机网络(持续更新)
  • Man Up技术服务支持
  • 突破空间限制:4个远程控制电脑的办法!企业局域网远程连接完整版教程分享!(包教包会!)
  • 什么是线程局部变量(ThreadLocal)?
  • 华为配置WLAN跨VLAN的三层漫游示例
  • 音视频入门基础:FLV专题(21)——FFmpeg源码中,获取FLV文件音频信息的实现(上)
  • 开放式耳机品牌排行榜 ,如何挑选开放式耳机
  • Puppeteer点击系统:解锁百度流量点击率提升的解决案例
  • Android OpenGL ES详解——模板Stencil
  • 数智税务 | 数电票:带来税务管理五大新挑战、绘就智慧税务征管新蓝图
  • js、vue、angular中的函数声明方式及特点
  • JVM性能优化实战手册:从监控到调优策略
  • Vatee万腾平台:让企业数字化转型更轻松、更高效