转载请声明出处,谢谢。翻译也很辛苦
solr学习交流扣扣群340954928
IK如何实现同义词搜索
如何通过IK实现
<!--[if !supportLists]-->1、 <!--[endif]-->在schema.xml中配置
<fieldType name="text_ik" class="solr.TextField" > <analyzer type="index" > <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="false"/> </analyzer>
<analyzer type="query"> <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> </analyzer>
</fieldType> |
<!--[if !supportLists]-->2、 <!--[endif]-->修改solr配置文件synonyms.txt
打开synonyms.txt文件,写如下内容,另存为utf-8文件,覆盖原来的synonyms.txt文件
#some test synonym mappings unlikely to appear in real input text aaafoo => aaabar bbbfoo => bbbfoo bbbbar cccfoo => cccbar cccbaz fooaaa,baraaa,bazaaa
# Some synonym groups specific to this example GB,gib,gigabyte,gigabytes MB,mib,megabyte,megabytes Television, Televisions, TV, TVs #notice we use "gib" instead of "GiB" so any WordDelimiterFilter coming #after us won't split it into two words.
# Synonym mappings can be used for spelling correction too pixima => pixma 康飞,飞飞,小飞,飞机 小人 => 男人 女人 认认 人人 |
<!--[if !supportLists]-->3、 <!--[endif]-->创建collection,进入analysis,做测试
<!--[endif]-->
<!--[if !supportLists]-->4、 <!--[endif]-->后期动态维护synonyms.txt的办法是,使用zookeeper管理工具,连接到zookeeper管理中心,找到synonyms.txt文件,修改,保存。
Zookeeper管理工具下载地址:
https://github.com/woshikangfei/zookeeper
相关推荐
Elasticsearch7.10.0集成IK相关性同义词改源码实现MySql5.7.2实现远程动态同义词词库实时更新.pdf
IKAnalyzer2012FF_u1.jar,同义词版本,本人亲测,木有问题,可以配置Solr的同义词,
自己打包并经过测试的,IKAnalyzerSolrFactory这个类是jdk1.6编辑的,需要高版本的可自己改。同义词可在core的conf里面单独配置,扩展词和停止词在应用的WEB-INF下classes里面配置。
支持Spring-data-solr1.5的ik分词器,并且修改了代码,添加一个新的类,用于支持同义词,目前可以同时支持分词和同义词的功能。 修改 managed-schema,添加 <analyzer type="index"> ...
IK同义词插件7.8.0版本,对插件做了改造和优化,除了支持默认的文件同义词字典以及在线同义词字典之外,还支持从Mysql热加载同义词,并且可以设置时间。
IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版... 在 2012 版本中,IK 实现了简单的分词歧义排除算法,标志着 IK 分词器从单纯的词典分词向模拟语义分词衍化。
IKAnalyzer配置文件、扩展词典和停用词词典.zip
ElasticSearch安装包整理,包含Hanlp分词,IK分词,x-pack,,Mysql动态加载停用词、基础词、同义词,个人整理的ElasticSearch7.9.0安装压缩包,其中的同义词,基础词,停用词mysql动态加载属于个人完善并编译,多年...
基于ik动态词库分词实现--无需重启服务
IKAnalyzer 实现分词 词频统计,用Eclipse实现,调用IKanalyzer的类,可以用于IKanalyzer的二次开发
关于IKAnalyzer3.2.8扩展词典配置的个人心得和意见,希望对大家有参考价值
IK词典配置文件 zip文件 解压即可得到
elasticsearch默认的分词效果有时候并不满足我们的需求,这将介绍elasticsearch安装ik分词器详解
1、lucene-core-3.6.0.jar 2、IKAnalyzer2012.jar(主jar包) 3、IKAnalyzer.cfg.xml(分词器扩展配置文件) 4、stopword.dic(停止词典) 5、IkSegmentation.java(样例类)
lucene5.4 + IKAnalyzer支持同义词、停用词、扩展词,IKAnalyzer是中同义词是自己改的,就没打包了,如果还有其它需求可以自己改改.
近期整理的IKAnalyzer中文停用词列表,大约有2000多个词,希望可以帮到大家,下载希望给个好评,谢谢
从代码中可以看出,先是添加搜索条件,然后从搜索结果中取出spec的集合,遍历存放进specMap里面。因为搜索结果是一条条的json字符串,所以每次将json字符串转换成map集合,再遍历map,从map中依次取出数据放入...
IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。...在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。此版本针对Lucene8.6.3进行修改
IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词...在2012版本中,IK实现了
IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载 Solr中使用IK-Analyzer实现中文分词器的配置详情 : http://blog.csdn.net/hello_world_qwp/article/details/78890904