IKAnalyzer
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。切词Demo代码如下:
public static void ikSeg() throws Throwable { String content = "Java编程思想(第4版)"; IKSegmentation ikSeg = new IKSegmentation(new StringReader(content), true); Lexeme l = null; while ((l = ikSeg.next()) != null) { String word = l.getLexemeText(); int wordType = l.getLexemeType(); System.out.println(wordType + "->" + word); } }
Ansj:
Ansj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.切词Demo代码如下:
public static void ansjSeg() throws Throwable { String content = "Java编程思想(第4版)"; Analysis udf = new ToAnalysis(new StringReader(content)); Term term = null; while ((term = udf.next()) != null) { TermNature[] termNatures = term.getTermNatures().termNatures; String wordType = termNatures[0].nature.natureStr; String word = term.getName(); System.out.println(wordType + "->" + word); } }
相关推荐
IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可
1. 《IKAnalyzer中文分词器V2012使用手册》(即本文档) 2. IKAnalyzer2012.jar(主jar包) 3. IKAnalyzer.cfg.xml(分词器扩展配置文件) 4. stopword.dic(停止词典) 5. LICENSE.TXT ; NOTICE.TXT (apache...
1、lucene-core-3.6.0.jar 2、IKAnalyzer2012.jar(主jar包) 3、IKAnalyzer.cfg.xml(分词器扩展配置文件) 4、stopword.dic(停止词典) 5、IkSegmentation.java(样例类)
IKAnalyzer2012_u6中文分词器以及手册正式版 Mode LastWriteTime Length Name ---- ------------- ------ ---- d----- 2017/10/29 1:41 doc -a---- 2017/10/29 1:41 414 IKAnalyzer.cfg.xml -a---- 2017/10/29 1...
2.把IKAnalyzer.cfg.xml 和 stopword.dic添加到classes目录 3.把IKAnalyzer2012FF_u1.jar添加到/opt/cloudera/parcels/CDH/lib/solr/webapps/solr/WEB-INF/lib目录 4.修改 /opt/cdhsolr/fuser/conf/schema.xml...
NULL 博文链接:https://skycb.iteye.com/blog/2229099
解决lucene4.0与IKAnalyzer的冲突。解决Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides final method tokenStream.(Ljava/lang/String;Ljava/io/Reader;...
IKAnalyzer 非常不错的分词器,JAVA版本
IKAnalyzer2012_u6
IKAnalyzer继承Lucene的Analyzer抽象类,使用IKAnalyzer和Lucene自带的分析器方法一样,将Analyzer测试代码改为IKAnalyzer测试中文分词效果。 如果使用中文分词器ik-analyzer,就需要在索引和搜索程序中使用一致的...
IKAnalyzer2012.jar 中文分词包
IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包
2.把IKAnalyzer.cfg.xml 和 stopword.dic添加到classes目录 3.把IKAnalyzer2012FF_u1.jar添加到/opt/cloudera/parcels/CDH/lib/solr/webapps/solr/WEB-INF/lib目录 4.修改 /opt/cdhsolr/fuser/conf/schema.xml...
IkAnalyzer3.2的jar包 IK Analyzer 是一个开源的,基于java 语言开发的轻量级的中文分词工具包。从2006 年12 月推出1.0 版开始, IKAnalyzer 已经推出了3 个大版本。最初,它是以开源项目 Luence 为应用主体的,结合...
IKAnalyzer-5.0.jar及solr-analyzer-extra-5.3.jar,用于solr5.3做中文分词
IKAnalyzer2012FF_hf1.zip FastDFS集群安装所需要的安装包
IKAnalyzer配置文件、扩展词典和停用词词典.zip
从 2006年 12 月推出 1.0 版开始,IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从 3.0 版本开始,IK 发展为面向 Java 的公用分词组件,...
IKanalyzer 分词小测试例子 IKanalyzer 扩展dic
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本