日本語単語割り切れツール
分类:突袭反恐任务

景况:对日开荒语言管理

务求:解析词语,将词语中的德文单词分割,转变情势。

分析:

  义务1:词语拆分

  职分2:调换方式

 

塞尔维亚语的款式调换能够用kanavetor去落到实处 特别简单直接调用Kana类的convert方法就能够,在Kana的官互连网得以看看用法(纵然看不懂介绍,看到管网的报表应该也就一览无遗了~)。

重中之重在于词语的拆分上:

用语拆分使用了Kuromoji,Kuromoji是生龙活虎款相当好用的意大利语分词工具,并且,降解后的词是足以活动将汉字,平假名等调换到カタカナ的,有像样须求的能够一贯用这些而不用再去找出其他工具了。Kuromoji作者找到了多个本子,多少个是kuromoji,0.7.7本子,官网络说捐赠给了apache,内置在Lucene的4.0,5.0版本里,由于忘记Lucene的用法,近日不思量。其余多少个版本是kuromoji-ipadic,这几个东东和kuromoji都以叁个协作社出的,不过略有分化,稍微切磋了弹指间,kuromoji在动用的时候是必须要找到jar包,找不到源代码文件的,通过maven下载可以,不过gradle是引进不了的。而kuromoji-ipadic则是gradlle也得以引用,况兼引进之后可以看看源码。其它kuromoji毕竟是原先的api,还应该有生龙活虎部分小小的久治不愈的病痛。

kuromoji官网:

Kuromoji-ipadic官网:

Kuromoji用法:

1         Tokenizer tokenizer = Tokenizer.builder().build();
2         for (Token token : tokenizer.tokenize("寿司が食べたい。")) {
        // token 中存放的是分割后的词 不同的属性可以取到该词的不同内容

              // surfaceForm:原内容

3             System.out.println(token.getSurfaceForm() + "t" + );

              // baseForm:内容词语的基础 例如 食べたい⇒食べ

        System.out.println(token.getBaseForm() + "t" + );

4 }

↑↑↑那一个api对泰语汉字的识别率不比上面包车型地铁api(某个简体匈牙利(Magyarország卡塔尔国语汉字和专入室弟子疏的甄别不出来,毕竟是老版本卡塔尔国,而且际遇不认得的方块字时token调用get方法会获得null。。。不指出使用。

Kuromoji-ipadic用法:

1         Tokenizer tokenizer = new Tokenizer() ;
2         List<Token> tokens = tokenizer.tokenize("お寿司が食べたい。");
3         for (Token token : tokens) {
4             System.out.println(token.getSurface()); // 读取到的原内容
5             System.out.println(token.getReading()); // カタカナ
6         }        

顺带生龙活虎提,kuromoji-ipadic由于是用new产分娩生实例的,所以只要您的工具或种类须求改造大量词汇,要细心不要做太多的new操作,否则会极慢很慢极慢,这时能够定义成静态常量只怕单例格局。

招待大家商酌和指教。

 

本文由金沙APP发布于突袭反恐任务,转载请注明出处:日本語単語割り切れツール

上一篇:数据库附加问题 下一篇:浏览器快捷键大全
猜你喜欢
热门排行
精彩图文