Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!
1,NLP切分部分时间实体没有使用空格隔开的bug,例如:“2017年大年初三”,应该结果:“2017年 大年初三”。
2,检索模式重复输出的bug。report at https://gitee.com/lionsoul/jcseg/issues/IEZLN
3,自动摘要自定义输出的长度失效bug。
4,修复英文同义词追加token.offset尚未继承的bug
5,修复NLP模式对类“五月天”等datetime词条的拆分优先级,以词库中的词条优先级最高
6,修复增加对lucene单字段多值索引的offset支持,例如elasticsearch的Array字段
7,jcseg-server会打包为一个完整项目,增加jvm.options对jvm配置调整支持:
01, config: 配置目录,jcseg-server.properties管理服务器和词库的配置,jvm.options管理jvm的参数,例如内存分配等,默认1.5G 02, lib: 全部依赖的jar包目录 03, lexicon: jcseg词库目录,在此更改管理词库即可 04, jcseg-server: 启动管理脚本, 仅限linux 增加-d参数可以后台启动
jcseg-server使用:
# 将jcseg-server/target/jcseg-server整个目录拷贝到安装目录,设为$JS_DIR cd $JS_DIR # 初次运行给jcseg-server增加+x权限 # 同步运行 ./jcseg-server # 后台运行 ./jcseg-server -d
备注:本次更新大部分修改都是针对“ 原语智能 ”AI平台的版本,已经经过长期测试!
码云: https://gitee.com/lionsoul/jcseg/tree/v2.3.0-release
github: https://github.com/lionsoul2014/jcseg/releases/tag/v2.3.0-release
maven仓库:已经同步