delphi1987的个人博客分享 http://blog.sciencenet.cn/u/delphi1987

博文

JGibbLDA做LDA中文处理时,解决乱码问题

已有 5432 次阅读 2015-4-12 00:01 |个人分类:技术记录|系统分类:科研笔记| JGibbLDA

用JGibbLDA处理中文时,中文数据集不用UTF-8格式,会出现乱码;用UTF-8格式,会提示第一行数字(文档数)读取后无法转化。

经测试,可文档编辑器(如Editplus,UltraEdit之类)将数据文本保存为无bomb的UTF-8格式。

感谢毛进同学提供建议。





https://wap.sciencenet.cn/blog-821540-881697.html

上一篇:领域知识分析中的关键词选择方法研究——一种以学科为背景的全局
下一篇:【博士期间研究总结】共词分析方法优化的一个思路体系
收藏 IP: 59.172.176.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-27 08:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部