赛博马工作室
Google

文本分词转换器

文本分词转换器 是 利用 中科院计算所 研发的 汉语分词系统 ICTCLAS 5.0 编制的 一款 将 不分 词的 文本 转换 成 按 空格 分 词的 文本。 ICTCLAS 主要 是 供 计算机 汉字信息处理 系统 使用的 一套 分 词 处理 程序 接口, 据介绍 正确率 达 百分之 九十九点五 以上。 本 软件 借助 ICTCLAS 获得 分 词 结果, 然后 按照 以下 原则 排版输出:

  1. 标点符号 前 不留 空格;

  2. 标点符号 后面 加 空格, 也就是 相当于 句首 加 空格, 但 每一段落的 首句 前面 不加 空格。

  3. 常用 形容副词 后 不留 空格, 比如:“最……”、“很……”。 目前 只 处理了“最”和“很”, 后续 版本 将 逐渐 完善, 不 排除 提供 界面 由 用户 自定义 和 添加 类似的 副词。

  4. 常用 助词 前 不留 空格, 比如:“……的”、“……了”。 目前 只 处理了“的”和“了”, 后续 版本 将 逐渐 完善, 不 排除 提供 界面 由 用户 自定义 和 添加 类似的 助词。

  5. 支持 用户词典。 用户 可以 添加 新词汇, 不断 扩大 用户词典, 使 分 词 效果 不断提高 和 适应 专业 领域。

 以上 实际上 也 构成了 空格断词 文本的 格式 规范。 当然 这 还 只是 作者 个人 之见 所定的 临时 规范, 最终格式 有待 实践 探索, 形成 共识 之后 由 权威机构 发布 定型。 

 下载: 文本分词转换器 1.0 版

 

 使用方法示意图(动画):


 

Copyright © 2004~2012 Cyberhorse Workshop. All Rights Reserved