赛博马工作室
Google

倡议书

2012年11月08日 修改

历史上, 中文古文 是 没有 标点符号的。 文章阅读者 需 付出 额外的 精力 专注于 断句, 且 稍有差池 便会造成 误读。 所谓 失之毫厘, 差之千里。 引入 标点符号 是 一次重大的 文字改革, 使得 汉字文本的 阅读效率 有了 很大的 提高。 但 中文的 改革之路 才 刚刚起步, 远未达到 尽善尽美的 程度。 至少 在 阅读效率 方面 仍然 存在着 一个 显而易见的 障碍——断词。

语言的 最小单位 是 词, 不是 (汉字才有的)字。 语言 是 思维的 表达 工具, 而 思维的 要素 是 概念 和 逻辑。 关于 概念的 定义:

“概念(Idea; Notion; Concept)是 反映 对象的 本质属性的 思维形式。 人类 在认识过程中, 从 感性认识 上升到 理性认识, 把 所感知的事物的 共同本质特点 抽象出来, 加以概括, 就 成为 概念。 表达 概念的语言形式 是 词 或 词组。 概念 都有 内涵 和 外延, 即 它的涵义 和 适用范围。 概念 随着 社会历史 和 人类认识的 发展而变化。 中华人民共和国国家标准GB/T 15237.1—2000:‘概念’ 是 对特征的独特组合而形成的 知识单元。 德国工业标准2342 将 概念 定义为 一个 ‘通过 使用 抽象化的 方式 从 一群事物中 提取出来的 反映 其 共同特性的 思维单位’。”(摘自http://baike.baidu.com/view/45333.htm

众所周知, 中文文本 的 书写格式 一直 是 字 字 相连 组成 句子。 这在 古中文时代 是 自然而然的, 也是 符合  文字 特点 的。 不难看出, 一方面, 汉字 就其 造字的出发点 来说, 就是 用 一个字 代表 一个概念, 也就是 一字一词。 另一方面, 古代社会 发展缓慢, 概念稀少, 以 一字一词 为主, 几万个字(词) 足以表达 当时的大部分概念。 老子的 《道德经》 不就是 一个字 一个字 往外 蹦的 吗? 所以, 那时 无需 专门的符号 来标记 词的边界, 四四方方的字 就是 词的天然归宿。

但 时过境迁, 现代中文 已经 不再是  一字一词了, 字 字 相连的 书写格式 已经 不再 适用。 随着 文化发展 大大加快, 知识概念 呈 爆炸式 增长。 几万个字(词) 已经 入不敷出, 捉襟见肘。 现在 大量的 词 是 由 两个 汉字 组成的 双字词, 还有 不少词 是 三个 或 以上的 字 组成。 所以 继续 沿用 原来的 书写格式 无疑 是 刻舟求剑、 墨守成规、 不思进取 的 表现。 而且, 由于 违反了 语言文字 的 特点——以 词 为 基本操作对象, 导致 产生 种种弊端。

弊端之一, 给 阅读者 增加 额外的 负担, 不利于 提高 阅读效率。 比如:“南京市长江大桥”, 解读 过程 就有 一个 怎么 断词的 问题。 断词 不同, 得到 的 语意 也就 截然不同。 尽管 我们 在 日常 书面 阅读 过程 中 不太感到 这方面的 压力, 因为 我们 已经 习惯于 这种 字 词 不分的 书写格式, 大部分 断词 过程 是 在下意识中 完成的。 感觉不到, 不等于 不需要 付出 脑力。 按照 弗洛伊德 下意识理论, 人脑的 大部分工作 是 处在 感觉不到的 潜意识 中, 我们 能够 意识到的 仅仅是 冰山一角。 事实上, 计算机自动翻译、 人工智能 等领域 已经 从 侧面 揭示了 这个“冰山之下” 所需 付出的 代价, 那就是 处理中文信息 必须 面对的 自动分词 问题。 只要 稍懂 计算机编程 的 人 都 不难 理解 这个问题的 大小 和 难度。 这是 中文 所特有的 一道坎。 国内 不少 研究机构 和 公司 为此 皓首穷经 十几年, 到现在 还没有 彻底 解决 这方面的 问题, 尽管 已经 取得了 很大的进展。 由此可见, 读句断词 并不是 我们 日常 感觉的 那样 简单 容易, 不费吹灰之力, 而是 要 花费 一定 代价的。

弊端之二, 容易 造成 望文生义, 不求甚解, 概念模糊 等 思维 习惯。 目前为止, 中文 仍旧 以 字 为 基本单位, 而不是 词! 所以 随意 拆解、 组合 词汇 是 一种 天然的 倾向, 作为 概念的 符号 —— 词 反而被 降解了, 模糊了。 经常 听到 人们 苦口婆心地 念叨 “要讲逻辑”,“要讲逻辑”……, 殊不知 概念 比 逻辑 更重要! 抽象思维 比 逻辑思维 更重要! 很多人 思维混乱, 理解 问题 不得要领, 抓不住 事物的 本质, 不是 逻辑 有 问题, 而是 没有 明晰的 概念。 须知“讲逻辑”的 前提条件 就是 概念 首先要 明确、 清晰。

一旦 认清了 问题的 本质, 解决 问题 就 往往 是 水到渠成 了 —— 那 就是 以 字母文字 为 榜样 引入 空格符号 作为 中文词的 分隔符!

我 认为 实施 这一 改革 措施 的 重要意义 不仅仅 局限于 针对 上述 中文文本的 缺陷, 而且 是 重新 启动 汉字 字母化 改革 深入发展的 一个 重要 铺垫 —— 字母化 改革 首先 要 弱化 字的 地位, 突出 词的 核心 地位。 中小学的 语文教育 也 应 重新 审视, 转变 以 识字学习 为主 为 以 识词学习 为主。 另外, 这 也是 进一步 使 中文 句式 规范化的 一个 重要 契机。

作者本人 曾经 在 凯迪论坛 发起过 这个问题的讨论(主贴1主贴2), 并 身体力行 以 空格断词 格式 发布 主贴和 回贴。 引来了 很多网友的 共鸣 和 支持。 从 网友的 反应 来看, 空格断词 文本格式 确实能 改善 阅读效率, 证明 了 我对 字、词 问题的 论述 是 正确的。

实行 这一 改革措施 也是 比较容易的, 不存在 很大的 困难, 我们 需要 改变的 仅仅 是 读、 写 习惯。

从 阅读方面 来说, 初步的 实践 表明, 很多人 感到 新的 文本格式 读起来 有一种 轻松感, 加快了 阅读 速度; 也有一部分人 感到 不习惯, 空格 干扰了 阅读 流畅性, 提出 反对意见, 或 建议 先 对 专有名词、 定语从句 等 少量 语句成分 用 空格 区分, 等 大家 习惯 以后 再 逐步 加大 空格的 适用范围, 直到 最后 全面 实施 用 空格 区分 每个 单词。 我的 初步 实践 体会 是, 不宜 分级 规范 空格的 使用 范围, 这样 反而 会 产生 很多 用法 问题的 纠结, 无论 是 对 读者 来说, 还是 对 作者 来说。 倒是 全面 实施(按每个词区分)来的 爽快 干脆。 只要 不存 偏见, 以 开放的 眼光 对待 的 话, 应该 会 很容易 建立 习惯 的。 当然 最终结论 必须 以 相关 专家的 论证 结果 为准。

从 写的 方面 来说, 也是 很容易 全面 实施 推广 的。 对 传统 手工 书写 来说, 改变 的 仅仅 是 多 增加了 一点 手腕、 手指 的 移动量 而已; 对 电子文稿 写作 来说, 空格 是 键盘上 所有符号 中 最容易 敲击的 键。 而且 以后 可以 针对 新的 文本格式 设计 出 输入、 编辑 的 专门工具 来 提高 工作效率。 作者本人 就 试着 设计了 以下 两款工具:

  1. 文本分词转换器 1.0版, 将 传统 文本 转换 为 空格断词 文本, 正确率 达到 百分之 九十九 以上。

  2. 谷歌输入法 之 空格断词 扩展器, 方便 以 空格断词 格式 输入 中文词汇。

关键 是 需要 制订 出 一份 明确的 分词 规范, 使得 作者 在 写作 时 能 明确、 果断地 加 空格 而 不必 纠结 于 何处 该 加, 何处 不该 加; 使得 读者 也能 据此 很容易地 建立起 阅读 预期。 以下 是 我 通过 有限的 实践 摸索 出来的 若干 分词 规范 原则, 仅供 标准 制定者 参考、 采纳:

  1. 空格符(半角或全角)是中文文本中用于分割词汇的专用符号;

  2. 中文分词文本格式必须严格按词用空格符号断开,除了规定可以例外的情况;

  3. 成语应被视为一个完整的语言单位,不得用空格区分其中的词;

  4. 习惯短语、俚语可以被视为一个完整的语言单位,不必用空格区分其中的词;

  5. 专用名词应被视为一个完整的语言单位,不必用空格区分其中的词;

  6. 形容词+“的”可以被视为一个完整的形容词形式,不必用空格区分;

  7. 动词+“了”可以被视为一个完整的动词过去式,不必用空格区分;

  8. “已经”+动词+“过了”可以被视为一个完整的动词现在完成时态,不必用空格区分;

  9. “曾经”+动词+“过了”可以被视为一个完整的动词过去完成时时态,不必用空格区分;

  10. “不……”表示一种否定形态,可以和被否定对象连写而不必用空格区分;

  11. “很……”、“非常……”等程度副词可以和被修饰形容词连用;

  12. 定冠词“这”、“这个”可以和被冠的名词连写;

  13. 不定冠词“一个”、“某个”可以和被冠名词连写;

  14. 量词可以和被修饰名词连写;

  15. ……

写作者 举手之劳, 多 一个空格, 阅读者 就 多 一份清晰。 让 我们 一起 来 推动 这一 中文 改革 设想 早日 付诸 实施 吧!

Copyright © 2004~2012 Cyberhorse Workshop. All Rights Reserved