什么是整句输入法?

长期围观本 blog 的读者应该知道,我写过不少关于整句输入法的东西,是智能狂拼的拥趸,虽然因为兼容性(2代)和稳定性(3代)的原因,没有用它当主力输入法,而且现在智能狂拼的开发基本停滞,但我始终相信整句输入法是有市场的,随时准备转回使用满意的整句输入法。

看到知乎上有人问:中文输入法中的「整句输入」特性指的是什么,真的对中文输入有很大帮助吗?觉得有必要为不熟悉整句输入法的人宣传一下。

整句输入法的概念应该要追溯到中文之星智能狂拼、黑马输入法、微软拼音输入法这些前辈。当时提出整句输入的概念,是想追求一个现在看来都很难完美实现的目标,同时也作为最大的卖点:一次输入整句话的文字,不用任何修改,直接上屏,除了构成文字的必要元素对应的击键,不需要额外的击键和修改,也不会因为频繁的选词影响思路,总而言之,流畅而准确

但现实是残酷的,智能技术是缓慢发展的,到目前为止,还没有任何整句输入法能够达到上述的水平,在不远的未来也还看不到什么希望,而随整句输入法而来的其他问题,比如长句定位和上屏之前的修改,反而使大部分用户抛弃整句输入法,选择词组输入法。

但,词组输入法毕竟还是不能完全满足用户对“流畅、准确”的终极心理需求,各种增强方案,如直接和间接辅助码、智能联想和词频调整、矩阵候选界面、模糊音和简拼支持、双拼方案、意群词库、智能断词、细胞词库、人名识别、云端识别等等,层出不穷,其实只是因为需求缺口还在。

回到原始的问题上来,我觉得整句输入法具体应该包括以下几点:
词和字的自动选择必须要结合上下文智能判断,如果单纯只是按词频确定,就等于完全不按空格键选词的词组输入法,这里的上下文可以是同一篇文章中的上下文句子,可以是语料库、云端中的句子,也可以是不同情境下的历史文字。站在更高的高度尝试分析、理解用户的输入习惯,预测输入意图,这才是整句输入法与词组输入本质的区别
待上屏(即不需要用户事后再修改,可以智能自动调整的部分)的句子应该要足够长,比如若超过10个字就必须先上屏,那大部分的句子根本就无法完整输入再上屏,这就和意群输入差不多了。
中英文、标点符号混合输入一同上屏:外文、标点符号也是整句中常见的元素,如果一遇到外文和标点符号就先上屏再说,那也和词组输入没有什么区别。不过至今还没有完美实现这一特性的整句输入法,比如我喜欢在中英文间插入空格,仅有智能狂拼3能够勉强做到,但还做得不够好。

符合以上条件只能算最基本的整句输入,实际上,如果不提供辅助手段弥补整句输入的缺点,便不能算作实用的整句输入,这也是智能性不足约束下的无奈之举,例如:
长句定位和修改功能:在达到长句识别率百分之百正确之前,整句输入法都要面临返回定位和修改的问题,在这方面,智能狂拼是最有创新意识的,下标快速定位、声母快速定位、快选候选句子、间接辅助码等等,都是不错的尝试。
排除智能自动功能的干扰:有的时候本来一句话中只有一个词是不对的,可是将其改正之后,因为上下文智能匹配功能发挥作用,其他更多的词反而又自动改错了,所以需要提供手段告知输入法哪些是不需要其插手的,这方面有分段确认、提供关闭智能匹配的选项等办法。
语境参与智能判断:智能狂拼3在挣扎着求突破的时期曾经提出过语境切换的概念,但实现手段还非常原始,搜狗输入法最近的智慧版也提出了情景感知的概念,同样还有很大的局限。

posted: 2012/11/26
under: 人品界面, 软硬挨踢
tags: , , , , ,

  • Stackr

    我刚发现 Linux 下的 Rime, 用着挺顺手

  • http://calon.weblogs.us/ Calon

    Rime 算是词组输入法类的吧?简繁转换不错,速度也快,就是功能和设置选项还不够用,不足以调整到最舒服的程度。