人机交互的补充思考 – 可达鸭@nowhere

昨晚回复微信的时候,发现它直接发送波形文件,躲掉了语音识别的问题。因为接受者是人,可以完整,自适应补充和过滤背景信息,那么,问题是,人是怎么做到的呢?这应当放在人机交互里去尝试理解。

电脑在处理波形文件的时候，所有的噪音都应当被过滤器和谐掉，我查了一下IBM的一些文档，结合我自己做数字图像处理的时候，一般都是局部增强和局部放大，用了一个判别标准，大于该值的就增强，小于该值的就减弱。问题就在于，这样做的基础是对象确实有一个明显的，可以被甄别的界限，比如黑与白的字体扫描件的文字识别，你预先已经知道了白纸黑字，那么根据像素点的灰度值你很容易给出一个标准，但是对于方尖碑、中国的书法字帖那样经历了物理风化作用的，边缘的消磨都是渐变的，更有甚者，例如被浸没潮湿的纸张，墨水侵染了其他部分，这样进行增强反而可能对一些属于目标区域却被扰乱的部分造成毁灭。

先思考到这里，有时间继续补充。