同样一个问题,在不同的人那里往往有不同的解决办法,这里面反映了不同人的思考方式,可能更有意思的是说明:我们平时所依赖的能力和经验同样可能是我们自己凭空增加出来的束缚我们的思维的栅栏。
这里,我们就举一个例子:实时语言翻译,就说实时英文翻译成中文吧。
这个例子比较具有实用价值。因为随着全球化和国际交流的增加,相互之间的语言不通是最大的障碍,给旅游,商务等带来了极大的不便。有没有一个相对廉价,扩展性很好的解决方案呢?毕竟从费用上和资源上不可能给每个到中国来的老外都专门配个翻译吧。
这里面有两种解决方案:
第一种方案,采用一个设备,这个设备先通过“声音识别”(Speech Recognition)技术将采集来语音变成文字,然后通过“自然语言识别和翻译”(Nature Language Processing)技术把英文翻译成中文,再通过中文的“语音合成技术”(Text-To-Speech)朗读出来。
第二种方案:将无数精通中英文的全职家庭妇女,想捞点外快的SOHO一族或者学生组织起来,通过MSN Messenger或者Skype等互联网电话联系在一起。当有英文翻译成中文的业务需求的时候,根据他们的在线,不在线,忙碌或者空闲状态,甚至进一步可以根据他们登记的英文水平和过去服务的记录,以及不同的专业甚至是不同的地域分派实时语言翻译的任务。然后通过服务收费的方式,平台公司从中抽一点手续费,剩余的给服务提供者。
据我的估计,教授和研究员们大多喜欢第一种方案,因为这里面涉及的几项技术都是研究员大牛们努力奋斗的方向和目标。喜欢第二种方案的,倒是可以组成一个互联网创业公司,不知道现在有没有这样的公司?没有的话,这个想法就免费给那些有心人吧。
从一个研究人员的角度来看,第一种解法好,因为一旦SR,NLP和TTS进入到实用阶段,就可以用非常廉价的方式进行复制和大规模生产。
而从社会学家,经济学家或者一些企业家的角度来看,能给第二种解法找到不少支持的论据:
| 第一方案 | 第二方案 |
| 技术难度 | 除了TTS,SR和NLP都是计算机领域世界级的难题,经过几十年的努力,上述领域进展相当缓慢,还没有进入大规模实用阶段。 | 难度不高,利用现有的互联网的技术完全可以实现
|
| 进入市场时间 | 也许还要五年,十年,或者更长 | 三个月到六个月 |
| 研发投资 | 几百万甚至几千万美元,无法预估 | 几百万人民币应该从整体解决方案到小规模市场推广都能覆盖了 |
| 用户体验 | 应该不会太好,比较机械生硬 | 非常好,除了实时翻译服务,还可以提供丰富的根据上下文和实际场景的附加服务 |
| 对社会贡献 | 增加了少量的研发人员,但是替代了大量翻译服务人员 | 创造了许多就业和第三产业服务的机会和岗位 |
进一步分析,这两种方案实际代表了两种不同的解题思想:第一种是不断的使用计算机来替代人,在计算机替代了人进行简单的,重复的计算和逻辑判断后,进一步希望计算机能够具备某种人的属性,使得计算机能象人一样,能看、能听、能学,能用自然语言与人类进行交流。第二种方案是利用计算机和互联网把社会的闲散资源,特别是闲散的人力资源充分组织和利用起来。
这两种方案到底哪一种好呢?估计还是会印证那句俗语:屁股决定脑袋。不同的人,处在不同的角色和立场,会得出不同的答案。
我喜欢第二种解决方案。我会比较幼稚的认为,大部分科研人员不喜欢第二种,是因为第二种解决方案太简单了,没有挑战性,不能反映出他们高超的学术水平。就象我们以前做的一道题:如何使用气压记来得出房子的高度。大概智商高的人大多仅仅是在做脑筋急转弯的时候喜欢这个答案:把气压记送给门房老头换取答案。但是在工作中就对这样的答案不屑一顾了。所以我就有了本文第一段的结论:我们平时所依赖的能力和经验同样可能是我们自己凭空增加出来的束缚我们的思维的栅栏。也许我是错的。
你喜欢第几种解决方案?
Trackback: http://tb.donews.net/TrackBack.aspx?PostId=739731