开着汽车,双眼盯着路面,却还能同时使用手机,这是谷歌的盲人科学家正在为你做的事。
Ranman认为,“在我的日常生活和工作当中,绝大多数人已不再意识到我是个盲人”。
一位叫做T·V·Raman的盲人科学家正在着手解决这个问题。他的智能触屏手机能让耳朵来帮他“看”手机:当Raman的手指在手机上划过,手机会用语音提示“地图”、“浏览器”或“电话本”等选项;用手机上网时,手机会读出当前网页的内容;打开地图,随着手指在地图上移动,地图会清晰地报出街道的名称,并告诉Raman这个街道是在他的什么方向,距离多远。当Raman走过一些街道,地图会“告诉”他刚才经过的是哪儿。
“我的思路不是假如人看不见怎么办,而是假如人们没法看屏幕时该怎么办。”Raman说。他现在是Google的工程师,他在手机上研发的这项技术叫做Text To Speech(文本转换到语音,简称 TTS);他所在的研发小组叫做解放双眼小组(Eyes Free Team),这个小组设定的场景是,总有一些时候,人们是没法看手机的,例如开车时。
Raman所有的研发都围绕如何让智能设备弥补视力缺陷。他14岁时因青光眼而丧失视力,后来依靠志愿者帮他朗读教材读完了大学。1989年,他来到美国攻读博士并成为了一名科学家。
“以前信息依赖于物质介质,而现在信息以比特的形式存在,并且可以转换成不同形式表达出来。”Raman说。
他最开始所期望的是,这些比特能直接变成声音,好让计算机替代那些为他读书的志愿者。因此他最初的一项开发是一款能够帮他读出各种复杂内容的读屏软件。
这一开发的难度在于,人们总是在用大小写、粗体斜体、标点、段落来表达不同的含义,Raman需要让计算机理解这些含义,并通过语音的方式表现出来。你知道如何读吗?就是这个意思。文本转换成语音要比我们这些视力健全的人所能想象的更为复杂。
Raman在他的博士论文中解决了这个问题,并把他发明的这款软件以他的第一只导盲犬AsTeR来命名—这是他在网络世界的导盲犬,当然,AsTeR也可以是Audio System For Technical Readings(技术类阅读的读屏系统)的缩写。
Raman目前在Google做的研发和AsTeR有很深的渊源。不同的是,现在Raman希望电脑和手机能将程序用语音表达出来。困难是相似的—如何让计算机识别出哪些需要读出来。比方说一封邮件中,需要读出的是正文部分,而不是无关紧要的导航链接。
现在,Raman开发的TTS功能已内置在Android系统中,并向开发者开放API(Application Programming Interface,应用程序编程接口)。第三方开发者可以贡献语音包,例如广东话或普通话;也可利用这一功能进行许多有趣的应用。
当第三方开发者加入进来,这一功能所能运用的场景超出Raman和他同事的想象。除了有聋哑人靠此功能来向服务员大声“说出”他要买个汉堡之外,还有游戏公司在开发的名为“Mad-libs”的手机游戏中加入夸张读出文本的功能,以达到一种更为滑稽可笑的效果。
“我想让很多的设备都有说、听和感知的能力。”Raman说,他觉得手机上的摄像头、GPS和重力感应系统能完成这一切。在未来,他的手机除了告诉他怎么走之外,还能帮他看路标,而这正是他的导盲犬帮他做的事情。
对话
C=CBNweekly
R=T·V·Raman
C: 您此前开发的读屏软件是针对盲人运用的,现在开发的程序却准备面向所有人。这其中有一脉相承之处吗?
R: 每次做研发我都会学到很多东西,并将之运用到接下来的研发中。此前我学到的是,仅仅把屏幕上的东西读出来是不够的,例如我给你看一封Email,然后再让你复述出来,你会觉得两者内容有区别。因此我尽力让它根据意思来读。在手机上尤其如此,一定是只读出有用的信息,并且快速。更重要的是能很方便地用语音停止它。因为在台式机上可以用键盘和鼠标,但在手机上你可能不想用到键盘,因此用语音去停止一个程序会变得很重要。
C: 您是位盲人,这会给您做“解放双眼”这类项目带来哪些优势?
R: 我不知道算不算是一种优势,但我会因此注意到一些问题和细节。而且,正因为我看不到,但又希望能和其他人一样有效接受信息,我就得不断探索把信息通过声音来表达和交流的方法。因为我看不见,我对这一领域的一些问题认识更深刻。
C: 您希望您的研发在未来能实现什么样的功能?
R: 现在我的手机还不能把图片读给我听,但我想在不久的将来这也能实现。这就和“看见”越来越接近了。另外,现在在安静环境下已能实现将所说的话语转变成文字,但在嘈杂的环境中却还欠缺,我正在做这方面的努力。也就是说,我希望让这些设备能成为更好的眼睛和耳朵,并能更好地处理事务。
C: 您日常是如何工作的呢?
R: 我坐Google班车去上班,班车会停在离我家很近的地方。班车上有无线网,因此我可以立刻开始工作,一般是用笔记本发邮件。我在办公室用过早饭之后就开始用台式机写代码。我也用键盘打字,但会用无线耳机来听读屏软件替我读出的程序或网页内容。朗读的速度会比较快,是正常语速的3倍左右,我希望借此实现和眼睛阅读大体相仿的速度。
在我的日常生活和工作当中,绝大多数人已不再意识到我是个盲人。因为对于一个盲人来说,可能会有一些特殊需求,但我通过技术补偿了这些缺陷,所以对我的工作来说,我和其他工程师没有差别。
C: 您曾在IBM工作过,现在在Google工作,您觉得这两家公司有哪些不同?
R: 这两个公司有很多相同点,比如工作区域和氛围等。但两者的产品不同,因此导致很大差异。Google有趣的地方是,它直接面向的用户数量非常庞大,而且Google的软件都基于网络,所以传递给用户的反馈都很快捷。我喜欢这种面对用户的感觉。另外,在Google可以和很多聪明人一起工作,你也会冒出很多新想法。
(实习编辑:吴春丽)
39健康网(www.39.net)专稿,未经书面授权请勿转载。