对许多人来说,这样的体验已不再新奇:拿起手机对着搜索栏,说出自己想要搜寻的条目,立刻就会显示出你想要的条目;想找一首歌,但忘记了歌名、歌词,不要紧,哪怕只记住其中一小段旋律,打开百度MP3网页,可以通过哼唱的方式,搜索到自己想要的歌曲……语音检索,已成为方便的人机交互手段。
而常州人颜永红,在全球这一领域有着权威话语权。腾讯、百度、阿里巴巴等众多知名网站的语音识别系统,都是他及团队的杰作。
从“跃进里”走出,走得好远
北京,北四环路,中科院声学所一间朴素的办公室里,47岁的颜永红说自己最能识别的语音,“是中国话、是常州话”。
常州运河边的跃进里,是颜永红童年生活的乐土。颜永红在常州的老师们应该记得,他“并非是那种死啃书本的乖孩子”:喜欢摄影,自己在家里搞个暗房冲洗照片;玩吉它,轻松的旋律经常飘荡在省常中的操场上;从来不熬夜,作业在学校完成;经常睡过了头,赶在上课铃响起前风一般冲进教室……1985年,以毕业考试的绝对高分,被保送清华大学无线电系。
“现在想起来,我们省常中还真不是培养书呆子的地方。”颜永红至今仍感念高中阶段的那些“非常讲究教学方法的老师们”。
1995年,28岁的颜永红获得美国俄勒冈研究院博士学位后,就留在那里任教了。
此后的路,似乎已顺理成章为这位出色的青年科学家洞开了一扇光明的门:30岁,担任全球最具规模的语音研究机构之一“OGI口语研究中心”的副主任;31岁就已经成为俄勒冈研究院的终身教授;33岁,担任英特尔公司人机界面总框架师,英特尔中国研究院院长和首席研究员、全球人机交互学术委员会主席……在英特尔工作期间,颜永红和他的团队开发出世界上最快、最小的晶体管,用它制造的芯片使电脑具备与人实时会话的能力。利用这一晶体管制造的电脑芯片,速度达到每秒100亿次,可以在眨眼瞬间完成4亿次运算。
这一突破,使计算机和用户进行“接近智能化的互动”,理解你的语言、手势、表情,甚至每一个身体暗示,从而挑战芯片极限。颜永红说,利用这一技术,“网上交流的两个人,一个说中文,一个说日文,电脑可以实时翻译两人说的话,并说给对方,从而彻底打破语言障碍”。这种人机交流的理想状态,首先是在颜永红的实验室中变为现实的。
这个从“跃进里”走出去的孩子,走得好远。
归去来兮,只因念念不忘“中国声音”
虽然已经在学术领域取得非凡成就,但在颜永红心里,仍念念不忘那个亲切的“中国声音”。
2001年11月,颜永红收到中科院声学所所长田静的电子邮件。田静作了自我介绍,希望他能来声学研究所工作,为中国的语音处理领域打开局面。
田静在电子邮件里和颜永红约定,在北京时间的早晨8点半将与他通个电话,“在一小时的电话里,我们特别聊得来。”他们相约北京见。
2002年11月下旬,国内众多媒体发出了这样的新闻:曾任英特尔中国研究院院长、首席研究员的颜永红和麾下的6位科研人员,先后集体“跳槽”来到中科院声学研究所,组建了平均年龄只有30岁的科研团队——中科信利语音实验室。
因为英特尔是跨国大公司,更因为从英特尔先后“跳槽”的,不仅是颜永红一个人,而是曾跟随过他的一个团队,其轰动的新闻效应自然不言而喻——著名跨国大公司从国内“挖人”,已经见惯不惊,但这次却是个完全的反例。甚至有媒体以这一事件为切入口,讨论跨国企业的用人战略调整等等。
这么大的动静或许是颜永红没想到的。
其实早在2001年4月,颜永红就离开英特尔中国研究中心,回到美国俄勒冈研究院工作了一段时间。“因为我太太和孩子都在美国,田静所长当时和我谈的是每年回国工作3个月,后来事情太多,我就基本上全年都在国内了,所以说,我是一步一步走回来的。”颜永红颇有些调侃地说。
如今,他一手创办的中科院声学所中科信利语音识别实验室,已发展成为国内语言声学领域规模最大、学科最全的实验室,与实验室同时成立的中科信利技术有限公司也取得了长足的发展。两个“孩子”的长大让他倍感欣慰。而同时,他“错过”了两个宝贝女儿的成长,这是他最遗憾的。
回国这些年,他经历了酸甜苦辣,最苦的莫过于对妻女的思念。“我回国的时候大女儿6岁,小女儿4岁,一个父亲,错过了孩子成长中最关键的时刻,这是我这辈子都没办法弥补的遗憾。”颜永红轻声说,“每次我从美国回来的前一天,都能感觉到她们的情绪很低落,出门的时候真的很心酸。”
好在有视频聊天,“至少现在我每天都能看到她们。”每天早上7点钟,只要不开会,颜永红到办公室的第一件事就是上网和她们聊天,因为这个时间刚好是美国波特兰下午3点钟女儿们放学回家的时候。
探究声音里的“密码”
很多人都看见过这样的场景:周杰伦在演唱会现场,用声、光、电技术虚拟出邓丽君,“两人”演绎了一场完满的跨时空对唱。类似这样的虚拟视像演出中,颜永红他们研发的智能语音技术发挥了重要作用。
回国后,颜永红和他的年轻团队获得了大量专利和4项软件著作权。其中许多已经被国人广泛使用。其研发的嵌入式语音软件被应用在了手机上,这就是大家比较熟悉的语音拨号。“有些人的手机里存了几百上千个电话号码,找起来很麻烦,安装这一软件后,只要对着手机叫出对方名字,即可调出他的资料。”颜永红介绍道。这个嵌入式语音软件支持语音拨号、命令控制、来电短信提醒、语音读出短信、连呼数字拨号等功能。此外,他们还开发出基于分布式集群架构的语音处理平台TSE。
在此之前,电信级语音识别引擎技术完全被美国公司垄断,“但现在我们完全有底气说,我们占据了大半壁江山。”确实,在国内,真正能够将语音识别产品拿出来,放在电信网上规模使用的,也只有他们研发的产品。
目前,他们研发的中文电视广播新闻节目识别系统,已经被多家公司采用,并成为其提供给全国各电视台的数字媒体管理系统中一个核心技术模块。当系统“收听”到一段“新闻联播”节目,自动将节目内容生成文字,识别准确率惊人地高。
在他的语音识别实验室里,视频精确搜索已不是问题。在一段王楠比赛的视频中,你只要输入“侧身抢拉”、“前三板”等关键词,就可以找到精确到秒的视频。这就意味着,如果你想找一部电影里的精彩片段,只需记得其中的经典台词即可搜索。现在,他们的语音技术已经应用于中国电信、中国网通、中国移动、淘宝等多个语音呼叫服务上;他的实验室,语音识别技术在国内多次获得第一名,音乐检索技术在世界音乐搜索组织(MIREX)评测中连续4年获得第一名;他提出的多识别器前端,多特征应用和后端信息融合算法,在美国国防部和标准局举办的年度比赛中两度夺魁。
虽然现在的收入与在英特尔时比少得可怜,但这位世界级语音技术专家,对自己的选择却依然充满信心。
他已经过了要勤奋的年纪,但对他而言勤奋已成为一种态度。早上不论多早,晚上不论多晚,人们都能在语音实验室的大楼看见他忙碌的身影。
面试研究生时,颜永红一般都问两个问题:你想达到什么样的目标?你是否足够勤奋?“这两个问题可不是那么好回答的,它是用接下来几年时间去验证的。”颜永红说,“我觉得自己这个导师当得还行,这几年我培养的9名博士生中,有4个拿到了中科院的院长奖励,一位是院优秀毕业生,两位是‘微软学者’。”对颜永红来说,这个成绩单显然比研发出任何一种新技术更重要。