语音识别有哪些开放的开发平台?

语音识别开发平台有很多,总结如下:(更详细的介绍可以参考我的博文:几种常用语音交互平台的介绍和比较)

1.商业语音交互平台

1)微软语音API

微软的语音API(简称SAPI)是一个应用编程接口(API),包括语音识别(SR)和语音合成(SS)引擎,在Windows下广泛使用。目前微软已经发布了几个版本的SAPI(最新版本是SAPI 5.4),要么作为Speech SDK的开发工具包发布,要么直接包含在windows操作系统中。SAPI支持多种语言的识别和阅读,包括英语、中文和日语。

2).IBM viaVoice

IBM是较早开始语音识别研究的机构之一。早在20世纪50年代末,IBM就开始了语音识别的研究。计算机被设计用来检测特定的语言模式,并获得声音和相应字符之间的统计相关性。1999年,IBM发布了VoiceType的免费版本。2003年,IBM基于生存能力授权ScanSoft拥有桌面产品的独家经销权,随后ScanSoft与Nuance合并。现在生存能力早已淡出人们的视线,取而代之的是细微差别。

3)细微差别

Nuance Communication是一家跨国计算机软件技术公司,总部位于美国马萨诸塞州伯灵顿,主要提供语音和图像解决方案及应用。目前业务集中在服务器和嵌入式语音识别、电话转向系统、自动电话号簿服务等。除了语音识别技术,Nuance语音技术还包括语音合成、声纹识别等技术。在世界语音技术市场上,80%以上的语音识别采用了Nuance识别引擎技术,其名下拥有超过1000项专利技术。该公司开发的语音产品可以支持50多种语言,在全球拥有超过20亿用户。Nuance的语音识别服务应用在苹果iPhone 4S的Siri语音识别中。

4)科大讯飞

作为国内最大的智能语音技术提供商,科大讯飞在智能语音技术领域有着长期的研究和积累,在中文语音合成、语音识别、口语评测等技术方面拥有国际领先的成果。占据中国语音技术市场60%以上的份额,语音合成产品市场份额达到70%以上。

5)其他

其他有影响力的商业语音交互平台包括谷歌的语音搜索、百度和搜狗的语音输入法等。

2.开源语音交互平台

1)CMU狮身人面像

CMU-斯芬克斯,也简称为斯芬克斯,是由卡耐基梅隆大学(CMU)开发的开源语音识别系统,包括一系列语音识别器和声学模型训练工具。最早的Sphinx-I是李开复在1987左右开发的,使用固定的HMM模型(包括三个大小为256的码本)。它被称为第一个高性能连续语音识别系统(在资源管理数据库上的准确率为90%+)。最新的Sphinx语音识别系统包括以下软件包:

Pocketsphinx —用c编写的识别器库。

sphinx base—pocket sphinx所需的支持库

Sphinx4 —用Java编写的可调整、可修改的识别器

CMUclmtk —语言模型工具

sphinxtrain——声学模型培训工具

这些软件包的可执行文件和源代码可以在sourceforge上免费下载。

2)HTK

HTK是隐马尔可夫模型工具包的缩写,主要用于语音识别研究。它最初是由剑桥大学工程系机器智能实验室(原语音视觉与机器人组)于1989开发的,用于构建CUED的大词汇量语音识别系统。HTK的最新版本是2009年发布的3.4.1版本。HTK的实现原理和各种工具的使用方法请参考HTK的文档HTKBook。

3)朱利叶斯

Julius是一个高性能、双通道的大词汇量连续语音识别(LVCSR)开源项目,适合研究人员和开发人员使用。它使用3-gram和上下文敏感的HMM,可以在当前PC上实现实时语音识别,单词量为60k。

4)RWTH ASR

工具箱包含自动语音识别技术的最新算法实现,由Rwthahachen大学人类语言技术和模式识别小组开发。RWTH ASR工具箱包括声学模型的构建、解析器等重要部分,以及说话人自适应组件、说话人自适应训练组件、无监督训练组件、个性化训练和词根处理组件。

5)其他

上面提到的开源工具箱主要用于语音识别,其他开源的语音识别项目有Kaldi、simon、iATROS-speech、SHoUT、桑给巴尔OpenIVR等。