语音识别有哪些开放的开发平台？

语音识别开发平台有很多，总结如下:(更详细的介绍可以参考我的博文:几种常用语音交互平台的介绍和比较)

1.商业语音交互平台

1)微软语音API

微软的语音API(简称SAPI)是一个应用编程接口(API)，包括语音识别(SR)和语音合成(SS)引擎，在Windows下广泛使用。目前微软已经发布了几个版本的SAPI(最新版本是SAPI 5.4)，要么作为Speech SDK的开发工具包发布，要么直接包含在windows操作系统中。SAPI支持多种语言的识别和阅读，包括英语、中文和日语。

2).IBM viaVoice

IBM是较早开始语音识别研究的机构之一。早在20世纪50年代末，IBM就开始了语音识别的研究。计算机被设计用来检测特定的语言模式，并获得声音和相应字符之间的统计相关性。1999年，IBM发布了VoiceType的免费版本。2003年，IBM基于生存能力授权ScanSoft拥有桌面产品的独家经销权，随后ScanSoft与Nuance合并。现在生存能力早已淡出人们的视线，取而代之的是细微差别。

3)细微差别

Nuance Communication是一家跨国计算机软件技术公司，总部位于美国马萨诸塞州伯灵顿，主要提供语音和图像解决方案及应用。目前业务集中在服务器和嵌入式语音识别、电话转向系统、自动电话号簿服务等。除了语音识别技术，Nuance语音技术还包括语音合成、声纹识别等技术。在世界语音技术市场上，80%以上的语音识别采用了Nuance识别引擎技术，其名下拥有超过1000项专利技术。该公司开发的语音产品可以支持50多种语言，在全球拥有超过20亿用户。Nuance的语音识别服务应用在苹果iPhone 4S的Siri语音识别中。

4)科大讯飞

作为国内最大的智能语音技术提供商，科大讯飞在智能语音技术领域有着长期的研究和积累，在中文语音合成、语音识别、口语评测等技术方面拥有国际领先的成果。占据中国语音技术市场60%以上的份额，语音合成产品市场份额达到70%以上。

5)其他

其他有影响力的商业语音交互平台包括谷歌的语音搜索、百度和搜狗的语音输入法等。

2.开源语音交互平台

1)CMU狮身人面像

CMU-斯芬克斯，也简称为斯芬克斯，是由卡耐基梅隆大学(CMU)开发的开源语音识别系统，包括一系列语音识别器和声学模型训练工具。最早的Sphinx-I是李开复在1987左右开发的，使用固定的HMM模型(包括三个大小为256的码本)。它被称为第一个高性能连续语音识别系统(在资源管理数据库上的准确率为90%+)。最新的Sphinx语音识别系统包括以下软件包:

Pocketsphinx —用c编写的识别器库。

sphinx base—pocket sphinx所需的支持库

Sphinx4 —用Java编写的可调整、可修改的识别器

CMUclmtk —语言模型工具

sphinxtrain——声学模型培训工具

这些软件包的可执行文件和源代码可以在sourceforge上免费下载。

2)HTK

HTK是隐马尔可夫模型工具包的缩写，主要用于语音识别研究。它最初是由剑桥大学工程系机器智能实验室(原语音视觉与机器人组)于1989开发的，用于构建CUED的大词汇量语音识别系统。HTK的最新版本是2009年发布的3.4.1版本。HTK的实现原理和各种工具的使用方法请参考HTK的文档HTKBook。

3)朱利叶斯

Julius是一个高性能、双通道的大词汇量连续语音识别(LVCSR)开源项目，适合研究人员和开发人员使用。它使用3-gram和上下文敏感的HMM，可以在当前PC上实现实时语音识别，单词量为60k。

4)RWTH ASR

工具箱包含自动语音识别技术的最新算法实现，由Rwthahachen大学人类语言技术和模式识别小组开发。RWTH ASR工具箱包括声学模型的构建、解析器等重要部分，以及说话人自适应组件、说话人自适应训练组件、无监督训练组件、个性化训练和词根处理组件。

5)其他

上面提到的开源工具箱主要用于语音识别，其他开源的语音识别项目有Kaldi、simon、iATROS-speech、SHoUT、桑给巴尔OpenIVR等。