Mozilla语音文本引擎-DeepSpeech
2020-08-26 21:49:40 阿炯

DeepSpeech(Mozilla Voice STT)是一个开源的语音到文本转换引擎,可以在从Raspberry PI 4到高性能GPU服务器的各种设备上实时运行,使用基于百度深度语音研究论文的机器学习技术训练的模型。Mozilla Voice STT使用Google的TensorFlow来简化实现。主要采用C++开发并在MPL协议下授权使用。



有关最新版本(包括预先培训的模型和检查点),请参见后文GitHub上的最新版本。

Common Voice



Common Voice 项目是 Mozilla 发起的倡议,旨在帮助教会机器真人的说话方式。除 Common Voice 数据集外,我们还在构建一个名为 Deep Speech 的开源语音识别引擎。这两个项目都是我们努力弭平数字语音鸿沟的一部分。语音识别技术为我们的设备带来人性的维度,但开发者需要巨量的语音数据来构建它们。目前大部分语音数据都相当昂贵且为巨头专有。我们希望能够自由公开地提供语音数据,并确保数据反映出人们实际的多样性。让我们一起为所有人把语音识别技术发展得更好吧!

Mozilla 在2020年8月宣布裁员约 250 名员工后对公司进行了大规模的组织架构重组,并表示未来将集中精力发掘商业化模式。与此同时,部分公益性质的研究项目在此次裁员中大受影响,语音文本引擎项目 DeepSpeech(Mozilla Voice STT)就是其中之一,由于公司探索商业化的决策,DeepSpeech 的前景变得不确定。

Mozilla 的 Reuben Morais 近日发布声明表示,裁员之后他们也不确定 DeepSpeech 未来将何去何从,目前正在确认项目是否会在公司重组后拥有新的“安身之地”,以及成功过渡需要进行哪些变更。

DeepSpeech 是目前最好的语音文本引擎之一,它提供了易于使用的开源语音转文本解决方案,可轻松集成到许多平台、编程语言和应用程序中,现在已接近发布 1.0 稳定版。Reuben 表示,大多数技术更改已完成,因此他们认为没有理由不进行发布。1.0 很快就会推出,Reuben 鼓励所有人进行更新。不过 1.0 发布之后,DeepSpeech 面临的仍是不确定的未来。即便如此,Reuben 仍在鼓励开发者提交 Bug 和 PR,建议大家在 Discourse 论坛上互相帮助以及使用 DeepSpeech 构建产品,以帮助 DeepSpeech 变得更好。

作为一个开源项目,虽然 DeepSpeech 有着足够的社区支持,但如果 Mozilla 最后决定放弃 DeepSpeech,缺少正式的组织或机构来运营也难以持续发展。最好的情况当然是保持现在的状态,不过万一出现变动,至少希望其他组织愿意接手此项目。


最新版本:0.8


项目主页:
Mozilla/STT
Common Voice
Speech & Machine Learning