Mozilla语音文本引擎-DeepSpeech-FreeOA

Mozilla语音文本引擎-DeepSpeech

2020-08-26 21:49:40

阿炯

DeepSpeech(Mozilla Voice STT)是一个开源的语音到文本转换引擎，可以在从Raspberry PI 4到高性能GPU服务器的各种设备上实时运行，使用基于百度深度语音研究论文的机器学习技术训练的模型。Mozilla Voice STT使用Google的TensorFlow来简化实现。主要采用C++开发并在MPL协议下授权使用。

有关最新版本(包括预先培训的模型和检查点)，请参见后文GitHub上的最新版本。

Common Voice

Common Voice 项目是 Mozilla 发起的倡议，旨在帮助教会机器真人的说话方式。除 Common Voice 数据集外，我们还在构建一个名为 Deep Speech 的开源语音识别引擎。这两个项目都是我们努力弭平数字语音鸿沟的一部分。语音识别技术为我们的设备带来人性的维度，但开发者需要巨量的语音数据来构建它们。目前大部分语音数据都相当昂贵且为巨头专有。我们希望能够自由公开地提供语音数据，并确保数据反映出人们实际的多样性。让我们一起为所有人把语音识别技术发展得更好吧！

Mozilla 在2020年8月宣布裁员约 250 名员工后对公司进行了大规模的组织架构重组，并表示未来将集中精力发掘商业化模式。与此同时，部分公益性质的研究项目在此次裁员中大受影响，语音文本引擎项目 DeepSpeech(Mozilla Voice STT)就是其中之一，由于公司探索商业化的决策，DeepSpeech 的前景变得不确定。

Mozilla 的 Reuben Morais 近日发布声明表示，裁员之后他们也不确定 DeepSpeech 未来将何去何从，目前正在确认项目是否会在公司重组后拥有新的“安身之地”，以及成功过渡需要进行哪些变更。

DeepSpeech 是目前最好的语音文本引擎之一，它提供了易于使用的开源语音转文本解决方案，可轻松集成到许多平台、编程语言和应用程序中，现在已接近发布 1.0 稳定版。Reuben 表示，大多数技术更改已完成，因此他们认为没有理由不进行发布。1.0 很快就会推出，Reuben 鼓励所有人进行更新。不过 1.0 发布之后，DeepSpeech 面临的仍是不确定的未来。即便如此，Reuben 仍在鼓励开发者提交 Bug 和 PR，建议大家在 Discourse 论坛上互相帮助以及使用 DeepSpeech 构建产品，以帮助 DeepSpeech 变得更好。

作为一个开源项目，虽然 DeepSpeech 有着足够的社区支持，但如果 Mozilla 最后决定放弃 DeepSpeech，缺少正式的组织或机构来运营也难以持续发展。最好的情况当然是保持现在的状态，不过万一出现变动，至少希望其他组织愿意接手此项目。

最新版本：0.8

项目主页：
Mozilla/STT
Common Voice
Speech & Machine Learning