网站首页互联网 > 正文

谷歌开源直播转录的语音引擎

2021-12-08 16:40:25 互联网来源：

导读今天，谷歌开启了安卓语音识别转录工具Live script的语音引擎。该公司希望这将使任何开发人员能够为长时间的对话提供字幕。源代码现在可

今天，谷歌开启了安卓语音识别转录工具Live script的语音引擎。该公司希望这将使任何开发人员能够为长时间的对话提供字幕。源代码现在可以在GitHub上获得。

谷歌在2月份发布了直播转录。该工具使用机器学习算法将音频转换为实时字幕。与安卓即将推出的直播字幕功能不同，直播转录是一种全屏体验，它使用智能手机的麦克风(或外置麦克风)，并依赖于谷歌云语音API。现场转录可以实时说70多种语言和方言的标题。你也可以输入它——实时转录实际上是一种交流工具。另一个主要区别是：Live script可以在18亿个安卓设备上使用。(今年晚些时候推出Live Caption时，只适用于部分安卓Q设备。)

在云上工作

谷歌的云语音API目前不支持发送无限长度的音频流。此外，依赖云意味着网络连接、数据成本和延迟方面的潜在问题。

因此，语音引擎会在达到超时之前关闭并重新启动流请求，包括在长时间静默期间重新启动会话，以及在语音中检测到暂停时关闭。在会话之间，语音引擎还会在本地缓冲音频，然后在重新连接时发送。因此，谷歌避免了被截断的句子或单词，并减少了对话中丢失的文本量。

为了降低带宽要求和成本，谷歌还评估了不同的音频编解码器：FLAC、AMR-WB和Opus。FLAC(无损编解码)可以保持准确性，不保存太多数据，并且有明显的编解码延迟。AMR-WB可以保存大量数据，但在噪声环境下精度较低。同时，Opus允许数据速率比大多数音乐流媒体服务低很多倍，同时仍然保留了音频信号的重要细节。谷歌还将在长时间的静默期内使用语音检测来关闭网络连接。总体而言，该团队能够“在不影响准确性的情况下将数据使用量减少10倍”。

为了比云语音应用编程接口更进一步降低延迟，实时转录使用了定制的Opus编码器。编码器只是提高了比特率，以至于“延迟无法在视觉上区分发送未压缩的音频”。

实时转录语音引擎功能

谷歌列出了语音引擎的以下功能(不包括说话人识别):

无限流媒体。

支持70多种语言。

可以简化网络损耗(在网络和无线网络之间旅行和切换时)。文字不会丢失，只会延迟。

强大的扩展网络损失。即使网络断电几个小时，也会重新连接。当然，没有连接就不能进行语音识别。

强大的服务器错误。

Opus、AMR-WB和FLAC编码可以轻松启用和配置。

包含一个文本格式库，用于可视化ASR置信度、说话人标识等。

可扩展的离线模型。

支持内置语音检测器，可用于长时间静音时停止ASR，节省资金和数据。

支持内置说话人识别，可根据说话人编号对文字进行标记或着色。

该文档指出，这些库与生产应用程序“实时转录”中运行的库“几乎完全相同”。谷歌进行了“广泛的现场测试和单元测试”，但测试本身并不是开源的。但是谷歌确实提供了APK，所以你可以在不构建任何代码的情况下尝试这个库。

版权说明： 本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

标签：

上一篇:三星Galaxy Note10是迄今为止最大的屏幕手机

下一篇:OomaConnect使用4G实现语音上网和备份连接

网站首页互联网 > 正文

谷歌开源直播转录的语音引擎

猜你喜欢：

最新文章：

网站首页 互联网 > 正文

谷歌开源直播转录的语音引擎

猜你喜欢：

最新文章：

网站首页互联网 > 正文