谷歌对其云语音转文本语音识别技术进行了几项重大更新。这是自谷歌两年前宣布这项服务以来最大的一次改革,旨在让语音转文本对企业更有用。
这些更新包括用于转录电话和视频的预制模型、支持自动标点的功能以及用于转录工作负载的新标记和分组机制。为了保持其业务重点,这些更新伴随着一个标准的服务水平协议(SLA),保证99.9%的可用性。
谷歌产品经理丹阿哈龙(Dan Aharon)在4月9日的博客中写道:“获得高质量的语音转录技术,为那些希望与用户建立联系并向他们学习的公司打开了无限可能。”他说,这次更新利用了谷歌在机器学习方面的最新研究成果。
谷歌在2016年6月宣布了云语音转文本。这项技术为开发人员提供了一种将音频转换为文本的方法。谷歌已经将语音到文本描述为一种API,它将神经网络模型应用于将语音转换为文本的任务。这项技术旨在处理预先录制的音频和实时流音频,因此它可以在呼叫中心设置中工作,就像转录语音邮件一样。
该API可用于近实时转录120种语言和方言的短格式和长格式音频。它专门用于识别和转录现实世界中涉及多个说话人和背景噪声的语音。根据谷歌的说法,语音转文本甚至可以转录专有名词,并正确格式化日期和电话号码等内容。
该公司声称,由于谷歌的机器学习技术支持云语音转文本,其转录的准确性将随着时间的推移而提高。
Aharon列出了这项技术的几个企业用例,包括人机交互、呼叫中心分析和电话、音频和视频内容的自动转录。
作为新更新的API函数的一个例子,Aharon指出,电视广播涉及四个扬声器和大量的背景噪声。他声称,根据游戏的长度,语音转文本将能够在大约两个小时内转录广播内容。
谷歌在最新更新中提供了各种预建模型,包括针对特定用例定制的模型,如视频到音频转录和电话转录。
此次更新反映了自2016年推出以来一直在测试云语音转文本的组织的反馈。他说,这项技术的客户提供的信息使谷歌能够优先考虑功能,并专注于下一步要做的事情。
API每15秒音频起价0.006美元。模型每15秒0.012美元起,但可以享受折扣,直到5月31日。
对文本API的更新是谷歌云AI语音产品团队近日来的第二次重要宣布。上个月,谷歌推出了云文本到语音(Cloud Text-to-Speech),这是一种将文本转换为语音的语音合成API。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!