主页 > 创新识别 > 比人类更快更好!逐字稿AI準确率达97%,百度推免费语音辨识 >

比人类更快更好!逐字稿AI準确率达97%,百度推免费语音辨识

时间:2020-07-19 编辑:

比人类更快更好!逐字稿AI準确率达97%,百度推免费语音辨识

百度人工智慧中的语音辨识技术正在变革速记产业。

近日,百度宣布推出一款能将音讯转化为文字的 SwiftScribe 网页程式,将改变完全依赖人工的速记业现状。该网页程式背靠百度深度语音辨识系统,将音讯文件转为文本,转化效率较人工速记快 1.67 倍。

百度首席科学家吴恩达认为,这支程式将改变採访和影片字幕生成,他在社群网路上评论称:「该程式非常适合将长语音转换为文本的人士,人工智慧将实现 1+1 大于 2 的效果。」

具体应用方面,用户可在 PC 端打开 SwiftScribe 网页程式,选取 wav 和 mp3 格式的文件上传,系统就能马上进行处理,时长 1 分钟的音讯文件可以在 30 秒内转换完成。用户可使用键盘快捷键就能进行加快播放、倒带和添加换行符号等操作,处理完成后,只需人工调整大小写、标点及部分拼写细节即可快捷、準确地完成音讯转换。

从使用效果看,SwiftScribe 可为速记员带来 1.67 倍的效率提升,缩短 40% 的工作时间。目前该系统可处理 1 小时内的音讯文件。

据悉,百度首先会邀请 30-50 名速记员对该程式的测试版本进行测试。

百度方面透露,该程式未来会增加影片文件的语音辨识及自动添加标点符号等功能,并支援更多文件格式,降低用户使用门槛。

此次推出的 SwiftScribe 网页程式,靠的是百度新一代深度语音辨识系统 Deep Speech 2,该系统曾被《麻省理工科技评论》评为「2016 年十大突破技术」之一。通过利用长达数千小时的语音数据训练,Deep Speech 2 可以不断「学习」从语音中辨识特定的字或词。

2016 年 9 月 1 日,在 2016 百度世界大会上,百度董事长兼执行长李彦宏表示,百度语音辨识的準确率能够达到 97%,已经超过了人对语音的辨识能力。

据了解,百度在 2016 年推出了程式 DeepSpeech2 的安卓输入法 TalkType,让用户能够用语音快速输入文字。百度硅谷人工智慧实验室项目领导人 Bijit Halder 在公告中称:「TalkType 是首款智慧语音优先输入法。」

对话机器人将成为 2017 人工智慧的发展风口,百度吴恩达曾在接受《华尔街日报》採访时表示,随着準确率的提高和用户体验的提升,百度的语音产品已度过用户心目中的「试用期」。在语音产品高速发展的大环境下,亚马逊、苹果、 Google 和微软等科技巨头都在加紧研发各自的语音辨识技术。

中国的智慧语音及语言技术、人工智慧技术研究公司科大讯飞,先前已经推出了以语音转文字为核心业务的转抄服务平台——讯飞听见网。据该网站介绍,科大讯飞的机器转抄服务一小时音讯需约 5 分钟转抄成稿。如果是音质清晰、咬字标準的音讯,转换正确率可达 90% 以上。

目前,百度 SwiftScribe 音讯转换服务免费对外开放。据百度方面人士透露,未来希望将该程式转向商业化软体发展。

  猜您喜欢的文章