使用python和IBM speech to text 进行语音识别

xiaoxiao2021-03-26 90

目录视图摘要视图订阅日报20170303——《百亿互金平台救火故事》程序员2月书讯社区有奖问答--一起舞动酷炫的iOS动画基于Spark的分布式深度学习和认知计算

使用python和IBM speech to text 进行语音识别

标签：语音识别ibmpythonapi 2015-11-10 17:22 1403人阅读评论(0) 收藏举报分类：程序模块（14）编程语言（13）

wav 转 text ，感觉还是IBM 的 speech to text 比较靠得住。

比百度的语音识别API好上太多。

[html] view plain copy https://speech-to-text-demo.mybluemix.net/ --------------------------------------------------------------------

注册拿到帐号密码后，

有一个包比较方便调用

是SpeechRecogntion

[html] view plain copy https://pypi.python.org/pypi/SpeechRecognition/ pip install 或者按照说明安装就行了

---------------------------------------------------------------------

SpeechRecognition包含多个网站的API

然而Google的并不能用，AT&T的没试过。

--------------------------------------------------------------------

在debian 上测试的时候有个问题，需要管理员权限。

可能是内部有过wav 2 flac 然后把临时文件保存在dist-package下了，

--------------------------------------------------------------------

SpeechRecognition有示例代码wav_transcribe.py；

如果用于识别中文，需要在speechrecognition/__init__.py中，

修改recognize_ibm函数的482行

[python] view plain copy assert language in ["en-US", "es-ES", "ja-JP"], "`language` must be a valid language." 增加"zh-CN"项，

[python] view plain copy assert language in ["en-US", "es-ES", "ja-JP", "zh-CN"], "`language` must be a valid language." ---------------------------------------------------------------------

SpeechRecognition的用法如下

[python] view plain copy import speech_recognition as sr

读wav文件

[python] view plain copy r = sr.Recognizer() with sr.WavFile(path) as source: audio = r.record(source) 然后可以调用 recognize_ibm 返回识别结果，是utf8格式的，一般写起来会有些问题

[python] view plain copy IBM_USERNAME = 'XXXXXXXX' IBM_PASSWORD= 'XXXXXXXX' text = r.recognize_ibm(audio, username = IBM_USERNAME, password = IBM_PASSWORD, language = 'zh-CN')

text 就是识别结果，可能会有编码问题之类的。

转载请注明原文地址: https://ju.6miu.com/read-600045.html

技术

最新回复(0)

使用python和IBM speech to text 进行 语音识别

使用python和IBM speech to text 进行 语音识别

技术

使用python和IBM speech to text 进行语音识别

使用python和IBM speech to text 进行语音识别