语音识别(Automatic Speech Recognition)是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语。 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。 语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。
sdk基于whisper模型实现语音识别,识别效果不错。 whisper是openai训练的语音识别系统,训练数据为68w小时的跨语种音频,因此能够识别多种语言,且支持其它语言和英语之间的互相翻译。因为数据多、任务多,鲁棒性非常好,应对噪声和口音都表现不俗。这种大数据多任务的训练方式真的很openai。
在短语音识别的基础上增加了音频分割。使用了语音活动检测(VAD)检测静音。
运行成功后,命令行应该看到下面的信息:
...
[INFO ] - 第1个分割音频, 得分: 99.28923, 识别结果: 近几年不但我用输给女儿压岁
音频均方根能量: -30.505535
[INFO ] - 第2个分割音频, 得分: 88.94682, 识别结果: 劝说清朋不要给女儿压岁钱玩改送压岁书
[INFO ] - 最终识别结果:,近几年不但我用输给女儿压岁,劝说清朋不要给女儿压岁钱玩改送压岁书