voiceprint_search

音频搜索 - 声纹搜索

声纹识别

所谓声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。声纹识别(Voiceprint Recognition, VPR)，也称为说话人识别(Speaker Recognition)，有两类，即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；而后者用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。不管是辨认还是确认，都需要先对说话人的声纹进行建模，这就是所谓的“训练”或“学习”过程。

本例子提供了声纹搜索，使用了短时傅里叶变换算法，声纹特征提取算法。

主要特性

底层使用特征向量相似度搜索
单台服务器十亿级数据的毫秒级搜索
近实时搜索，支持分布式部署
随时对数据进行插入、删除、搜索、更新等操作

打开浏览器

输入地址： http://localhost:8090
视频上传 1). 点击上传按钮上传视频文件.
测试声纹音频 2). 点击特征提取按钮. 等待音频文件解析，声音采样，短时傅里叶变换提取声音频谱，特征提取，特征存入向量引擎。通过console可以看到进度信息。

视频搜索上传图片，点击查询，可以看到返回的图片清单，根据相似度排序。

项目源代码下载：

Github链接

Gitee链接

点击返回网站首页