"得意"声纹识别技术常见问题解答_语音识别

"得意"声纹识别技术常见问题解答

2004/11/25

1.1 什么是VPR？
1.2 "得意声纹识别"技术及软件开发工具的介绍
1.2.1 "得意声纹识别"技术的特点及优势
1.2.2 文本相关的声纹确认识别引擎的说明
1.2.3 文本无关的声纹辨认和声纹确认识别引擎的说明
1.3 VPR的应用范围举例
1.4 得意VPR技术的使用方法
1.5 得意声纹识别引擎支持的语音格式
1.6 编程者是否需要对语音进行预处理？
1.7 什么是多机协调的工作方式？
1.8 什么是信道的通用背景模型？

1.1 什么是VPR？

　　VPR是声纹识别（Voiceprint Recognition）的缩写，有时也称为说话人识别（Speaker Recognition）。每个人的指纹都是唯一的，数百万人之间才会发现有两个人有相同的指纹；与此类似，声纹也是人的个性特征，很难找到两个声纹完全一样的人。声纹识别，就是要根据人的发音特征，识别出某段语音是谁说的。

　　从对用户所说内容的要求上来看，可以分为文本相关的（Text Dependent）和文本无关的（Text Independent），前者要求用户在识别过程中说出和用来训练的语音相同内容的一段话，后者则无此限制；从识别的目的来看，可分为声纹辨认（Voiceprint Identification）和声纹确认（Voiceprint Verification），前者要判断出某段语音是若干人中的哪一个所说的；后者则确认某段语音是否是指定的某个人所说的；在声纹辨认应用中对集外说话人的处理方式上，又可分为闭集识别和开集识别，前者要求待识别语音一定是某个已知的说话人之一，而后者允许待识别语音可以是某个未知的说话人，因此识别系统具有一定的"拒识"的功能，显然后者具有更广的应用范围。

1.2 "得意声纹识别"技术及软件开发工具的介绍

1.2.1 "得意声纹识别"技术的特点及优势
　　得意公司的声纹识别引擎包括声纹辨认和声纹确认版本，可以是文本无关的，也可以是文本相关的，而且均支持开集的识别方式。其中文本无关的版本同时具有文本和语言的无关性，对语音长度的要求也非常低，通常训练只需要几十秒有效语音，而识别阶段只需几秒钟的有效语音即可。有很高的识别精度，也可以灵活地调整操作点参数从而适应于不同应用的需求。

1.2.2 文本相关的声纹确认识别引擎的说明

　　"得意文本相关的声纹确认"识别引擎及其API的最新版本为3.0。

　　系统要求为：Intel PII 400 MHz以上配置的 PC或服务器；128 MB 或更多的内存；微软Windows 9X/ME/NT/2000/XP；微软Visual C++ Version 6.0 或更高版本。或者是：ARM兼容的Pocket PC（WinCE 3.0或更高版本）；Embedded Visual C++ v3.0或更高版本（适用于Pocket PC版的文本相关声纹确认识别引擎）。

　　软件开发包的内容有：函数说明头文件（*.h）、静态链接库（*.lib）、动态链接库（*.dll）、初始模型文件、编程参考手册（*.doc/*.PDF）、参考示例源程序等。

　　文本相关的声纹确认识别API v3.0的特点有：工作在说话人（声纹）文本相关的方式；对训练次数要求低，并可累积训练；对用户无口音和语言的使用限制；运行于开集方式（即具备拒识功能）；可调整的拒识严格程度阈值；内嵌对并发操作的控制，支持多线程调用；具有高效率与高准确度下的可靠性与灵活性。

1.2.3 文本无关的声纹辨认和声纹确认识别引擎的说明
　　"得意文本无关的声纹辨认"和"得意文本无关的声纹确认"识别引擎及其API的最新版本均为3.0。

　　系统要求为：Intel PII 400 MHz以上配置的 PC或服务器；128 MB 或更多的内存；微软Windows 9X/ME/NT/2000/XP；微软Visual C++ Version 6.0 或更高版本。

　　软件开发包的内容有：函数说明头文件（*.h）、静态链接库（*.lib）、动态链接库（*.dll）、初始模型文件、编程参考手册（*.doc/*.PDF）、参考示例源程序等。

　　文本无关的声纹辨认和声纹确认识别API v3.0的特点有：同时支持话者身份识别与话者身份认证；与文本(内容)、语言无关；运行于开集方式(即具备拒识功能)；可调整的声纹识别阈值与自适应适应性功能；无监督的开集拒识阈值估计；话者识别与认证的增量方式识别；高效率与高准确度下的可靠性与灵活性；基于客户端/服务器的框架（多线程与多实例）。

1.3 VPR的应用范围举例

　　声纹辨认：刑侦破案、罪犯跟踪、国防监听、个性化应用等等；声纹确认：证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用卡的认证等。

1.4得意VPR技术的使用方法

　　得意的声纹辨认和声纹确认技术均提供一组方便易用的编程接口（API）和运行文件，可供应用开发者直接编程调用。其中API部分采用标准的纯C风格，提供函数说明的头文件，可供多种编程语言和环境调用，运行文件包括动态链接库和预先训练好的初始数据文件等。对具体应用对应的特殊信道，我们可以为其进行特定的参数调整和信道初始模型的定制化工作。

1.5得意声纹识别引擎支持的语音格式

　　与ASR引擎相同，得意的各个声纹识别引擎均支持PC声卡信道和电话信道上采集的语音，它们的采样率分别为16kHz和8kHz，其它采样率的语音流需要先进行转换之后才能被使用，采样点可以是8bit或16bit的PCM格式，也可以是用A率或μ率压缩的。

　　如果语音流是存储在语音文件（例如*.wav）中的，那么应用程序在调用识别引擎的API之前，需要先将文件中的语音流读入内存中，然后调用相应的编程接口把语音数据送入识别引擎。

1.6 编程者是否需要对语音进行预处理？

　　在我们现有的声纹识别接口中，已包含了对语音进行预处理的功能。例如识别前，要求先将语音数据放入某个内部数据结构内，在这个过程中就自动完成了抛除静音、噪音、提取语音特征等工作，并为后续的识别只保留真正"有效"的语音部分。当然如果需要的话，系统开发者在这个过程之前再加上一些额外的预处理也是可以的，例如可对某些已知具有特殊分布规律的低信噪比语音进行专门的去噪操作，以保证后续的建模和识别过程具有更好的综合性能。

1.7 什么是多机协调的工作方式？

　　在进行声纹辨认时，由于进行比对的时间与语音长度和声纹数据库的规模基本上是成正比的，所以当语音较长且声纹数据库巨大时，单一线程内部的比对会变得非常耗时。此时可以采用多台机器协调工作的方式。例如，采用五台机器，由总控程序将一个待比对的语音数据流分发到各个机器上，每台机器只负责比对数据库中五分之一的声纹模型；之后将各自检出的候选提交给总控程序，进行统一的排序和输出，于是总体的识别时间就降为原来单机的五分之一。这就是多机协调工作的方式。

1.8 什么是信道的通用背景模型？

　　在进行文本无关的、开集的声纹辨认和确认时，我们利用了一种由海量数据训练得到的"通用背景模型"来对各个声纹模型的得分进行归一化和拒识；对不同的信道（例如PC声卡、固定电话、GSM或CDMA的移动电话、录音笔、磁带、监控设备、电视、无线电设备等，严格说来都分别属于不同信道），不同信道的"背景模型"间的参数差异很大，这与识别器的性能是有一定的相关性的。目前我们的引擎中缺省仅内嵌了一个背景模型。因此当需要同时识别来自多个信道（例如手机、固话、录音笔、磁带等）的语音时，我们可训练出针对不同信道的背景模型，在识别时与这些语音对应起来使用即可。当然，现有的编程接口也可以根据用户的具体情况为此进行一些定制或调整。

得意音通公司供稿 CTI论坛编辑