星期六
2018-08-18
首页 市场动态 促销信息 品牌口碑 产品分类 联系我们  
产品分类
·卡诺亚“空间定制”,引领定
·与网络卖家发生纠纷后如何解
·陈威宪:设计在艺术上的寻求
·有哪些非常有创意的自我介绍
·在德州学院就读是怎样一种体
·橙家CEO王睿:从尺度化到微定
产品分类 主页 > 产品分类 >
一段音频中判断多个人声
谢邀,这个问题有几种可能的解读:1)只需要判断人数,不需要知道他们分别在什么时间说话(numberofspeakers)2)判断人数并且知道他们说话的时间点(diarization)3)判断人数并且分离每个人的说话声(separation)除此之外还有很多需要考虑的因素。录音环境,比如近场或者远场,单通道或者多通道,也是非常重要的信息;说话人信息也可能影响方法,比如只要求判断事先知道的某些说话人(speakerdependent)或者对任意说话人都要能判断(speakerindependent);说话人之间的重叠(overlap)长度也可能影响“判断有几个人在说话”的时间区间(0.3秒内有几个人?1秒内有几个人?等等)。从问题描述来看我就默认是近场、单通道、说话人无关的情况了(如果不准确还请告知)。多通道的情况会简单一些,因为可以提取说话人的空间信息来做判断。1)如果只需要知道人数,一个简单的分类器一般就能满足需求,其效果类似一个多说话人的vocalactivitydetection(VAD)。2)如果需要知道“谁在什么时间讲话”,问题就变成了speakerdiarization问题,这方面文献很多但我不大了解,就不敢乱说了。我所知道的方法大多基于说话人的i-vector或某些能体现说话人信息的特征。3)如果要求分离出每个人的说话声,就变成了多说话人分离问题(multi-talkerseparation)。以目前的发展,在单通道情况一般3人及以下的音频里,分离效果已经不错了,并且新的系统已经能够通过判断有几个人来调整输出(比如只有2个人说话,那么3个输出里有1个输出会是静音)。我们最近的一些工作也在持续提高这个问题下系统的性能。

上一篇:要怎么微操才能在星际争霸2中用一个SCV干掉一个提速叉
下一篇:一代宗师的画面有什么特点适合转制成3D版吗_2_2
关于我们 | 返回顶部 
版权所有 海港物业管理有限公司 地址:芝罘区海港路23号 电话:0535——6742053 集采电话:0535——6742053 鲁ICP06048153453号 网站地图