自定义语音数据集的三大关键步骤

时间:

2022-08-18

分享到:

自定义语音数据集的三大关键步骤

人工智能发展至今已催生多个行业赛道,语音智能就是其中之一。据统计,全球语音识别市场2020年就已涨至百亿美元,复合年增长率为16.8%,预计2026年产值将达271.6亿美元。


本文将简要论述定制语音数据集项目时要记住的三大要点。


语言和人口统计

语音项目应首先确定目标语言和目标人群。


语言和方言:在收集语音数据集时,首先应了解项目对录入人群熟练程度要求。例如,参与者应该是母语人士还是非母语人士?


且为了确保模型的普适性,应收集多种口音以丰富数据集。以汉语为例,可多收集不同地区的方言如四川话、广东话、湖南话等等。


人口统计:除了语言,还可以根据人口统计数据进行定制,根据参与者的年龄、性别、学历等进行目标分配,如成人与儿童或受过教育与未受过教育。


数据集大小

语音数据集的大小也将决定所需的参与者数量。


受访者总数:确定项目所需的参与者总数。如果项目需要收集语言音频数据,应明确每种目标语言所需的参与者总数。如50%的普通话与50%的北京话使用者。


话语总数:要自定义语音数据集,需留意每个参与者的话语总数及重复次数。


音频要求与格式

格式:文件格式、内容结构、压缩和后处理等要求也决定了语音数据集的质量。


音频质量:音频质量对语音数据收集非常重要。背景噪音会对收集的语音质量产生负面影响,降低语音识别算法的有效性。