发布日期:2026-03-11 01:43 点击次数:73

WAXAL为非洲语音时候提供了一个要害的通达造访基础。该资源包含27种原土言语的大领域ASR和TTS数据语料库,继承高度宽松的许可条约,旨在赋能非洲AI生态系统,构建或者更好反应该地区专有言语种种性的庞大语音系统。
语音时候的近况与挑战
诬捏助手和自动转录等语音时候也曾调动了咱们与探究机交互的表情。关系词,这些时候的上风主要连合在少数高资源言语上。这种数字领域使得数亿东谈主——尽头是撒哈拉以南非洲地区的住户——无法使用母语造访基本时候办事。该地区领有擢升2000种不同的言语。几年前,Google Research团队动手入部下手惩处这一问题。
为了交接这一要害需求,咱们推出了WAXAL:一个大领域、通达造访的语音数据集,初期澌灭27种撒哈拉以南非洲言语,这些言语的使用者擢升1亿东谈主,散布在26个以上的国度。WAXAL名目始于2021年,是与非洲学术和社区组织多年合作的恶果,提供了构建庞大语音系统所需的高质地、宽松许可的数据。此次开动发布包含约1846小时的转录当然语音数据(用于自动语音识别ASR),以及擢升565小时的高保真灌音(用于文本转语音TTS)。咱们在学问分享许可条约(CC-BY-4.0)下发布这些资源,以促进扣问并竣事针对非洲大陆专有言语特征的包容性语音时候。咱们策动让WAXAL汇注捏续演进和推广,纳入更多言语,算作咱们弥合数字领域捏续努力的一部分。
张开剩余71%数据集的组成与特色
通过惩处擢升1亿使用者的要害数据稀缺问题,WAXAL旨在赋能区域AI扣问生态系统。为接济庞大语音时候的开发,该语料库整合了两个专诚瞎想的数据集,为语音识别和合成任务提供全面澌灭。
ASR数据集继承图像教唆步地收罗,参与者不雅看来自Google通达图像数据集的图片,用指标言语描述所见施行。这种步地或者激发当然、非剧本化的语音,捕捉真确寰宇的言语使用款式,包括自觉抒发、停顿和白话化特征。
TTS数据集则在专科灌音环境中录制,使用高质地开发捕捉明晰、无杂音的语音。灌音东谈主员诵读用心策动的文本教唆,确保音素澌灭均衡,为磨练或者生成当然畅通语音的TTS模子提供必要的明晰度和一致性。
WAXAL语料库对非剧本化ASR数据和高保真TTS音频的双重保重,开云体育旨在竣事全双工对话系统的开发。具体而言,ASR组件有助于对真确场景中典型的种种化、自觉语音输入进行建模,而高质地TTS组件则提供生成明晰当然输出所需的干净参考数据。当今数据集包含的27种言语涵盖了东非、西非、中非和南部非洲的主要言语。
合作款式与生态系统建设
WAXAL名方针中枢容许是与非洲AI生态系统合作并径直为其作念出孝敬。数据收罗责任有余由非洲学术和社区组织主导,在Google群众对于寰宇级数据收罗执行的指导下进行。这种配合表情确保了语料库由其办事的社区构建并为其办事;通过分享步地论,每个合作伙伴专注于特定的言语子集。
咱们的合作伙伴包括马凯雷雷大学,该校为九种不同言语收罗了ASR和TTS数据;加纳大学专注于八种言语,使用上述基于图像教唆的ASR数据收罗步地。其他重要合作家包括Digital Umuganda与亚的斯亚贝巴大学合作,在多种区域言语的ASR收连合施展了要害作用。对于高质地的灌音棚录制语音,Media Trust、Loud n Clear和塞内加尔非洲数学科学扣问所主导了各式区域言语的TTS灌音。
这一框架从根柢上植根于合作伙伴保留所收罗数据通盘权的原则,共同贫乏于让所荒谬据集向更泛泛的社区通达造访。这种深度合作和通达造访理念也曾促成了显贵的繁衍扣问和出书物。
改日瞻望
WAXAL代表了弥合数字领域的要害里程碑,为27种撒哈拉以南非洲言语提供了高质地、通达造访的语音资源。该名目通过与非洲学术和社区组织的深度合作开发,赋能非洲大陆的AI生态系统并保护言语种种性。咱们但愿WAXAL将延续算作非洲言语数字保护的重要资源和改日立异的基础。Google将延续贫乏于这一努力,策动捏续推广WAXAL数据集。
咱们感谢马凯雷雷大学、加纳大学、Digital Umuganda、亚的斯亚贝巴大学、塞内加尔非洲数学科学扣问所、Media Trust和Loud and Clear Communications Ltd等合作伙伴的重要孝敬,他们在减弱言语差距、为非洲大陆数百万使用者构建更具包容性的数字改日方面施展了要害作用。
Q&A
Q1:WAXAL数据集包含哪些言语和若干数据量?
365建站客服QQ:800083652A:WAXAL开动发布澌灭27种撒哈拉以南非洲言语,这些言语的使用者擢升1亿东谈主,散布在26个以上的国度。数据集包含约1846小时的转录当然语音数据用于自动语音识别,以及擢升565小时的高保真灌音用于文本转语音合成。通盘资源继承CC-BY-4.0许可条约发布。
Q2:WAXAL奈何收罗ASR和TTS数据?
A:ASR数据继承图像教唆步地,参与者不雅看图片并用指标言语描述所见施行,这能捕捉当然、非剧本化的语音和真确言语使用款式。TTS数据则在专科灌音环境中录制,灌音东谈主员诵读用心策动的文本,确保音素澌灭均衡,为磨练TTS模子提供明晰一致的语音。
Q3:WAXAL名目是奈何与非洲腹地组织合作的?
A:数据收罗责任有余由非洲学术和社区组织主导,在Google群众指导下进行。合作伙伴包括马凯雷雷大学、加纳大学、Digital Umuganda、亚的斯亚贝巴大学等机构。合作伙伴保留数据通盘权,同期容许通达造访。这种款式确保语料库由其办事的社区构建并为其办事,已促成多项繁衍扣问恶果。
{jz:field.toptypename/}发布于:北京市