首页 » 互联网 > 正文

Mozilla发布Common Voice 2.0数据集

2月28日,Mozilla正式公布了Common Voice 2.0数据集。感谢社区在voice.mozilla.org的努力,现在任何人都可以访问世界上最大的转录公共领域语音数据集。

来自Mozilla:

Common Voice 2.0包括18种不同的语言,从超过42,000名贡献者那里累计录制了近1,400小时的语音数据!共同呼声2.0数据集包括用于音频和成绩单布列塔尼,加泰罗尼亚语,国语(繁体),楚瓦什,荷兰语,英语,爱沙尼亚语,法语,德语,Hakha展,爱尔兰,,卡拜尔,吉尔吉斯斯坦,斯洛文尼亚,鞑靼语,土耳其语,和威尔士人。

Mozilla通过在“无权利保留”Public Domain许可下公布该数据,使其成为真正的公共领域。根据知识共享组织的说法,这为其他人提供了“为任何目的自由地构建,增强和重用作品”的最佳机会。

恭喜Mozilla取得这一成就!如果您是不熟悉Common Voice项目的Mycroft社区成员,请前往voice.mozilla.org以参与Common Voice数据集。您可以捐赠您的声音或验证录音的准确性。

我为什么在意?

通过访问数据,大型成熟公司在机器学习方面具有很大的优势。提供开放数据集同意 任何研究人员,项目,公司甚至业余爱好者推动语音技术的创新。这肯定是我们在Mycroft喜欢的东西。

该数据集中所包含的贡献的多样性也是向全世界更多人口提供语音技术的重要一步。Common Voice 2.0代表全球语音贡献者社区。为了与开放的精神保持一致,贡献者选择提供年龄,性别和口音等元数据,以便他们的语音剪辑标记实用于训练语音识别引擎的信息。

例如,Mozilla最近与DeutscheGesellschaftfürInternationaleZusammenarbeit(GIZ)合作,并在基加利共同主持了一个构思黑客马拉松,为基尼亚卢旺达创建了一个语音库,为卢旺达当地技术人员开辟开源语音技术奠定了基础。自己的语言。

除语音技术外,您还可以使用Common Voice来构建艺术项目,或者无限制地研究语言语言模式。

我们很高兴看到Mozilla在Common Voice项目上取得发展,我们对它对DeepSpeech项目所带来的改进感到兴奋。了解更广泛的演讲者 - 具有不同的口音,音调和音调 - 最终将使Mycroft更易于访问和私密。Mycroft继续从我们的Opted-In用户那里收集话语,以构建一个特定于Mycroft的数据集,以确保Mark I,Picroft和未来Mycroft平台的最佳可用性。