XNLI数据集

数据集内容:XNLI是一种评估语料库,用于15种语言的语言迁移和跨语言句子分类。

许多NLP系统(例如,情绪分析,主题分类)都依赖于高资源语言的训练数据,但是在测试时不能直接用于其他语言的预测。在涉及跨语言数据的几乎所有应用中,都会遇到此问题。

机器翻译可用于将任意语言,翻译成高资源语言,以缓解此问题。但是,在每个方向上都有MT系统,成本很高,而且并不是跨语言分类的最佳解决方案。跨语言编码器是一种更便宜,更优雅的选择。

为了评估这种跨语言的句子理解方法,构建了XNLI,这是SNLI / MultiNLI语料库的15种语言的扩展 。

数据集数量:XNLI语料库是针对MultiNLI语料库的5000个测试和2500个开发对文字。两对文字均带有文字注释,并被翻译成14种语言:法语,西班牙语,德语,希腊语,保加利亚语,俄语,土耳其语,阿拉伯语,越南语,泰语,中文,北印度语,斯瓦希里语和乌尔都语。

这将产生112.5万个带注释的对。每个文字可以与15种语言中的相应文字进行关联,总计超过1.5M的组合集合。

数据集功能:机器翻译

下载链接:https://github.com/facebookresearch/XNLI


彩蛋1:

算法工程师开发重磅福利:

(1)算法工程师模型部署利器,算法开发平台,安卓手机即可使用,点击查看体验。

(2)智慧安防、智慧交通、智慧社区实战训练营,点击加入。

彩蛋2:

大白购买了不少数据集,以及不断整理各种类型的数据集,放到百度网盘中,便于大家下载使用。

数据集列表及下载方式:点击查看

彩蛋3:

《AI未来星球》陪伴成长的人工智能社群,价值过万的各种内部资源及活动,限时特惠中,点击查看。

发表评论

This site is protected by wp-copyrightpro.com