XNLI数据集
数据集内容:XNLI是一种评估语料库,用于15种语言的语言迁移和跨语言句子分类。
许多NLP系统(例如,情绪分析,主题分类)都依赖于高资源语言的训练数据,但是在测试时不能直接用于其他语言的预测。在涉及跨语言数据的几乎所有应用中,都会遇到此问题。
机器翻译可用于将任意语言,翻译成高资源语言,以缓解此问题。但是,在每个方向上都有MT系统,成本很高,而且并不是跨语言分类的最佳解决方案。跨语言编码器是一种更便宜,更优雅的选择。
为了评估这种跨语言的句子理解方法,构建了XNLI,这是SNLI / MultiNLI语料库的15种语言的扩展 。
数据集数量:XNLI语料库是针对MultiNLI语料库的5000个测试和2500个开发对文字。两对文字均带有文字注释,并被翻译成14种语言:法语,西班牙语,德语,希腊语,保加利亚语,俄语,土耳其语,阿拉伯语,越南语,泰语,中文,北印度语,斯瓦希里语和乌尔都语。
这将产生112.5万个带注释的对。每个文字可以与15种语言中的相应文字进行关联,总计超过1.5M的组合集合。
数据集功能:机器翻译
下载链接:https://github.com/facebookresearch/XNLI
彩蛋1:
算法工程师开发重磅福利:
(1)算法工程师模型部署利器,算法开发平台,安卓手机即可使用,点击查看体验。
(2)智慧安防、智慧交通、智慧社区实战训练营,点击加入。
彩蛋2:
大白购买了不少数据集,以及不断整理各种类型的数据集,放到百度网盘中,便于大家下载使用。
数据集列表及下载方式:点击查看
彩蛋3:
《AI未来星球》陪伴成长的人工智能社群,价值过万的各种内部资源及活动,限时特惠中,点击查看。