DuReader数据集

数据集内容:

机器阅读理解(Machine Reading Comprehension,MRC)是一种利用算法,使计算机理解文章语义并回答相关问题的技术。由于文章和问题均采用人类语言的形式,因此机器阅读理解属于自然语言处理(NLP)的范畴,也是其中最新最热门的课题之一。

下图是一个机器阅读理解的样例,其中,模型需要用文章中的一段原文回答问题。

DuReader是用于机器阅读理解(MRC)和问答(QA)的大规模现实世界中文数据集。

数据集中的所有问题均来自真实的匿名用户查询,使用百度搜索引擎,从网络和百度知道中提取有答案的问题,且答案是人为产生的。

与现有数据集相比,DuReader的优势总结如下:

● 真正的问题

● 真实文章

● 真实答案

● 实际应用场景

● 丰富的注释

数据集数量:DuReader 2.0版包含30万多个问题,140万个证据文档和660K个人工生成的答案。它可以用于训练或评估MRC模型和系统。

数据集功能:机器阅读理解

下载链接:https://github.com/baidu/DuReader


彩蛋1:

算法工程师开发重磅福利:

(1)算法工程师模型部署利器,算法开发平台,安卓手机即可使用,点击查看体验。

(2)智慧安防、智慧交通、智慧社区实战训练营,点击加入。

彩蛋2:

大白购买了不少数据集,以及不断整理各种类型的数据集,放到百度网盘中,便于大家下载使用。

数据集列表及下载方式:点击查看

彩蛋3:

《AI未来星球》陪伴成长的人工智能社群,价值过万的各种内部资源及活动,限时特惠中,点击查看。

发表评论

This site is protected by wp-copyrightpro.com