DuReader数据集
数据集内容:
机器阅读理解(Machine Reading Comprehension,MRC)是一种利用算法,使计算机理解文章语义并回答相关问题的技术。由于文章和问题均采用人类语言的形式,因此机器阅读理解属于自然语言处理(NLP)的范畴,也是其中最新最热门的课题之一。
下图是一个机器阅读理解的样例,其中,模型需要用文章中的一段原文回答问题。
DuReader是用于机器阅读理解(MRC)和问答(QA)的大规模现实世界中文数据集。
数据集中的所有问题均来自真实的匿名用户查询,使用百度搜索引擎,从网络和百度知道中提取有答案的问题,且答案是人为产生的。
与现有数据集相比,DuReader的优势总结如下:
● 真正的问题
● 真实文章
● 真实答案
● 实际应用场景
● 丰富的注释
数据集数量:DuReader 2.0版包含30万多个问题,140万个证据文档和660K个人工生成的答案。它可以用于训练或评估MRC模型和系统。
数据集功能:机器阅读理解
下载链接:https://github.com/baidu/DuReader
彩蛋1:
算法工程师开发重磅福利:
(1)算法工程师模型部署利器,算法开发平台,安卓手机即可使用,点击查看体验。
(2)智慧安防、智慧交通、智慧社区实战训练营,点击加入。
彩蛋2:
大白购买了不少数据集,以及不断整理各种类型的数据集,放到百度网盘中,便于大家下载使用。
数据集列表及下载方式:点击查看
彩蛋3:
《AI未来星球》陪伴成长的人工智能社群,价值过万的各种内部资源及活动,限时特惠中,点击查看。