PubMedQA是一个生物医学问题回答(QA)数据集,由PubMed摘要收集而来。其主要功能是利用相应的摘要来回答生物医学研究问题,问题的答案格式为是/否/也许。
PubMedQA数据集包含1000个专家标注的QA实例、6.12万个未标注的实例和21.13万个人工生成的QA实例。每个PubMedQA实例包括一个问题(可能是现有研究文章的标题或衍生自标题)、一个上下文(即相应的摘要但不包括结论部分)、一个长答案(即摘要的结论部分,假定能回答研究问题)以及一个是/否/也许的答案(总结了结论)。
PubMedQA的独特之处在于其对PubMed数据来源的深度挖掘。大约有76万篇PubMed文章的标题是以问题的形式呈现的,而这些问题往往直接关联到摘要中的结论部分,为QA系统提供了直接的答案来源。PubMedQA是第一个需要对生物医学研究文本进行推理,特别是其定量内容的问答数据集。
PubMedQA在生物医学问答系统、自然语言处理、信息检索等领域有着广泛的应用价值,可以帮助研究人员更好地理解生物医学文献,发现新的知识,提高生物医学研究的效率和质量。
@版权声明:部分内容从网络收集整理,如有侵权,请联系删除!