SNLI语料库(1.0版)是一个570k人工编写的英语句子对的集合,这些句子对经过手动标记以实现平衡分类,并带有enume,矛盾和中性标签,支持自然语言推理(NLI)的任务,也称为识别文本蕴涵(RTE)。
Quora Question Pair是美国知识问答网站Quora发布的数据集,包括超过40万个问题对,旨在检测出重复的问题对
命名实体识别中的常用数据集
该数据集包含来自亚马逊的精美食品评论。
训练集中有8000个句子,测试集中有2717个句子。
Ubuntu Dialog Corpus是Ubuntu平台的技术支持人员与用户之间的对话数据集,包括大约930000个多轮对话,我们采样部分数据作为本案例使用的数据集。
MMDetection是基于PyTorch的开源对象检测工具箱。这是香港中文大学多媒体实验室开发的OpenMMLab项目的一部分。
Ubuntu对话语料库
来自github的关系抽取数据集。
该代码是Ubuntu对话语料库中引入的Dual-Encoder LSTM的实现:用于非结构化多转对话系统的大型数据集。
使用Tab-delimited Bilingual Sentence Pairs数据集中的英汉语料,数据集中共有22075个中英语句对
毫米波探测数据集
基于表示学习的实体对齐方法常用的数据集。
可用于实训平台学习案例下载使用。
来自2010年OAEI(Ontology Alignment Evaluation Initiative)比赛实例匹配赛道的数据集PR