知识图谱问答相关资源: 数据集,数据集评分、开源代码,持续更新,欢迎收藏和提建议。
1. BenchMark
文章 | 年份 | SimpleQ(Acc) | WebQ(F1) | WebQSP(F1) | CompQ(F1) | CWQ(F1) | LC-QUAD | QALD-6(f1) |
---|---|---|---|---|---|---|---|---|
1 | ACL 2015 | 40.8 | ||||||
2 | ACL 2015 | 52.5 | ||||||
3 | 2015 | 63.9 | 42.2 | |||||
4 | 2016 | 42.6 | ||||||
5 | NAACL 2016 | 59.7 | 55.6 | |||||
6 | EMNLP 2018 | 语义匹配93.1 | 52.7 | 42.8 | ||||
9 | NAACL 2019 | 85.44(FB2M) | ||||||
11 | WSDM 2019 | 75.4(FB2M) | ||||||
12 | NAACL 2018 | 74.9(FB2M) | ||||||
13 | EMNLP 2018 | 78.1(FB2M) | ||||||
14 | NAACL 2019 | 51.8 | ||||||
15 | ACL 2020 | 74 | 43.3 | 40.4,Prec@44.1 | ||||
16 | IJCAI 2020 | 53.4 | 43.1 | 74.8 | ||||
17 | EMNLP 2018 | 53.6 | 54.3 | 0.8 |
- SimpleQ:
- WebQ:
- CompQ:Junwei Bao, Nan Duan, Zhao Yan, Ming Zhou, and Tiejun Zhao. 2016. Constraint-based question an swering with knowledge graph. In Proceedings of the COLING, pages 2503–2514.
- WebQSimple: Wen-tau Yih, Ming-Wei Chang, Xiaodong He, and Jianfeng Gao. 2015. Semantic parsing via staged query graph generation: Question answering with knowledge base. In Proceedings of the ACL IJCNLP, pages 1321–1331.
- ComplexWebQuestion: Alon Talmor and Jonathan Berant. 2018. The web as a knowledge-base for answering complex questions. In Proceedings of the NAACL-HLT, pages 641–651.
2. Paper
Question Answering over Freebase with Multi-Column Convolutional Neural Networks
简要记录
在对答案进行向量化的时候,直接将答案的路径(问题主题词到答案实体的路径)和上下文信息(答案实体周围的知识库子图)一起作为答案特征,通过multi-hot的方式对答案进行向量化。这样的形式不利于模型区分答案的特征(仅仅根据答案的multi-hot向量是不好区分哪些是答案的类型,哪些来自答案的上下文,哪些来自问题主题词到答案实体的路径)。
因此我们可以将问题的特征表示拆解开,用三个向量分别表示答案的三个特征,即答案路径(Answer Path),答案上下文信息(Answer Context),答案类型(Answer Type),对于每一个答案特征向量,都用一个卷积网络去对问题进行特征提取,将提取出的分布式表达和该答案对应特征向量的分布式表达进行点乘
Semantic Parsing via Staged Query Graph Generation:Question Answering with Knowledge Base
简要记录
利用深度学习对该语义解析方法进行提升
受信息抽取和向量建模方法的启发,将语义解析过程转化成查询图(Query graph)分阶段生成的过程,使用了卷积神经网络来提升自然语言到知识库关系的映射。传统的语义解析方法和知识库本身的联系是不够紧密
查询图:
步骤:确定主题词,确定核心推导链,是否增加约束和聚合
Large-scale Simple Question Answering with Memory Networks
简要记录
介绍如何将记忆网络应用于KB-QA
其整体思想是将知识库里的知识存储到记忆模块M中,问题经过输入模块I转化为分布式表达,输出模块O选择与问题最相关的支撑记忆(由于SimpleQustions的问题只依赖一个知识,所以只需要选择一条记忆),回答模块R将该记忆对应三元组的宾语作为最终答案输出。
Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Information
简要记录
根据问题确定主题词,根据主题词确定候选答案,通过候选答案和问题的分布式表达相似度得分确定最终答案。而方法的核心在于学习问题和候选答案的分布式表达。
对于不同的答案,我们关注问题的焦点是不同的,我们根据候选答案的信息,来引入注意力机制,对同一个问题提取出不同的分布式表达。
比如 对于问题 “who is the president of France?”,其中之一的答案是实体“Francois Holland”,我们通过知识库可以知道Francois Holland 是一个总统,因此我们会更加关注问句中的 “president” 和 “France” 单词,而根据Francois Holland的类型person,我们会更关注问句中的疑问词who。
Question Answering over Knowledge Base using Factual Memory Networks
简要记录
WebQuestin F1 55.6
simpleQuestion Acc 59.7
Knowledge Base Question Answering via Encoding of Complex Query Graphs
简要记录
解决复杂问题,兼顾简单问题,基于SP+NN的方式。
Lattice CNNs for Matching Based Chinese Question Answering
简要记录
匹配用户问题这种短文本,通常面临相同语义的单词和表达方式不唯一的挑战。 中文这种还需要额外分词的语言中,这种现象尤为严重。提出一个基于Lattice CNN的模型,利用在单词语义中多粒度的信息来更好地处理中文问答的匹配。在基于文本问答和知识库问答的实验中,实验结果表明提出的模型可以显著超过目前最好的匹配模型。
Enhancing Key-Value Memory Neural Networks for Knowledge Based Question Answering
Simple Question Answering with Subgraph Ranking and Joint-Scoring
文章 未找到开源代码 提及AMPCNN 第三方实现
简要记录
文章提出一个统一的框架定义知识图谱问答中的简单问答:子图选择,和事实选择;子图选择对应实体识别、实体链接,事实选择对应候选实体关系和主语关系的匹配。基于此发现一些问题,并分别进行优化:
不精确的匹配和子图中的实体没有按照与mention的相关性排序
结合字面相关性(最长公共子序列)和语义相关性(共现概率)提高子图选择的召回率;
没有应用主语提及和模式关系之间的依赖
大多数方式没有考虑主语-提及、关系-句式两个匹配的贡献程度;
最小排序损失是次优的
现有损失函数的计算丢失了匹配分数之间的相对顺序。
通过一个带有考虑顺的损失函数的联合评分CNN进行事实选择。
UHop: An Unrestricted-Hop Relation Extraction Framework for Knowledge-Based Question Answering
Knowledge Graph Embedding Based Question Answering
-
开源代码未提供知识图谱embedding部分issue
-
Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Networks
SimpleQuestions Nearly Solved: A New Upperbound and Baseline Approach
简要记录
可能有多个候选答案,只根据语言信号无法消除歧义,比如“gullivers travels”可能是书名,也可能是电视剧名,语言信号对两者的证实程度是相等的。
确定数据集的歧义比例和上限
对应到SimpleQuestion数据集,仅从语言信号无法对<subject, releation>对进行消歧。从alias中找到
match
主语的实体得到实体集合S
,然后定义谓词p
,R
作为与p
在数据集中共现的关系,两个集合组合的(s,r)
属于知识图谱的对即为候选,候选有多个时表示问题有歧义。33.9
的有歧义,将每个主语的关系频率纳入考虑就可以推测这个数据集的上线是85.2%
。还发现1.8%
的示例问题不指向主语,因此上限是83.4%
左右。使用
crf
做主语识别,BiLSTM
做关系分类,在没有组装和数据增强的情况下,此基线模型达到78.1%
.结果定量分析
将歧义的都视作正确的,准确性可达到
91.5%
。剩余1.9%
是由于之前的噪音。最后6.5%
中取出50个负样本具体分析,14
个是问题本身对正确答案和错误答案贡献一样,36
个是模型语义错误。这36
个中,16
个的关系在训练数据中出现次数小于10
次,14
个的 subject span不正确,2
个的问题没有语法意义。
Bidirectional Attentive Memory Networks for Question Answering over Knowledge Bases
- 文章 NAACL2019,开源代码,
- 简要记录
Query Graph Generation for Answering Multi-hop Complex Questions from Knowledge Bases
Formal Query Building with Query Structure Prediction for Complex Question Answering over Knowledge Base
A State-transition Framework to Answer Complex Questions over Knowledge Base
3. 数据集
CCKS 2019 task 6,源地址, 备用地址, 备用地址;
A Chinese KBQA dataset containing both simple questions and complex questions.
For each chinese question, we provide both the gold answers and the gold SPARQL query, so that this dataset can be also applyied in Semantic Parsing task.
Here is a example:1
2
3q1546:列出中国曾获柏林国际电影节金熊奖的导演?
select ?x where { ?x <职业> <导演>. ?x <国籍> <中华人民共和国>. ?x <主要成就> "威尼斯国际电影节金狮奖". }
<张艺谋> <贾樟柯>The annotation based on the PKUBASE knowledge base, please click here to download, the extraction code is
3grq
.-
基于freebase
webQuestion, 源地址
无sparql标注,基于freebase
webQuestionSimple,源地址
有sparql标注,基于freebase
ComplexQuestion,源地址
无sparql标注,基于freebase
complexWebQuestion,源地址
有sparql标注,基于freebase
LC-QuAD
单跳问题占比18%,先利用一部分
SPARQL 模板
,一些种子实体
和部分关联属性
通过DBpedia
生成具体的 SPARQL,然后再利用定义好的问句模板半自动利用 SPARQL 生成问句,最后通过众包形成最后的标注问题。
4. 知识图谱和其他
Freebase dump, 源地址
Virtuoso , github, 安装文档,导入freebase
知识图谱引擎
coreNLP,官网
若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏
扫描二维码,分享此文章