知芯

KBQA-Resource

2020-10-07

知识图谱问答相关资源: 数据集,数据集评分、开源代码,持续更新,欢迎收藏和提建议。

1. BenchMark

文章 年份 SimpleQ(Acc) WebQ(F1) WebQSP(F1) CompQ(F1) CWQ(F1) LC-QUAD QALD-6(f1)
1 ACL 2015 40.8
2 ACL 2015 52.5
3 2015 63.9 42.2
4 2016 42.6
5 NAACL 2016 59.7 55.6
6 EMNLP 2018 语义匹配93.1 52.7 42.8
9 NAACL 2019 85.44(FB2M)
11 WSDM 2019 75.4(FB2M)
12 NAACL 2018 74.9(FB2M)
13 EMNLP 2018 78.1(FB2M)
14 NAACL 2019 51.8
15 ACL 2020 74 43.3 40.4,Prec@44.1
16 IJCAI 2020 53.4 43.1 74.8
17 EMNLP 2018 53.6 54.3 0.8
  • SimpleQ:
  • WebQ:
  • CompQ:Junwei Bao, Nan Duan, Zhao Yan, Ming Zhou, and Tiejun Zhao. 2016. Constraint-based question an swering with knowledge graph. In Proceedings of the COLING, pages 2503–2514.
  • WebQSimple: Wen-tau Yih, Ming-Wei Chang, Xiaodong He, and Jianfeng Gao. 2015. Semantic parsing via staged query graph generation: Question answering with knowledge base. In Proceedings of the ACL IJCNLP, pages 1321–1331.
  • ComplexWebQuestion: Alon Talmor and Jonathan Berant. 2018. The web as a knowledge-base for answering complex questions. In Proceedings of the NAACL-HLT, pages 641–651.

2. Paper

  1. Question Answering over Freebase with Multi-Column Convolutional Neural Networks

    • 文章 ACL2015

    • 简要记录

      在对答案进行向量化的时候,直接将答案的路径(问题主题词到答案实体的路径)和上下文信息(答案实体周围的知识库子图)一起作为答案特征,通过multi-hot的方式对答案进行向量化。这样的形式不利于模型区分答案的特征(仅仅根据答案的multi-hot向量是不好区分哪些是答案的类型,哪些来自答案的上下文,哪些来自问题主题词到答案实体的路径)。

      因此我们可以将问题的特征表示拆解开,用三个向量分别表示答案的三个特征,即答案路径(Answer Path)答案上下文信息(Answer Context)答案类型(Answer Type),对于每一个答案特征向量,都用一个卷积网络去对问题进行特征提取,将提取出的分布式表达和该答案对应特征向量的分布式表达进行点乘

  2. Semantic Parsing via Staged Query Graph Generation:Question Answering with Knowledge Base

    • 文章 ACL2015

    • 简要记录

      利用深度学习对该语义解析方法进行提升

      受信息抽取和向量建模方法的启发,将语义解析过程转化成查询图(Query graph)分阶段生成的过程,使用了卷积神经网络来提升自然语言到知识库关系的映射。传统的语义解析方法和知识库本身的联系是不够紧密

      查询图:

      步骤:确定主题词,确定核心推导链,是否增加约束和聚合

  3. Large-scale Simple Question Answering with Memory Networks

    • 文章

    • 简要记录

      介绍如何将记忆网络应用于KB-QA

      其整体思想是将知识库里的知识存储到记忆模块M中问题经过输入模块I转化为分布式表达输出模块O选择与问题最相关的支撑记忆(由于SimpleQustions的问题只依赖一个知识,所以只需要选择一条记忆),回答模块R将该记忆对应三元组的宾语作为最终答案输出

  4. Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Information

    • 文章

    • 简要记录

      根据问题确定主题词,根据主题词确定候选答案,通过候选答案和问题的分布式表达相似度得分确定最终答案。而方法的核心在于学习问题和候选答案的分布式表达。

      对于不同的答案,我们关注问题的焦点是不同的,我们根据候选答案的信息,来引入注意力机制,对同一个问题提取出不同的分布式表达。

      比如 对于问题 “who is the president of France?”,其中之一的答案是实体“Francois Holland”,我们通过知识库可以知道Francois Holland 是一个总统,因此我们会更加关注问句中的 “president”“France” 单词,而根据Francois Holland的类型person,我们会更关注问句中的疑问词who

  5. Question Answering over Knowledge Base using Factual Memory Networks

  6. Knowledge Base Question Answering via Encoding of Complex Query Graphs

  7. Lattice CNNs for Matching Based Chinese Question Answering

    • 文章

    • 简要记录

      匹配用户问题这种短文本,通常面临相同语义的单词和表达方式不唯一的挑战。 中文这种还需要额外分词的语言中,这种现象尤为严重。提出一个基于Lattice CNN的模型,利用在单词语义中多粒度的信息来更好地处理中文问答的匹配。在基于文本问答和知识库问答的实验中,实验结果表明提出的模型可以显著超过目前最好的匹配模型。

  8. Enhancing Key-Value Memory Neural Networks for Knowledge Based Question Answering

  9. Simple Question Answering with Subgraph Ranking and Joint-Scoring

    • 文章 未找到开源代码 提及AMPCNN 第三方实现

    • 简要记录

      文章提出一个统一的框架定义知识图谱问答中的简单问答:子图选择,和事实选择;子图选择对应实体识别、实体链接,事实选择对应候选实体关系和主语关系的匹配。基于此发现一些问题,并分别进行优化:

      • 不精确的匹配和子图中的实体没有按照与mention的相关性排序

        结合字面相关性(最长公共子序列)和语义相关性(共现概率)提高子图选择的召回率;

      • 没有应用主语提及和模式关系之间的依赖

        大多数方式没有考虑主语-提及、关系-句式两个匹配的贡献程度;

      • 最小排序损失是次优的

        现有损失函数的计算丢失了匹配分数之间的相对顺序。

        通过一个带有考虑顺的损失函数的联合评分CNN进行事实选择。

  10. UHop: An Unrestricted-Hop Relation Extraction Framework for Knowledge-Based Question Answering

  11. Knowledge Graph Embedding Based Question Answering

  12. Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Networks

  13. SimpleQuestions Nearly Solved: A New Upperbound and Baseline Approach

    • 文章 EMNLP2018开源代码

    • 简要记录

      可能有多个候选答案,只根据语言信号无法消除歧义,比如“gullivers travels”可能是书名,也可能是电视剧名,语言信号对两者的证实程度是相等的。

      • 确定数据集的歧义比例和上限

        对应到SimpleQuestion数据集,仅从语言信号无法对<subject, releation>对进行消歧。从alias中找到match主语的实体得到实体集合S,然后定义谓词p,R作为与p在数据集中共现的关系,两个集合组合的(s,r)属于知识图谱的对即为候选,候选有多个时表示问题有歧义。33.9的有歧义,将每个主语的关系频率纳入考虑就可以推测这个数据集的上线是85.2%。还发现1.8%的示例问题不指向主语,因此上限是83.4%左右。

        使用crf做主语识别,BiLSTM做关系分类,在没有组装和数据增强的情况下,此基线模型达到78.1%.

      • 结果定量分析

        将歧义的都视作正确的,准确性可达到91.5%。剩余1.9%是由于之前的噪音。最后6.5%中取出50个负样本具体分析,14个是问题本身对正确答案和错误答案贡献一样,36个是模型语义错误。这36个中,16个的关系在训练数据中出现次数小于10次,14个的 subject span不正确,2个的问题没有语法意义。

  14. Bidirectional Attentive Memory Networks for Question Answering over Knowledge Bases

  15. Query Graph Generation for Answering Multi-hop Complex Questions from Knowledge Bases

  16. Formal Query Building with Query Structure Prediction for Complex Question Answering over Knowledge Base

  17. A State-transition Framework to Answer Complex Questions over Knowledge Base

3. 数据集

  1. CCKS 2019 task 6,源地址备用地址备用地址

    A Chinese KBQA dataset containing both simple questions and complex questions.

    For each chinese question, we provide both the gold answers and the gold SPARQL query, so that this dataset can be also applyied in Semantic Parsing task.
    Here is a example:

    1
    2
    3
    q1546:列出中国曾获柏林国际电影节金熊奖的导演?
    select ?x where { ?x <职业> <导演>. ?x <国籍> <中华人民共和国>. ?x <主要成就> "威尼斯国际电影节金狮奖". }
    <张艺谋> <贾樟柯>

    The annotation based on the PKUBASE knowledge base, please click here to download, the extraction code is 3grq.

  2. SimpleQuestion,官网drapbox

    基于freebase

  3. webQuestion, 源地址

    无sparql标注,基于freebase

  4. webQuestionSimple,源地址

    有sparql标注,基于freebase

  5. ComplexQuestion,源地址

    无sparql标注,基于freebase

  6. complexWebQuestion,源地址

    有sparql标注,基于freebase

  7. LC-QuAD

    单跳问题占比18%,先利用一部分 SPARQL 模板,一些种子实体部分关联属性通过 DBpedia 生成具体的 SPARQL,然后再利用定义好的问句模板半自动利用 SPARQL 生成问句,最后通过众包形成最后的标注问题

4. 知识图谱和其他

  1. Freebase dump, 源地址

  2. Virtuoso , github安装文档导入freebase

    知识图谱引擎

  3. coreNLP,官网

Tags: kbqa
使用支付宝打赏
使用微信打赏

若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏

扫描二维码,分享此文章