和传统RAG抢“饭碗”！微软正式开源 GraphRAG

AI快讯 2024-07-04

7月2日，微软在GitHub平台上震撼发布了GraphRAG，这是一项革命性的基于图结构的检索增强生成（RAG）技术，专为解答来自私有或新颖数据集的复杂查询而设计。该项目一经亮相，便迅速收获了社区的热情响应，短时间内便积累了超过2700个星标，彰显了其非凡的潜力与吸引力。

开源地址：https://github.com/microsoft/graphrag

GraphRAG巧妙地融合了大型语言模型（LLMs）与图机器学习技术，通过构建精细化的知识图谱，极大地提升了LLMs在处理私有、非公开数据集时的效能。它不仅能够跨越数据边界，实现跨大型数据集间的复杂语义推理，还显著优化了针对特定企业研究、商业机密文档等私有数据的问答能力，弥补了传统RAG技术在此类场景下的不足。

微软官方博客详细阐述了GraphRAG的卓越表现，指出在广泛的大规模播客与新闻数据集测试中，GraphRAG在回答的全面性、答案的多样性及信息赋权性等多个维度上，均展现出对朴素RAG技术的显著优势，胜率高达70%至80%，展现了其强大的问题解析与答案生成能力。

与传统RAG方法相比，GraphRAG的创新之处在于其独特的处理流程：首先，利用LLMs从多样化数据源中高效提取并构建知识图谱；随后，通过图机器学习技术，将这些图谱智能地聚类成多层次的实体社区，以反映数据间的内在联系；最后，在RAG操作过程中，GraphRAG会深入探索这些社区，生成“社区级”的答案草案，并经过精心缩减与整合，形成既精准又全面的最终答案。这一过程不仅增强了答案的准确性和相关性，还使得GraphRAG在面对复杂、多维度查询时能够游刃有余。

这个方法用微软高大上的说法是：

解锁 LLM 在私有数据集中的探索能力

大语言模型最大的挑战和机遇或许在于如何将其强大的能力，应用到训练数据以外的问题解决中，利用大语言模型没有见过的数据取得可对比的结果。这将为数据调查开拓新的可能性，例如根据数据集的上下文和 ground 确定其主题和语义概念。

下面我们将具体介绍下微软研究院创建的 GraphRAG，这是增强大语言模型能力的一大进步。

检索增强生成（RAG）是一种根据用户的查询语句搜索信息，并以搜索结果为 AI 参考从而生成回答。这项技术是多数基于 LLM 工具的重要组成部分，而多数的 RAG 都采用向量相似性作为搜索的技术。在文档中复杂信息的分析时，GraphRAG 利用 LLM 生成的知识图谱大幅提升了问答的性能，这一点是建立在近期关于私有数据集中执行发现时提示词增强能力的研究之上。微软将私有数据集定义为未被 LLM 训练使用，且 LLM 从未见过的数据，例如某企业的专有研究、商业文件或通讯。

基线 RAG（Baseline RAG）因此而生，但基准 RAG 在某些情况下表现非常差，例如：基线 RAG 很难连点成线。这种情况出现在问题的回答需要通过共用属性遍历不同信息片段以提供新的综合见解时。

基线 RAG 在需要全面地理解大型数据集或单一大型文档的语义概念时，表现会很差。

为解决这一问题，业界正在努力开发扩展和增强 RAG 的方法（如 LlamaIndex）。微软研究院的新方法 GraphRAG 便是基于私有数据集创建知识图谱，并将图谱与机器学习一同用于在查询时执行提示词的增强。在回答上述两类问题情况时，GraphRAG 展示了显著的改进，其智能或者说精通的程度远超先前应用私有数据集的其他方法。

应用 RAG 于私有数据集

为证明 GraphRAG 的有效性，GraphRAG 先以新闻文章中暴力事件信息（VIINA）数据集为例，该数据集复杂且存在相左的意见和不完整的信息，是一个现实世界中杂乱的测试示例，又因其出现时间过于近期，所以并未被纳入 LLM 基础模型的训练中。

在这项研究中，微软采用了俄罗斯和乌克兰双方新闻来源在 2023 年 6 月中的上千篇新闻报道，将其翻译为英文后建成了这份将被用于基于 LLM 检索的私有数据集。由于数据集过大无法放入 LLM 上下文的窗口，因此需采用 RAG 方法。

微软团队首先向基线 RAG 系统和 GraphRAG 提出一个探索查询：

查询语句：“Novorossiya 是什么？”

通过结果可以看出，两个系统表现都很好，这是基线 RAG 表现出色的一类查询。然后他们换成了一段需要连点成线的查询：

查询语句：“Novorossiya 做了什么？”

基线 RAG 没能回答这一问题，根据图一中插入上下文窗口的源文件来看，没有任何文本片段提及“Novorossiya”，从而导致了这一失败。

图一：基线 RAG 检索到的上下文

相较之下，GraphRAG 方法发现了查询语句中的实体“Novorossiya”，让 LLM 能以此为基础建立图谱，连接原始支持文本从而生成包含出处的优质答案。举例来说，图二中展示了 LLM 在生成语句时所截取的内容，“Novorossiya 与摧毁自动取款机的计划有所关联。”可以从原始文本的片段（翻译为英文后）中看出，LLM 是通过图谱中两个实体之间的关系，断言 Novorossiya 将某一银行作为目标的。

图二：GraphRAG 出处

通过 LLM 生成的知识图谱，GraphRAG 大幅改善了 RAG 的“检索”能力；在上下文窗口中填充相关性更高的内容、捕捉出处论据从而提供更为优质的答案。

信任和验证 LLM 所生成的结果始终是重要的。微软希望结果总是事实性正确、连贯一致，并且能准确地反映原始材料中的内容。GraphRAG 每次生成回答时总会提供出处或源基础信息，表明它的回答时以数据集为基础的。每个论断的引用来源都一目了然，人类用户能够直接对照原始材料，快速且准确地审核 LLM 的输出结果。

不过这还不是 GraphRAG 可以实现的全部功能。

完整数据集推理

基线 RAG 不擅长处理需要汇总全部数据集信息才能得出答案的查询。类似“数据中排行前五的主题是什么？”的查询表现不佳，是因为基线 RAG 依赖对数据集中语义相似文本内容的矢量搜索，而查询语句中却没有任何能引导它找到正确信息的关键词。

但 GraphRAG 却可以回答这类问题。LLM 生成的知识图谱结构给出了数据集的整体结构和其中主题，让私有数据集也能被组织成有意义的语义集群并对其进行预总结。在回应用户查询时，LLM 会使用这些聚类对主题进行总结。

通过下面这条语句，可以展示出两套系统对数据集整体的推理能力：

查询语句：“数据中排行前五的主题有哪些？”

从基线 RAG 的结果来看，列出的主题中没有一个提及两者之间的纷争。正如预期，矢量搜索检索到了无关的文本，并将其插入 LLM 的上下文窗口中。生成的结果很可能是根据关键词“主题”进行搜索，导致了其对数据集内容的评估不够有用。

再看 GraphRAG 的结果，可以清楚看到其生成的结果与数据集整体内容更为吻合。回答中提供了五大主题及其在数据集中观察刀的辅助细节。其中参考的报告是由 LLM 为 GraphRAG 根据每个语义集合预先生成，提供了对原始材料出处的对照。

创建 LLM 生成的知识图谱

支持 GraphRAG 的基本流程是建立在先前对图机器学习的研究和代码库上的：LLM 处理全部私有数据集，为源数据中所有实体和关系创建引用，并将其用于创建 LLM 生成的知识图谱。利用生成的图谱创建自下而上的聚类，将数据分层并组织成语义聚类（在图三中由颜色标识）。这种划分让预先总结语义概念和主题成为可能，从而更全面地理解数据集。在查询时，两种结构均被用于填充 LLM 回答问题时的上下文窗口。

图三为图谱可视化的示例，每个圆圈都代表一个实体（如人物、地点或组织），圆圈大小代表该实体拥有的关系数量，颜色代表相似实体的分组。颜色分区时建立在图结构基础上的一种从下至上的聚类方法，让 GraphRAG 能回答不同抽象程度的问题。

图三：利用 GPT-4 Turbo 和私有数据集创建 LLM 生成的知识图谱

结果指标

上述示例中表现了 GraphRAG 在多个跨领域数据集上的持续改进。微软采用 LLM 的一个评分器给 GraphRAG 和基线 RAG 的表现进行评估和对比，设定了一系列定性指标，其中包括全面性（问题指向背景框架内的完整性）、人性化（提供辅助原始材料或其他背景信息），以及多样性（提供问题回答的不同角度或观点）。初步结果显示，GraphRAG 在这些指标上始终优于基线 RAG。

除了对比评估，他们还采用 SelfCheckGPT 对 GraphGPT 进行了忠实性的测试，以验证其基于原始材料的真实且连贯的生成结果。结果显示，GraphRAG 达到了与基线 RAG 相似的忠实度水平。

通过将 LLM 生成的知识图谱与图机器学习相结合，GraphRAG 能回答重要的问题类别，而这些问题是无法单独使用基线 RAG 完成的。在将这项技术应用于社交媒体、新闻文章、工作中生产力及化学等场景后，微软已经观察到了可喜的成果，未来他们将继续在各类新领域中应用这项技术。

微软