大模型时代下KG与图数据库的思变：从NebulaGraph、TigerGraph、Neo4j与大模型的结合尝试

AI 5个月前 admin

36 0 0

今天是2023年12月7日，星期四，北京，天气晴。

我们来继续看看大模型与知识图谱的一些结合工作。

图数据库是知识图谱产业中十分重要的一环，而在大模型时代下，现有图数据库也需要思变，其需要跟大模型进行结合。例如，Nebular-graphneo4jstar-dogtigergraph等，其与langchain结合，通通过大模型生成sql查询语句等，都是一些有趣的尝试。

本文对这些工作进行介绍，供大家一起思考。

一、NebulaGraph的Graph-RAG

文章《Knowledge Graphs & LLMs: Integrating Large Language Models with NebulaGraph》（地址：https://www.nebula-graph.io/posts/knowledge-graphs-via-natural-language）中，给出了nebular-graph与大模型的一些尝试。

我们在之前的文章《基于知识图谱的大模型检索增强实现策略：Graph RAG实现基本原理及优化思路》（地址：https://mp.weixin.qq.com/s/ulhu7qj93d3PRWoUpNcCug）中，对基于知识图谱召回来进行大模型问答增强的方案进行了介绍。

Graph RAG是由悦数图数据提出的概念，是一种基于知识图谱的检索增强技术，通过构建图模型的知识表达，将实体和关系之间的联系用图的形式进行展示，然后利用大语言模型 LLM进行检索增强。

Graph RAG 将知识图谱等价于一个超大规模的词汇表，而实体和关系则对应于单词。通过这种方式，Graph RAG 在检索时能够将实体和关系作为单元进行联合建模。

一个简单的 Graph RAG 思想在于，对用户输入的query提取实体，然后构造子图形成上下文，最后送入大模型完成生成，如下代码所示：


def simple_graph_rag(query_str, nebulagraph_store, llm):
    entities = _get_key_entities(query_str, llm)
    graph_rag_context = _retrieve_subgraph_context(entities)
    return _synthesize_answer(
        query_str, graph_rag_context, llm)

首先，使用LLM(或其他)模型从问题中提取关键实体。

def _get_key_entities(query_str, llm=None ,with_llm=True):
    ...
    return _expand_synonyms(entities)

其次，根据这些实体检索子图，深入到一定的深度，例如可以是2度甚至更多。

def _retrieve_subgraph_context(entities, depth=2, limit=30):
    ...
    return nebulagraph_store.get_relations(entities, depth, limit)

最后，利用获得的上下文利用LLM产生答案。

def _synthesize_answer(query_str, graph_rag_context, llm):
    return llm.predict(PROMPT_SYNTHESIZE_AND_REFINE, query_str, graph_rag_context)

这样一来，知识图谱召回可以作为一路和传统的召回进行融合。

例如，下图所示，当用户输入，tell me about Peter quill时，先识别关键词quil，编写cypher语句获得二跳结果。

大模型时代下KG与图数据库的思变：从NebulaGraph、TigerGraph、Neo4j与大模型的结合尝试

又如，如下例子来说明：

用户输入：Tell me events about NASA

得到关键词：Query keywords: [‘NASA’, ‘events’]

召回二度逻辑：

Extracted relationships: The following are knowledge triplets in max depth 2 in the form of `subject [predicate, object, predicate_next_hop, object_next_hop ...]

nasa ['public release date', 'mid-2023']
nasa ['announces', 'future space telescope programs']
nasa ['publishes images of', 'debris disk']
nasa ['discovers', 'exoplanet lhs 475 b']

送入LLM完成问答。

INFO:llama_index.indices.knowledge_graph.retriever:> Starting query: Tell me events about NASA
> Starting query: Tell me events about NASA
> Starting query: Tell me events about NASA
INFO:llama_index.indices.knowledge_graph.retriever:> Query keywords: ['NASA', 'events']
> Query keywords: ['NASA', 'events']
> Query keywords: ['NASA', 'events']
INFO:llama_index.indices.knowledge_graph.retriever:> Extracted relationships: The following are knowledge triplets in max depth 2 in the form of `subject [predicate, object, predicate_next_hop, object_next_hop ...]`
nasa ['public release date', 'mid-2023']
nasa ['announces', 'future space telescope programs']
nasa ['publishes images of', 'debris disk']
nasa ['discovers', 'exoplanet lhs 475 b']
> Extracted relationships: The following are knowledge triplets in max depth 2 in the form of `subject [predicate, object, predicate_next_hop, object_next_hop ...]`
nasa ['public release date', 'mid-2023']
nasa ['announces', 'future space telescope programs']
nasa ['publishes images of', 'debris disk']
nasa ['discovers', 'exoplanet lhs 475 b']
> Extracted relationships: The following are knowledge triplets in max depth 2 in the form of `subject [predicate, object, predicate_next_hop, object_next_hop ...]`
nasa ['public release date', 'mid-2023']
nasa ['announces', 'future space telescope programs']
nasa ['publishes images of', 'debris disk']
nasa ['discovers', 'exoplanet lhs 475 b']
INFO:llama_index.token_counter.token_counter:> [get_response] Total LLM token usage: 159 tokens
> [get_response] Total LLM token usage: 159 tokens
> [get_response] Total LLM token usage: 159 tokens
INFO:llama_index.token_counter.token_counter:> [get_response] Total embedding token usage: 0 tokens
> [get_response] Total embedding token usage: 0 tokens
> [get_response] Total embedding token usage: 0 tokens
INFO:llama_index.token_counter.token_counter:> [get_response] Total LLM token usage: 159 tokens
> [get_response] Total LLM token usage: 159 tokens
> [get_response] Total LLM token usage: 159 tokens
INFO:llama_index.token_counter.token_counter:> [get_response] Total embedding token usage: 0 tokens
> [get_response] Total embedding token usage: 0 tokens
> [get_response] Total embedding token usage: 0 tokens

二、TigerGraph与langchain的结合

TigerGraph的《Integrating TigerGraph and Large Language Models for Generative AI》（地址：https://www.tigergraph.com/blog/integrating-tigergraph-and-llms-for-generative-ai/）中，也是从图数据库的角度，谈了谈与大模型的结合。

其中，一个demo级别的尝试，是LangChain与TigerGraph的Python驱动程序pyTigerGraph集成。

具体的实例可以参考：https://github.com/tigergraph/graph-ml-notebooks/blob/main/applications/large_language_models/TigerGraph_LangChain_Demo.ipynb

1、具体执行逻辑

三个用于与TigerGraph交互的工具：MapQuestionToSchema、GenerateFunction和ExecuteFunction。

LangChain将LLM包装成一个代理，该代理可以自行推理和执行一系列任务。在这种情况下，无论向数据库提出什么问题，代理都会执行相同的一般执行流程。

首先，使用工具MapQuestionToSchema将问题映射到图表的schema。 MapQuestionToSchema要求LLM翻译用户的问题以利用标准模式元素。例如，如果有“机构”的顶点类型，并且用户问“有多少所大学？”，该工具将返回“有多少个机构顶点？”的问题。工具中的LLM会自动将模式元素的同义词转换为其标准化形式。

然后，标准化问题传递给GenerateFunction工具，该工具填充正确的pyTigerGraph函数调用以在数据库上运行。 GenerateFunction然后使用另一个LLM创建pyTigerGraph函数调用。对于问题“有多少个机构顶点？”然后将转换为“getVertexCount（“机构”）”。

最后，该函数调用在ExecuteFunction工具中运行，这返回来自数据库的回复，然后由代理解析并以自然英语陈述答案。

2、一个具体的例子

使用使用OGB MAG数据集的例子进行说明，包括有关论文、作者、主题和机构的信息，以及以下模式中显示的关系。

例如，询问：“how many papers are there?”简单问题时，利用langchain可以完成答案搜索。

又如，询问：“how many papers have a y attribute equal to 1?”复杂问题时。

三、stardog、neo4j与大模型结合的尝试

文章《How AI Uses Stardog》（地址：https://www.stardog.com/blog/how-ai-uses-stardog/）中介绍了stardog数据库与大模型结合的案例

此外，对于neo4j而言，地址https://neo4j.com/generativeAI/中也加上了图数据库与大模型之间的融合工作：

其提出neo4j可以从以下四个方面进行工作：

在LangChain、LlamaIndex等协调框架中直接使用Neo4j；在Neo4j知识图谱中添加矢量嵌入并建立索引；利用云端和本地的所有模型提供者为用户输入生成嵌入信息；通过向量索引中的相似性搜索查找最相关的节点，并从知识图谱中检索上下文信息；用用户问题提示任何 LLM（云或本地）进行自然语言搜索；用检索增强生成的上下文信息将LLM置于基建位置。

import neo4j
import langchain.embeddings
import langchain.chat_models
import langchain.prompts.chat

emb = OpenAIEmbeddings() # VertexAIEmbeddings() or BedrockEmbeddings() or ...
llm = ChatOpenAI() # ChatVertexAI() or BedrockChat() or ChatOllama() ...

vector = emb.embed_query(user_input)

vectory_query = """
// find products by similarity search in vector index
CALL db.index.vector.queryNodes('products', 5, $embedding) yield node as product, score

// enrich with additional explicit relationships from the knowledge graph
MATCH (product)-[:HAS_CATEGORY]->(cat), (product)-[:BY_BRAND]->(brand)
MATCH (product)-[:HAS_REVIEW]->(review {rating:5})<-[:WROTE]-(customer) 

// return relevant contextual information
RETURN product.Name, product.Description, brand.Name, cat.Name, 
       collect(review { .Date, .Text })[0..5] as reviews, score
"""

records = neo4j.driver.execute_query(vectory_query, embedding = vector)
context = format_context(records)

template = """
You are a helpful assistant that helps users find information for their shopping needs.
Only use the context provided, do not add any additional information.
Context:  {context}
User question: {question}
"""
chain = prompt(template) | llm

answer = chain.invoke({"question":user_input, "context":context}).content

总结

本文主要介绍了现有图数据库跟大模型结合的一些动作，他们也在思变，可以看看。例如，Nebular-graphneo4jstar-dogtigergraph等，其与langchain结合，通通过大模型生成sql查询语句等，但具体效果如何，在真实场景下如何落地，还需要进一步观察和实践。

参考文献

1、https://www.tigergraph.com/blog/integrating-tigergraph-and-llms-for-generative-ai/

2、https://www.nebula-graph.io/

3、https://www.stardog.com/blog/how-ai-uses-stardog/

4、https://neo4j.com/

5、https://www.nebula-graph.io/posts/knowledge-graphs-via-natural-language

关于我们

老刘，刘焕勇，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的，可关注公众号，在后台菜单栏中点击会员社区->会员入群加入。

原文始发于微信公众号（老刘说NLP）：大模型时代下KG与图数据库的思变：从NebulaGraph、TigerGraph、Neo4j与大模型的结合尝试

版权声明：admin 发表于 2023年12月7日上午11:41。
转载请注明：大模型时代下KG与图数据库的思变：从NebulaGraph、TigerGraph、Neo4j与大模型的结合尝试 | CTF导航

PGL图学习之图游走类metapath2vec模型[系列五]

admin

424

基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解，侧重模型推导细化以及LAC分词实践、经典技术

admin

G.O.S.S.I.P 阅读推荐 2022-11-07 SpecPatch

admin

522

【技术分享】SirenAttack：针对端到端语音系统的对抗性音频攻击

admin

447

[TPAMI 2023] SPTS v2: Single-Point Scene Text Spotting（已开源）

admin

100

TTS文本合成语音|Sambert微调

admin

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

大模型时代下KG与图数据库的思变：从NebulaGraph、TigerGraph、Neo4j与大模型的结合尝试

一、NebulaGraph的Graph-RAG

二、TigerGraph与langchain的结合

三、stardog、neo4j与大模型结合的尝试

总结

参考文献

关于我们

再看知识图谱增强大模型问答范式：LLM⊗KG范式下的知识图谱问答实现框架思想阅读

检测成熟度级别 (DML) 模型

相关文章

暂无评论

相关文章

大模型时代下KG与图数据库的思变：从NebulaGraph、TigerGraph、Neo4j与大模型的结合尝试

一、NebulaGraph的Graph-RAG

二、TigerGraph与langchain的结合

三、stardog、neo4j与大模型结合的尝试

总结

参考文献

关于我们

再看知识图谱增强大模型问答范式：LLM⊗KG范式下的知识图谱问答实现框架思想阅读

检测成熟度级别 (DML) 模型

相关文章

暂无评论

广告位

相关文章