一、介绍

本文主要是介绍知识图谱的构建，其中包括不同方式实现实体抽取和关系抽取以及包括知识融合的难点说明

二、实现方案说明

1、实体抽取

在实体抽取环节，目前主要介绍和演示一下几种方案：

基于规则的实体抽取-----可作用工业级方案的规则补充
基于机器学习的实体抽取------目前工业级方案中采取的比较少，代表如CRF----目前也主要是介绍基于CRF的实体抽取
基于深度学习的实体抽取------目前工业级方案中采用的比较多

* 代表方案如：BILSTM+CRF---目前演示选择的方案

基于预训练模型的实体抽取

* 代表方案如：BERT+CRF---目前演示选择的方案

基于通用LLM的实体抽取-------负责抽取复杂文本中的实体

* 代表方案如：LLM---目前演示选择的方案

1.1 实体抽取技术演进全览

实体抽取（Named Entity Recognition, NER）是知识图谱构建的第一道工序。30年来，技术路线经历了五次范式迁移。

1.2 技术路线谱系图

1990s ----------------- 2005 ---------------- 2015 ---------------- 2019 ----------------- 2024 →

│ │ │ │ │

基于规则机器学习深度学习预训练模型大语言模型

│ │ │ │ │

├─ 词典匹配 ├─ CRF ├─ BiLSTM+CRF ├─ BERT+CRF ├─ Zero-shot

├─ 正则表达式 ├─ HMM ├─ IDCNN ├─ RoBERTa ├─ Few-shot

└─ 规则模板 └─ MEMM └─ Transformer └─ ALBERT └─ In-context

1.3 工业选型

技术代际	代表算法	核心思想	数据需求	工业应用	选型建议
1. 基于规则	词典、正则表达式	模式匹配	无需标注	规则补充	必须保留用于兜底、冷启动、快速修正，ROI极高
2. 机器学习	CRF、HMM	特征工程+概率图	千级	❌ 新项目极少	不推荐特征工程成本高，调试复杂，收益低；存量系统可维持
3. 深度学习	BiLSTM+CRF	自动特征学习	万级	存量系统	替代方案 2015-2019年主流，新项目直接上BERT，无需经此阶段
4. 预训练模型	BERT+CRF RoBERTa	迁移学习	千级	⭐⭐⭐⭐⭐ 工业首选	当前最优解精度高、数据需求低、落地成熟；2020-2024年工业事实标准
5. 大语言模型	Prompt Few-shot	上下文学习	零样本	2024+ 兴起	特定场景采用复杂文本、低资源、开放域；成本高、延迟高，暂非通用方案

1.4 核心结论：

✅ 2024年新项目，实体抽取直接上BERT+CRF

✅ 规则方法必须保留，作为模型失误的“安全网”

❌ 不要从CRF开始学，那是2015年的技术栈

2、关系抽取

基于规则的关系抽取
基于Pipline的关系抽取-------目前工厂级方案中采用的比较多
基于Joint（参数共享）模型的关系抽取---- 目前工业级方案中采用的比较少，不建议使用
基于CasREL联合抽取模型的关系抽取------ 目前工业级方案中采用的比较少
基于通用LLM的关系抽取---------负责抽取复杂文本中的关系，成本高

1.1 关系抽取技术演进全览

关系抽取（Relation Extraction, RE）决定知识图谱的关联密度。相比NER，关系抽取的技术路线争议更大，学术与工业存在显著“剪刀差”。

1.2 技术路线谱系图

2005 ----------------- 2015 ---------------- 2019 ----------------- 2024 →

│ │ │ │

Pipeline 深度学习联合抽取大语言模型

│ │ │ │

NER → 关系分类 BiLSTM+Attention ├─ 参数共享 ├─ Prompt

CNN ├─ CasREL ├─ In-context

└─ TPLinker └─ Chain-of-Thought

1.3 工业选型

技术代际	代表算法	核心思想	重叠实体	工业采用率	选型建议
1. 基于规则	模式匹配、模板	正则/句式匹配	❌ 不支持	30%	规则兜底冷启动、固定句式场景
2. Pipeline式	NER + BERT分类	两阶段独立	❌ 不支持	⭐⭐⭐⭐⭐ 90%+	工业首选稳定、可插拔、易调试、可独立迭代
3. Joint参数共享	共享Encoder	联合训练	⚠️ 弱支持	⭐ 1%	不推荐收益有限，维护成本高
4. CasREL/TPLinker	握手解码	指针网络	✅ 原生支持	⭐ 5%	特定场景采用实体关系高度重叠时使用，非通用方案
5. 大语言模型	Prompt	生成式抽取	✅ 支持	2024+	成本敏感场景零样本能力，但成本高、延迟高

3、知识融合

知识融合的四大核心难点

1、实体消歧（同名异指）

- 问题：同一名称指向不同实体

- 案例：“苹果”是水果还是公司？

- 方案：上下文分类、实体链接

2、实体统一（异名同指）

- 问题：不同名称指向同一实体

- 案例：“周杰伦”=“周董”=“Jay Chou”

- 方案：别名表、相似度聚类

3、共指消解/指代消解（代词还原）

- 问题：代词/指示短语指向具体实体

- 案例：“姚明...他...”——“他”=姚明

- 方案：指代消解模型

4、关系对齐（模式异构）

- 问题：不同源同一关系谓词不同

- 案例：“效力于”=“PLAY_FOR”=“球员”

- 方案：本体对齐、映射规则

工业界真相

- 头部实体（姚明）对齐准确率>95%

- 长尾实体（不知名公司）对齐准确率<60%

- 工程策略：分层治理 + 人工审核

三、结论

速查结论

场景	实体抽取方案	关系抽取方案	理由
冷启动（0标注）	规则	规则	别无选择
通用场景（千级标注）	BERT+CRF	Pipeline BERT	精度/成本/维护最优解
重叠实体密集	BERT+CRF	CasREL	特保方案，非主力
低资源/开放域	LLM Prompt	LLM Prompt	零样本能力
延迟敏感（<50ms）	小型BERT	规则+LR	性能优先

核心结论：

- ✅ 新项目实体抽取：无脑选BERT+CRF

- ✅ 新项目关系抽取：默认选Pipeline BERT

- ✅ 规则方法必须保留：永远的神，ROI最高

- ❌ 不要从CRF开始学：那是2015年的技术栈

- ⚠️ CasREL是好工作，但不是日常方案

四、流程关系说明

实体抽取和关系抽取存在三种不同的协作模式，理解这一点是掌握知识图谱技术体系的关键分水岭。

模式一：完全独立

实体抽取和关系抽取是**两套独立的系统，互不依赖**。

维度	实体抽取	关系抽取
输入	原始文本	原始文本 + 预定义的实体对
依赖关系	❌ 不依赖RE	❌ 不依赖NER
数据标注	独立标注	独立标注（只需实体对和关系标签）
模型迭代	独立发布	独立发布
典型代表	规则NER、CRF、BERT+CRF	规则RE、SVM、BERT关系分类

适用场景：

* 关系分类任务，实体已由其他系统提供

* 实体和关系的标注数据来自不同团队/不同周期

* 只需要判断特定实体对的关系

模式二：Pipeline串联

必须先做实体抽取，再将结果传给关系抽取。这是工业界最常见的模式，占90%以上。

维度	实体抽取	关系抽取
输入	原始文本	NER输出的实体列表
依赖关系	❌ 不依赖RE	✅ 强依赖NER
数据标注	独立标注	依赖NER的实体边界
模型迭代	可独立优化	依赖NER输出格式
典型代表	任意NER模型	需实体位置的关系分类模型

模式三：Joint联合抽取

实体和关系在一个模型里同时产出，不分先后。

维度	实体抽取	关系抽取
输入	原始文本	原始文本
依赖关系	🔄 双向耦合	🔄 双向耦合
数据标注	必须联合标注（三元组）	必须联合标注（三元组）
模型迭代	❌ 无法单独迭代	❌ 无法单独迭代
典型代表	CasREL、TPLinker	CasREL、TPLinker

三种模式对比总结（工业选型终极指南）

模式	技术路线	实体→关系依赖	工业占比	误差传播	维护成本	典型场景
完全独立	规则RE、BERT关系分类	❌ 无依赖	30%	✅ 无	最低	关系分类API、实体已预知
Pipeline串联	NER → RE分类	✅ 强依赖	90%	⚠️ 有	低	工业界主流，通用场景
Joint联合	CasREL、TPLinker	🔄 双向耦合	5%	✅ 无	高	重叠实体密集的特殊场景

工业界真实决策逻辑

你手里有什么数据你选什么模式为什么

✅ 只有实体标注数据 Pipeline Joint训不了

✅ 只有关系标注数据完全独立 Joint训不了

✅ 实体和关系分开标注完全独立或Pipeline 对齐成本太高

✅ 完整三元组标注 Pipeline或Joint 可选，看场景

✅ 重叠实体密集 Joint 没得选

01知识图谱-进阶介绍

一、介绍

二、实现方案说明

1、实体抽取

1.1 实体抽取技术演进全览

1.2 技术路线谱系图

1.3 工业选型

1.4 核心结论：

2、关系抽取

1.1 关系抽取技术演进全览

1.2 技术路线谱系图

1.3 工业选型

3、知识融合

1、 实体消歧（同名异指）

2、实体统一（异名同指）

3、共指消解/指代消解（代词还原）

4、关系对齐（模式异构）

工业界真相

三、结论

速查结论

四、流程关系说明

模式一：完全独立

适用场景：

模式二：Pipeline串联

模式三：Joint联合抽取

三种模式对比总结（工业选型终极指南）

工业界真实决策逻辑

1、实体消歧（同名异指）