一、介绍
本文主要是介绍知识图谱的构建,其中包括不同方式实现实体抽取和关系抽取以及包括知识融合的难点说明
二、实现方案说明
1、实体抽取
在实体抽取环节,目前主要介绍和演示一下几种方案:
基于规则的实体抽取-----可作用工业级方案的规则补充
基于机器学习的实体抽取------目前工业级方案中采取的比较少,代表如CRF----目前也主要是介绍基于CRF的实体抽取
基于深度学习的实体抽取------目前工业级方案中采用的比较多
* 代表方案如:BILSTM+CRF---目前演示选择的方案
基于预训练模型的实体抽取
* 代表方案如:BERT+CRF---目前演示选择的方案
基于通用LLM的实体抽取-------负责抽取复杂文本中的实体
* 代表方案如:LLM---目前演示选择的方案
1.1 实体抽取技术演进全览
实体抽取(Named Entity Recognition, NER)是知识图谱构建的第一道工序。30年来,技术路线经历了五次范式迁移。
1.2 技术路线谱系图
1990s ----------------- 2005 ---------------- 2015 ---------------- 2019 ----------------- 2024 →
│ │ │ │ │
基于规则 机器学习 深度学习 预训练模型 大语言模型
│ │ │ │ │
├─ 词典匹配 ├─ CRF ├─ BiLSTM+CRF ├─ BERT+CRF ├─ Zero-shot
├─ 正则表达式 ├─ HMM ├─ IDCNN ├─ RoBERTa ├─ Few-shot
└─ 规则模板 └─ MEMM └─ Transformer └─ ALBERT └─ In-context
1.3 工业选型
1.4 核心结论:
✅ 2024年新项目,实体抽取直接上BERT+CRF
✅ 规则方法必须保留,作为模型失误的“安全网”
❌ 不要从CRF开始学,那是2015年的技术栈
2、关系抽取
基于规则的关系抽取
基于Pipline的关系抽取-------目前工厂级方案中采用的比较多
基于Joint(参数共享)模型的关系抽取---- 目前工业级方案中采用的比较少,不建议使用
基于CasREL联合抽取模型的关系抽取------ 目前工业级方案中采用的比较少
基于通用LLM的关系抽取---------负责抽取复杂文本中的关系,成本高
1.1 关系抽取技术演进全览
关系抽取(Relation Extraction, RE)决定知识图谱的关联密度。相比NER,关系抽取的技术路线争议更大,学术与工业存在显著“剪刀差”。
1.2 技术路线谱系图
2005 ----------------- 2015 ---------------- 2019 ----------------- 2024 →
│ │ │ │
Pipeline 深度学习 联合抽取 大语言模型
│ │ │ │
NER → 关系分类 BiLSTM+Attention ├─ 参数共享 ├─ Prompt
CNN ├─ CasREL ├─ In-context
└─ TPLinker └─ Chain-of-Thought
1.3 工业选型
3、知识融合
知识融合的四大核心难点
1、 实体消歧(同名异指)
- 问题:同一名称指向不同实体
- 案例:“苹果”是水果还是公司?
- 方案:上下文分类、实体链接
2、实体统一(异名同指)
- 问题:不同名称指向同一实体
- 案例:“周杰伦”=“周董”=“Jay Chou”
- 方案:别名表、相似度聚类
3、共指消解/指代消解(代词还原)
- 问题:代词/指示短语指向具体实体
- 案例:“姚明...他...”——“他”=姚明
- 方案:指代消解模型
4、关系对齐(模式异构)
- 问题:不同源同一关系谓词不同
- 案例:“效力于”=“PLAY_FOR”=“球员”
- 方案:本体对齐、映射规则
工业界真相
- 头部实体(姚明)对齐准确率>95%
- 长尾实体(不知名公司)对齐准确率<60%
- 工程策略:分层治理 + 人工审核
三、结论
速查结论
核心结论:
- ✅ 新项目实体抽取:无脑选BERT+CRF
- ✅ 新项目关系抽取:默认选Pipeline BERT
- ✅ 规则方法必须保留:永远的神,ROI最高
- ❌ 不要从CRF开始学:那是2015年的技术栈
- ⚠️ CasREL是好工作,但不是日常方案
四、流程关系说明
实体抽取和关系抽取存在三种不同的协作模式,理解这一点是掌握知识图谱技术体系的关键分水岭。
模式一:完全独立
实体抽取和关系抽取是**两套独立的系统,互不依赖**。
适用场景:
* 关系分类任务,实体已由其他系统提供
* 实体和关系的标注数据来自不同团队/不同周期
* 只需要判断特定实体对的关系
模式二:Pipeline串联
必须先做实体抽取,再将结果传给关系抽取。这是工业界最常见的模式,占90%以上。
模式三:Joint联合抽取
实体和关系在一个模型里同时产出,不分先后。
三种模式对比总结(工业选型终极指南)
工业界真实决策逻辑
你手里有什么数据 你选什么模式 为什么
✅ 只有实体标注数据 Pipeline Joint训不了
✅ 只有关系标注数据 完全独立 Joint训不了
✅ 实体和关系分开标注 完全独立或Pipeline 对齐成本太高
✅ 完整三元组标注 Pipeline或Joint 可选,看场景
✅ 重叠实体密集 Joint 没得选