• 论文
主办单位:煤炭科学研究总院有限公司、中国煤炭学会学术期刊工作委员会
基于联合编码的煤矿综采设备知识图谱构建
  • Title

    Construction of knowledge graph for fully mechanized coal mining equipment based on joint coding

  • 作者

    韩一搏董立红叶鸥

  • Author

    HAN Yibo;DONG Lihong;YE Ou

  • 单位

    西安科技大学计算机科学与技术学院

  • Organization
    College of Computer Science and Technology, Xi'an University of Science and Technology
  • 摘要
    利用知识图谱技术进行数据管理可实现对煤矿综采设备的有效表示,以便获取具有深度挖掘价值的信息。煤矿综采设备数据不均衡、某些类别设备实体较少等问题影响实体识别精度。针对上述问题,提出了一种基于联合编码的煤矿综采设备知识图谱构建方法。首先构建综采设备本体模型,确定概念及关系。然后设计实体识别模型:利用Token Embedding、Position Embedding、Sentence Embedding和Task Embedding 4层Embedding结构与Transformer−Encoder进行煤矿综采设备数据编码,提取词语间的依赖关系及上下文信息特征;引入中文汉字字库,利用Word2vec模型进行编码,提取字形间的语义规则,解决煤矿综采设备数据中生僻字问题;使用GRU模型对综采设备数据和字库编码后的字符向量进行联合编码,融合向量特征;利用Lattice−LSTM模型进行字符解码,获取实体识别结果。最后利用图数据库技术,将抽取的知识以图谱的形式进行存储和组织,完成知识图谱构建。在煤矿综采设备数据集上进行实验验证,结果表明该方法对综采设备实体的识别准确率较现有方法提高了1.26%以上,在一定程度上缓解了在少量样本情况下构建煤矿综采设备知识图谱时因数据较少导致的精度不足问题。
  • Abstract
    Using knowledge graph technology for data management can achieve effective representation of fully mechanized coal mining equipment. The information with deep mining value can be obtained. The imbalanced data of fully mechanized coal mining equipment and the limited number of entities in certain categories of equipment affect the precision of entity recognition models. In order to solve the above problems, a knowledge graph construction method for fully mechanized coal mining equipment based on joint coding is proposed. Firstly, the fully mechanized coal mining equipment ontology model is constructed, determining the concepts and relationships. Secondly, the entity recognition model is designed. The model uses Token Embedding, Position Embedding, Sentence Embedding, and Task Embedding 4-layer Embedding structures and Transformer Encoder to encode fully mechanized coal mining equipment data, extract dependency relationships and contextual information features between words. The model introduces a Chinese character library, using the Word2vec model for encoding, extracting semantic rules between characters, and solving the problem of rare characters in fully mechanized coal mining equipment data. The model uses the GRU model to jointly encode the data of fully mechanized coal mining equipment and the character vectors encoded in the font library, and fuse vector features. The model uses the Lattice-LSTM model for character decoding to obtain entity recognition results. Finally, the model uses graph database technology to store and organize extracted knowledge in the form of graphs, completing the construction of knowledge graphs. Experimental verification is conducted on the dataset of fully mechanized coal mining equipment. The results show that the method improves the recognition accuracy of fully mechanized coal mining equipment entities by more than 1.26% compared to existing methods, which to some extent alleviates the low accuracy problem caused by insufficient data when constructing a knowledge graph of fully mechanized coal mining equipment in a small sample situation.
  • 关键词

    煤矿综采设备知识图谱本体模型联合编码实体识别

  • KeyWords

    fully mechanized coal mining equipment;knowledge graph;ontology model;joint coding;entity recognition

  • 基金项目(Foundation)
    中国博士后科学基金资助项目(2020M673446)。
  • DOI
  • 引用格式
    韩一搏,董立红,叶鸥. 基于联合编码的煤矿综采设备知识图谱构建[J]. 工矿自动化,2024,50(4):84-93.
  • Citation
    HAN Yibo, DONG Lihong, YE Ou. Construction of knowledge graph for fully mechanized coal mining equipment based on joint coding[J]. Journal of Mine Automation,2024,50(4):84-93.
  • 相关文章
  • 图表

    Table1

    表 1 jieba分词结果
    语料 jieba分词结果
    目前使用最多的是滚筒式采煤机,也有少量的刨煤机。机械化采煤工作面的配套设备,主要有采煤机、可弯曲刮板输送机和支护设备等。支护设备有金属支柱、单体液压支柱、金属铰接顶梁和液压支柱等。 目前/使用/最多/的/是/滚筒式采煤机/,/也有/少量/的/刨煤机/。/机械化/采煤/工作面/的/配套设备/,/主要/有/采煤机/、/可弯曲刮板输送机/和/支护设备/等/。/支护设备/有/金属支柱/、/单体液压支柱/、/金属铰接顶梁/和/液压支柱/等/。

    Table2

    表 2 部分语料标注序列
    字符 标注结果 字符 标注结果 字符 标注结果
    B−EQU B−EQU O
    I−EQU E−EQU O
    I−EQU O B−EQU
    E−EQU O E−EQU
    O O O
    O O O
    O O O

    Table3

    表 3 知识存储映射方案
    类别 作用 对象范围
    标签 描述煤矿综采
    设备概念类
    设备整机、设备部件、传感器、通信协议、
    设备维护、设备维修、工种、相关资料等
    节点 描述煤矿综采
    设备实体
    滚筒采煤机、刮板输送机、刀盘、电动机、
    瓦斯传感器等
    描述知识关系 包含关系、相交关系、跟随关系等
    属性 描述实体属性 生产厂家、生产编号、出厂日期等

    Table4

    表 4 数据集规模
    数据集 数据类型 训练集 测试集
    煤矿综采
    设备样本
    分句数 2 316条 463条
    字符数 72 468个 12 296个
    字库 字符数 6 768个
    总计 分句数 2 316条 463条
    字符数 79 236个 12 296个

    Table5

    表 5 模型参数
    参数 Encoder GRU Lattice−LSTM Word2vec
    Embedding
    Size
    768 300
    Learning Rate 0.010 0.015 0.015 0.010
    Hidden size 768 768 768
    Dropout 0.1 0.1 0.1
    Batch Size 32 32 32 32

    Table6

    表 6 消融实验结果
    模型 P R F1
    本文模型 91.46 90.12 90.83
    Encoder−Lattice−LSTM模型 89.19 90.65 89.91
    Encoder−Word2vec−GRU−BiLSTM模型 86.14 85.66 85.90
    Word2vec−Lattice−LSTM模型 83.44 79.62 81.48

    Table7

    表 7 对比实验结果
    模型 P R F1
    本文模型 91.46 90.12 90.83
    ALBERT−BiGRU−CRF模型 90.20 89.23 89.71
    BERT−BiLSTM−CRF+BERT−CRF模型 86.14 85.66 85.11
    Lattice−LSTM模型 79.58 79.16 79.37
    BiLSTM−CRF模型 76.60 71.27 73.83
相关问题

主办单位:煤炭科学研究总院有限公司 中国煤炭学会学术期刊工作委员会

©版权所有2015 煤炭科学研究总院有限公司 地址:北京市朝阳区和平里青年沟东路煤炭大厦 邮编:100013
京ICP备05086979号-16技术支持: 云智互联
Baidu
map