2016

基于图像处理与序列标注的学术文献语义再结构化方法

一种基于图像处理与序列标注的学术文献语义再结构化方法，通过将学术文献进行相关处理转化为图像形式，并对其进行版式分析；利用OCR(Optical Character Recognition，光学字符识别)技术对每个符合学术文献逻辑结构的文本区块进行识别，将图像等转换为机器可读的纯文本；利用自然语言处理中的序列标注模型，对处理后的文献内容进行标签序列转换；通过对比版式分析和序列标注的得到的文献逻辑结构结果，进行优化，得到最终的文献逻辑结构。为文献自动添加语义标签，以辅助阅读，将其在一定程度上转化为结构化的内容，提供了学术文献的利用效率。

推荐项目

RECOMMEND

项 目

RESEARCH PROJECT

基于图像处理与序列标注的学术文献语义再结构化方法

项目