wuhan university

开发工具

DEVELOPED TOOLS

tools

SmartReformer:智能版式分析与内容抽取平台

       针对各类文档包括科技文献、书籍、专利、标准等数据源多样、版式结构复杂、无法按需进行文档分析的难点,以及可供模型训练的数据量有限、样式单一、标注类别和方式无法改变而按需标注数据成本高昂的痛点,本方法实现了由标注数据集到生成数据集供模型训练的转变,进而构建多模态文档版式分析模型实现对各种文档内各种结构进行按需抽取。整体架构由文档预处理、多模态文档版式分析、细粒度内容抽取以及结构语义重建四个模块组成。

4

       其中文档预处理模块将多种格式文档进行规范化处理以便于其作为多模态文档版式分析模块的输入;多模态文档解析模块首先使用上下文无关语法按需生成符合科学研究论文写作习惯、版式丰富且包含了真实论文中提取的作者、图像、表格、公式等内容的仿真PDF论文数据集用于模型训练,然后利用微调好的计算机视觉和自然语言处理领域具有先进性能的预训练模型对文档的图像和文本输入进行结构解析;细粒度内容抽取模块基于多模态文档版式分析模块输出的解析结果,以正确顺序准确输出文档的图像和文本内容;最后结构语义重建模块可按需对抽取出的内容进行赋能应用。

4

        纸质及扫描出版物加工整编平台通过软硬一体平台、小型移动设备和APP的形式,对纸质材料、扫描文档和拍照场景文本进行信息整编,提供功能包括:1)多类型出版物材料的扫描、拍照以及自动纠正功能;2)多类型出版物材料的版式分析,并通过内嵌多语种OCR识别内容,快速形成结构化数字材料;3)识别内容结构、列表、表格、图片、LOGO等,并支持对人物图像、机构等信息的高精度识别;4)内容的快速汇聚关联与分析,针对用户感兴趣内容开展快速检索,联想和属性特征扩充。解决方案包括平台版、移动版和APP三类产品,其中,平台版适合于集中式的纸质与扫描出版物加工,包括可拆卸的扫描设备和智能处理设备部件;移动版搭配定制笔记本和可拆卸扫描拍照设备;移动APP版通过手机APP和API提供使用。