ScienceAI:科技论文细粒度挖掘平台
科技论文细粒度挖掘工具是由实验室自主开发的用于学术文本细粒度解析的工具集,包括科技实体抽取抽取、科技论文论证区间解析、科技论文引文功能识别、工程科技论文机理抽取等模块,实现科技论文从PDF输入到章节、实体、引用、机理的全链条碎片化数据挖掘流程和可视化,并提供API供外部调用。在国防科技战略先导计划的支持下,已经完成了工具集的构建和平台的开发,代码完全自主可控,拥有“论文-软件著作权-系统”自主产权体系,目前,科技论文碎片化数据化挖掘工具已在军事科学院等机关单位投入实际应用,很大程度地提升了科技论文碎片化信息挖掘能力,推进了科技文本信息的智能理解进程,获得了上级机关的高度认可。
实验室开发了科技论文论证区间解析实用工具,对科技论文中主要论证区间进行高效准确识别,实现从PDF或XML形式论文输入形成抽取、转化、形成章节功能导航;开发了科技实体抽取工具,识别实体包括但不限于问题、方法、工具、指标、数据;开发了基于自动提示学习的小样本科技实体识别工具,实现小样本实体快速抽取;开发了科技论文引文片段识别和引文功能识别工具,自动从PDF、XML等形式论文输入中识别引用片段,并自动标注引用片段功能,在此基础上形成论文的引用关系网络;开发了指标驱动的工程科技论文机理抽取工具,从工程科技论文中抽取指标驱动的科学机理,并形成论文的科技机理描述网络图。开发了集成工具平台,实现了科技论文输入到章节、实体、引用、机理的全链条碎片化数据挖掘流程和可视化呈现,接口符合restful接口规范,并按要求提供规范的服务接口文档。集成工具平台以及平台模块图如下所示。