6 2017 PDF文档信息抽取 PDF 文件格式主要用于显示文件内容,本身缺乏语义信息,如果不将其中的提取出来,就不能实现基于语义的查询。本项目旨在开发一款pdf文档信息抽取工具,对输入标准的pdf文档,按照文章阅读顺序输出文字、公式、表格和图片。