2017

PDF文档信息抽取

PDF 文件格式主要用于显示文件内容，本身缺乏语义信息，如果不将其中的提取出来，就不能实现基于语义的查询。本项目旨在开发一款pdf文档信息抽取工具，对输入标准的pdf文档，按照文章阅读顺序输出文字、公式、表格和图片。

项 目