6
2016
细粒度web数据采集与检索平台WHUREAPER
主要内容
因特网的发展和信息技术的进步,使得互联网上的信息量越来越大。随之而来的问题是,从浩如烟海的信息海洋中迅速而准确地获取自己最需要的信息变得非常困难,因此,借助计算机辅助的方法实现网络信息的智能采集具有重要意义。WHU-REAPER系统旨在利用计算机实现对所需信息的自动化、智能化、格式化采集。
技术水平
WHU-REAPER系统是一套细粒度的网络信息格式化抽取框架,集成了信息采集、格式化提取、分类、聚类等信息处理工具。其核心功能包括:网站自动采集、网页自动抓取、网页清洗、对象智能识别、正文自动抽取、关键词提取、自动分类聚类、多粒度、细粒度检索。针对不同的网页结构,只需要配置简单的采集规则即可实现数据的细粒度抽取。
应用前景
网络信息智能采集系统可以精确提取网页数据,精确匹配元数据字段。该框架在网页数据清理、网络舆情监控、电子商务等方面具有重要应用价值。