首页
>兰台经纬>区市工作
荣成市档案馆实现网页数据资料采集新突破

发布时间:2021年11月26日 15:44

信息来源:威海市档案馆

浏览次数:

为做好互联网网页数据资料的及时采集,近日,荣成市档案馆安装部署集搜客数据管家网络爬虫系统,目前已正式部署完毕。

爬虫技术可以自动抓取网页上的数据,系统从一个或若干初始网页的URL开始,获得初始网页上的URL,所有被爬虫抓取的网页将会被系统存贮。利用爬虫系统可以在政务外网上抓取网页,采集数据并对这些数据进行整理,将采集到的数据以文字形式存放在数据库。在使用爬虫系统时也可选择待抓取的网页并指定栏目进行信息的自动抓取,系统根据用户设定的规则自动解析源网页,获取格式网页中需要的内容,同时按照设定的规则数据入库。系统可通过配置时间定期抓取目标网站,采集记录建立唯一索引,避免相同信息重复入库。

该系统的成功部署,为数据拓展提供了重要来源,也为网页数据信息的采集提供了重要的技术手段,便于后期对采集到的数据进行数据检索和数据处理。


上一篇 :