GoldData学习实例-采集官网新闻数据
发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,概述在本节中,我们将讲述抓取政府官网地方新闻。并将抓取的新闻数据融入到以下两张数据表news_site和news中。news_site(新闻来源)字段类型说明idbigint主键,自动增长nameva
千家信息网最后更新 2025年12月03日GoldData学习实例-采集官网新闻数据
概述

在本节中,我们将讲述抓取政府官网地方新闻。并将抓取的新闻数据融入到以下两张数据表news_site和news中。
news_site(新闻来源)
| 字段 | 类型 | 说明 |
|---|---|---|
| id | bigint | 主键,自动增长 |
| name | varchar(128) | 来源名称 |
news(新闻)
| 字段 | 类型 | 说明 |
|---|---|---|
| id | bigint | 主键,自动增长 |
| title | varchar(128) | 标题 |
| site_id | bigint | 外键,指向表news_site的id字段 |
| content | text | 内容 |
| pub_date | datetime | 发布时间 |
| date_created | datetime | 加入时间 |
我们很容易看到这两张表存在关联,那是怎样将数据写入关联呢,我们将再此一一介绍。
定义站点、数据集

定义抓取和抽取规则
在这里我们需要填入口地址。入口地址如果有多个,那么要以英文逗号相隔。如下图所示:
接下来我们编写规则时,首先是匹配URL,这里需要填写正则表达式。旁边的"?"号,点击后就会弹出相应的帮助文档。如下图所示:
然后数据集选择则我们要注意,如果抓取的仅需要的是链接,那么是否数据集选择否,且数据集字段必须要有一个名为href的字段。如下图所示:
否则是否数据集应该选择是,且数据集字段必须要有一个名为sn的字段。sn字段存放的数据一般是唯一值,相当于数据表里的id字段。如下图所示:
完整的规则内容显示如下:
[ { __sample: http://sousuo.gov.cn/column/40520/0.htm match0: http\:\/\/sousuo\.gov\.cn\/column\/40520/\d+\.htm fields0: { __model: false __node: .news_box a href: { expr: a attr: abs:href js: "" __label: 链接 __showOnList: false __type: "" down: "0" accessPathJs: "" uploadConf: "" } } } { __sample: http://www.gov.cn/xinwen/2019-02/26/content_5368539.htm match0: http\:\/\/www\.gov\.cn/xinwen/2019-\d{2}/\d{2}/content_\d+.htm fields0: { __model: true __dataset: news __node: ".article " sn: { expr: "" attr: "" js: ''' var xx=md5(baseUri) xx ''' __label: 编号 __showOnList: false __type: "" down: "0" accessPathJs: "" uploadConf: "" } title: { expr: .article >h2 attr: "" js: "" __label: 标题 __showOnList: true __type: "" down: "0" accessPathJs: "" uploadConf: "" } pubdate: { expr: .pages-date:matchText attr: "" js: "" __label: 发布时间 __showOnList: false __type: "" down: "0" accessPathJs: "" uploadConf: "" } source: { expr: .pages-date > span.font:contains(来源) attr: "" js: ''' var xx=source.replace("来源:",''); xx ''' __label: 来源 __showOnList: true __type: "" down: "0" accessPathJs: "" uploadConf: "" } content: { expr: .pages_content attr: "" js: "" __label: 新闻内容 __showOnList: false __type: "" down: "0" accessPathJs: "" uploadConf: "" } } }]配制和启动抓取器
一个抓取器可以配制抓取多个站点,一个站点也可以配制多个抓取器抓取。
然后点击"开始",则会启动抓取器。
查看和导出数据
可以按照搜索条件进行导出数据。选择"导出"按扭后,还将提示导出哪些数据段,最后导出文件。 如果数据少量,将会导出为excel文件,否则下载的打包之后的zip文件。如下图所示:
本节内容描述到这里,下一篇将讲述如何通过金色数据如何将数据融合到数据表当中去。
(注:本内容是根据培训视频整理而成,https://golddata.100shouhou.com/front/docs)
数据
字段
新闻
内容
来源
选择
多个
数据表
文件
时间
站点
规则
入口
地址
标题
类型
链接
关联
增长
接下来
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
深受欢迎的数据库服务公司
关系数据库出现在什么年代
我的世界服务器怎么重置玩家密码
将excel写入数据库
cdn服务器叫什么
我的世界服务器辅助给东西指令
中国内存数据库前景
河南智能软件开发成本价
网络安全升级改造具体施工
网络安全是干什么工作的
第三方软件开发哪家实惠
c 与数据库交互
网络安全小情景剧剧本
如何连接到公司点歌服务器
腾讯轻量云服务器换地域
宁波 对日软件开发
cago服务器是啥
联想服务器 重装系统
国内用户访问国外服务器
国内最权威的文献数据库
2018年全国省市区数据库
服务器安装驱动下载失败
高考数据库网页
sap 如何知道服务器的配置
500万cba数据库
计算机三级数据库教程勘误
亚信科技数据库招聘
汕尾数据链软件开发费用
网咖的服务器多贵
gta5如何捏人数据库