抓取网页内容保存到数据库

 时间:2024-10-28 07:54:58

1、先看一下准备抓取的网页,如下图,需要抓取新闻标题、来源和正文内容,并将内容直接保存到数据库中。如下图所示,打开自动控制菜单,点击项目管理器。

抓取网页内容保存到数据库

3、首先创建抓取内容步骤,点击添加按钮,在弹出的获取动态元素对话框中,点击自动获取按钮,使用浏览器时入元素抓取模式。

抓取网页内容保存到数据库

5、通过元素属性来获取标题显然存在一个问题,如果打开的另一刳噪受刃条新闻,标题不同就无法找到标题元素了。所以改用通过元素下标获取元素,如下图所示,表示在页面中找第2个H1元素。修改完成后点击右侧的确定按钮,结束获取元素状态,返回项目管理器。

抓取网页内容保存到数据库

7、以同样的方式,添加抓取来源和正文内容。完成设置后,可以点击单步测试按钮,然后右键点击抓取元素,查看抓取内容,测试抓取效果。

抓取网页内容保存到数据库

9、新建一个定时控制步骤,每秒执行一次,执行20次后停止。因篇幅原因,只测试在同一页面采集20次,如果需要采集不同的新闻页面,只需要想办法更换页面就可以了,比如批量添加网址、按顺序点击新闻、监控网页更新后采集等方法。

抓取网页内容保存到数据库
  • 如何使用vue中的方法修改按钮内容并展示结果
  • jsp获取当前时间
  • powerdesigner创建应用架构图
  • js如何将li标签的class属性删除
  • 如何解决IntelliJ IDEA代码字体太小问题?
  • 热门搜索
    中文域名有什么用 qq起什么名字好听 有什么综艺节目好看 12306候补是什么意思 唇亡齿寒什么意思 高考祝福的话 lady是什么意思 pant是什么意思 regard是什么意思 立秋是什么意思