PYTHON如何构建基础的爬虫

 时间:2024-10-13 07:07:39

爬虫具有域名切换、信息收集以及信息存储功能。这里讲述如何构建基础的爬虫架构。

库介绍

1、urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。

基础爬虫

1、爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。

PYTHON如何构建基础的爬虫

3、从输出中可以看出内容的结构为:

PYTHON如何构建基础的爬虫PYTHON如何构建基础的爬虫

4、服务器不存在时,urlopen会返回None.可使用判断语句进行检测。调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。

PYTHON如何构建基础的爬虫
  • python如何实现简单爬虫
  • 爬虫教学基础篇
  • Python爬虫--正则表达式
  • python爬虫获取信息
  • python3爬虫怎样构建请求头,怎样构建header
  • 热门搜索
    疤痕疙瘩怎么治疗 首都经济贸易大学怎么样 怎么学好化学 睡落枕了怎么快速好 脚扭伤肿了怎么办 脚底脱皮怎么回事 宋朝是怎么灭亡的 达成率怎么算 全世界都在演我怎么办 北京现代怎么样