如何设计和编写网络爬虫

 时间:2024-10-13 11:17:57

1、掌握必要的HTML基础知识,Chrome浏览器打开一个网页,按F12获取网页源代码(F11旅邯佤践进入或者退出全屏模式)

如何设计和编写网络爬虫如何设计和编写网络爬虫

2、打开电脑,启动spyder

如何设计和编写网络爬虫

3、引入所用库,建立头标集合

如何设计和编写网络爬虫

4、利用python语句访问源代码,获取源代码,保存源代码

如何设计和编写网络爬虫

5、创建 dataframe 对象,直接将获取的数据存放进 dataframe 对象中,保存为 csv文件。

如何设计和编写网络爬虫

6、整个爬虫成果如图:

如何设计和编写网络爬虫如何设计和编写网络爬虫如何设计和编写网络爬虫

7、附程序代码:import urllib2from lxml import etreeimport pandas as pdheaders={'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'accept-language':'zh-CN,zh;q=0.8','user-agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/61.0.3163.100 Safari/537.36',}url='http://news.ceic.ac.cn/'request=urllib2.Request(url,headers=headers)##访问response=urllib2.urlopen(request)##回应html=response.read()##获取源代码eq=pd.DataFrame()#创建 dataframe 对象earthquake=etree.HTML(html)#直接将获取的数据存放进 dataframe 对象中eq['m']=earthquake.xpath('//table/tr/td[1]/text()')eq['time']=earthquake.xpath('//table/tr/td[2]/text()')eq['lng']=earthquake.xpath('//table/tr/td[3]/text()')eq['lat']=earthquake.xpath('//table/tr/td[4]/text()')eq['depth']=earthquake.xpath('//table/tr/td[5]/text()')eq['place']=earthquake.xpath('//table/tr/td/a//text()')#保存为 csv。encoding 参数可选 gbk 或者 utf8,在 Python 中显示乱码将其换为 utf8,#在 Excel 中乱码换为 gbkeq.to_csv('earthquake.csv',index=False,encoding='gbk')

如何设计和编写网络爬虫
  • 大宝不同意父母要二胎怎么办
  • 如何做百合炖鸡?
  • 饮水机漏水的原因与处理办法
  • 艾叶鸡蛋咸食的做法和功效
  • 教你如何在家里面也可以自制爽肤水
  • 热门搜索
    如何查询上升星座 如何给手机贴膜 如何调整照片大小 宝宝不爱睡觉怎么办 如何查看共同好友 趋势科技怎么样 慈禧秘密生活下载 瘦人如何增肥 生活用品图片 完美生活许巍