Python爬取gb2312编码的网页,并存储中文字符

 时间:2024-10-13 04:07:54

1、这是第一次写的代码,没有做任何的编码转化,最后得到的json文件中所有的中文都以Unicode编码的方式呈现,这样很不直观。

Python爬取gb2312编码的网页,并存储中文字符

3、在python中,当遇到中文的时候就需要进行转码,中文的编码有多种,所以需要指明一种编码方式,这里使用sys.setdefaultencoding进行指明(当我们没有指明解码方式,python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding为ANSCII,如果 s 不是这个类型就会出错)

Python爬取gb2312编码的网页,并存储中文字符

5、最后将josn.dump的参数中设置 ensure_ascii=False(设置之后就能正常的将中文存储在json文件中),完成之后,最终的代码如下

Python爬取gb2312编码的网页,并存储中文字符
  • word怎么使用格式刷功能
  • 如何批量更改word文档中部分文字颜色
  • Word如何为段落加上边框呢?
  • word中可以打印出网格线吗
  • word怎么拆分多列表格
  • 热门搜索
    如何买股票开户 小学生旅游作文 做包子面粉怎么发酵 如何正确使用灭火器 怎么建微信公众平台 家用无线路由器 如何挑选橙子 怎么看香头 如何去青春痘 如何让孩子爱上学习