完成巨量html标签的去除(bs4的妙用)

 时间:2024-10-15 08:25:24

1、python、pip、bs4的安装,bs4用pip install命令获取

2、先看原始文件,全是html标签,总共1.7亿字

完成巨量html标签的去除(bs4的妙用)

4、打开python命令行(这里我为了看起来方便用了idel,但是命令行处理能力较强)载入BeautifulSoup模块来去除html标签

完成巨量html标签的去除(bs4的妙用)

6、然后用open 'r' 读取文件,168Mb纯文本,几秒就读完了。因为文本中含有中文,要加encoding='utf-8',否则会出错。

完成巨量html标签的去除(bs4的妙用)

8、关掉python,可以看到新文件已经缩减为了原来的四分之一

完成巨量html标签的去除(bs4的妙用)
  • 研学吴江,丝绸上的盛泽,美不胜收!
  • C#编程:怎么将浮点数强制转换为sbyte类型
  • Function split() is deprecated 的解决办法
  • 网站流量监控功能教程
  • 图解Android Studio上使用github
  • 热门搜索
    阳朔旅游攻略 广东旅游景点 河南开封旅游 360压缩怎么用 湖南旅游十大必去景区 许昌旅游 网站怎么备案 美国旅游签证 重庆旅游攻略 无锡有哪些旅游景点