Beautiful Soup 是用Python写的一个HTML/XML的解析器,如果你需要在一些网站抓取数据,Beautiful Soup可以很好的处理不规范标记并生成剖析树,大大节省工程时间
软件特色
1.Beautiful Soup提供了一些简单的方法和Python术语,用于检索和修改语法树:一个用于解析文档并提取相关信息的工具包。这样你写一个应用不需要写很多代码。
2.Beautiful Soup自动将输入文档转换为Unicode编码,并将输出文档转化为UTF-8编码。你不需要考虑编码,除非输入文档没有指出其编码并且Beautiful Soup无法自动检测到,这时你需要指出原来的编码方式。
3.Beautiful Soup位于一些流行的Python解析器比如lxml和html5lib的上层,这允许你使用不同的解析策略或者牺牲速度来换取灵活性。
使用方法
1.下载完成之后需要解压缩,假设放到D:/python下。
2.运行cmd,切换到D:/python/beautifulsoup4-4.3.2/目录下(根据自己解压缩后的目录和下载的版本号修改),cd /d D:/python//beautifulsoup4-4.3.2
3.运行命令:
setup.py build
setup.py install
4.在IDE下from bs4 import BeautifulSoup,没有报错说明安装成功。