BeautifulSoup常用语法有哪些

本篇内容主要讲解“BeautifulSoup常用语法有哪些”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“BeautifulSoup常用语法有哪些”吧!

创新互联公司专注于企业全网整合营销推广、网站重做改版、蒙城网站定制设计、自适应品牌网站建设、H5建站、商城网站制作、集团公司官网建设、外贸营销网站建设、高端网站制作、响应式网页设计等建站业务，价格优惠性价比高，为蒙城等各大城市提供网站开发制作服务。

解析库

BeautifulSoup默认支持Python的标准HTML解析库，但是它也支持一些第三方的解析库

解析库	使用方法	优势	劣势
Python标准库	BeautifulSoup(html,’html.parser’)	Python内置标准库；执行速度快	容错能力较差
lxml HTML解析库	BeautifulSoup(html,’lxml’)	速度快；容错能力强	需要安装，需要C语言库
lxml XML解析库	BeautifulSoup(html,[‘lxml’,’xml’])	速度快；容错能力强；支持XML格式	需要C语言库
htm5lib解析库	BeautifulSoup(html,’htm5llib’)	以浏览器方式解析，最好的容错性	速度慢

代码示例

demo html

from bs4 import BeautifulSoup soup = BeautifulSoup(html,"html.parser") # 缩进格式 print(soup.prettify()) # 获取title标签的所有内容 print(soup.title) #Output：百度一下，你就知道 # 获取title标签的名称 print(soup.title.name) #Output：title # 获取title标签的文本内容 print(soup.title.string) #Output：百度一下，你就知道 # 获取head标签的所有内容 print(soup.head) # 获取第一个div标签中的所有内容 print(soup.div) # 获取第一个div标签的id的值 print(soup.div["id"]) # 获取第一个a标签中的所有内容 print(soup.a) # 获取所有的a标签中的所有内容 print(soup.find_all("a")) # 获取id="u1" print(soup.find(id="u1")) # 获取所有的a标签，并遍历打印a标签中的href的值 for item in soup.find_all("a"): print(item.get("href")) # 获取所有的a标签，并遍历打印a标签的文本值 for item in soup.find_all("a"): print(item.get_text())

from soup4 import BeautifulSoup soup = BeautifulSoup(html,"html.parser") # 获取title标签的所有内容 print(soup.title) # 获取head标签的所有内容 print(soup.head) # 获取第一个a标签的所有内容 print(soup.a) # 类型 print(type(soup.a #soup 对象本身比较特殊，它的 name 即为 [document] print(soup.name) # head #对于其他内部标签，输出的值便为标签本身的名称 print(soup.head.name) # 在这里，我们把 a 标签的所有属性打印输出了出来，得到的类型是一个字典。 print(soup.a.attrs) #还可以利用get方法，传入属性的名称，二者是等价的 print(soup.a['class']) # soup.a.get('class') # 可以对这些属性和内容等等进行修改 soup.a['class'] = "newClass" print(soup.a) # 还可以对这个属性进行删除 del soup.a['class'] print(soup.a)

item_list = soup.find_all(attrs={"data-foo": "value"}) for item in item_list: print(item) item_list = soup.find_all(text="hao123") for item in item_list: print(item) item_list = soup.find_all(text=["hao123", "地图", "贴吧"]) for item in item_list: print(item) item_list = soup.find_all(text=re.compile("\d")) for item in item_list: print(item)

# 查询id=head的Tag item_list = soup.find_all(id="head") print(item_list) # 查询href属性包含ss1.bdstatic.com的Tag item_list = soup.find_all(href=re.compile("http://news.baidu.com")) print(item_list) # 查询所有包含class的Tag(注意：class在Python中属于关键字，所以加_以示区别) item_list = soup.find_all(class_=True) for item in item_list: print(item)

网站建设知识

BeautifulSoup常用语法有哪些

解析库

代码示例

创建beautifulsoup4对象

BeautifulSoup4四大对象种类

遍历文档树

搜索文档树

CSS选择器

其他资讯