博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
BeautifulSoup学习笔记
阅读量:6446 次
发布时间:2019-06-23

本文共 1025 字,大约阅读时间需要 3 分钟。

from 
BeautifulSoup
import 
BeautifulSoup
import 
re
 
doc
= 
[
'<html><head><title>Page title</title></head>'
,
       
'<body><p id="firstpara" align="center">This is paragraph <b>one</b>.'
,
       
'<p id="secondpara" align="blah">This is paragraph <b>two</b>.'
,
       
'</html>'
]
soup
= 
BeautifulSoup(''.join(doc))
print 
soup.prettify()

 运行结果为:

 

print 
soup.contents[
0
].name
#
print 
soup.contents[
0
].contents[
0
].name
 
for 
i
in 
range
(
len
(soup.contents[
0
])):
    
print 
soup.contents[
0
].contents[i].name

 

titleTag
= 
soup.html.head.title
titleTag
# <title>Page title</title>
 
titleTag.string
# u'Page title'
 
len
(soup(
'p'
))
# 2
 
soup.findAll(
'p'
, align
=
"center"
)
# [<p id="firstpara" align="center">This is paragraph <b>one</b>. </p>]
 
soup.find(
'p'
, align
=
"center"
)
# <p id="firstpara" align="center">This is paragraph <b>one</b>. </p>
 
soup(
'p'
, align
=
"center"
)[
0
][
'id'
]
# u'firstpara'
 
soup.find(
'p'
, align
=
re.
compile
(
'^b.*'
))[
'id'
]
# u'secondpara'
 
soup.find(
'p'
).b.string
# u'one'
 
soup(
'p'
)[
1
].b.string
# u'two'

 

转载地址:http://zktwo.baihongyu.com/

你可能感兴趣的文章
App测试中ios和Android的区别
查看>>
java.lang.NullPointerException&com.cb.action.LoginAction.execute(LoginAction.java:48)
查看>>
理解Docker :Docker 网络
查看>>
通过Application存取公共数据比如登录信息等..
查看>>
intellij maven配置与使用
查看>>
SpringMVC文件下载与JSON格式
查看>>
Q:图像太大,在opencv上显示不完全
查看>>
修正锚点跳转位置 避免头部fixed固定部分遮挡
查看>>
Dubbo序列化多个CopyOnWriteArrayList对象变成同一对象的一个大坑!!
查看>>
linux下ping不通的解决方法
查看>>
利用ItextPdf、core-renderer-R8 来生成PDF
查看>>
irc操作小记
查看>>
JAVA 与 PHP 的不同和相同
查看>>
建立Ftp站点
查看>>
NavigationController的使用
查看>>
多线程编程之Windows环境下创建新线程
查看>>
ASP.Net MVC的开发模式
查看>>
groupbox 下的datagridview的列标题字体修改混乱
查看>>
HDU-3092 Least common multiple---数论+分组背包
查看>>
CentOS 7使用systemctl如何补全服务名称
查看>>