陈程的技术博客

  • 关于作者
全栈软件工程师
一个专注于技术研究创新的程序员
  1. 首页
  2. python
  3. 正文

BeautifulSoup_lxml解析

2021年2月2日 615点热度 0人点赞 0条评论
def parseHtml(html):
    soup = BeautifulSoup(html, 'lxml')
    # print(soup.prettify)格式化输出
    # items = soup.find_all('div', attrs={'class': 'news-list-b'})
    # items = soup.select('Tag')#CSS选择器
    # items = soup.select('.class')属性
    # items = soup.select('#id')ID
    # items = soup.select('Tag[attr="属性值"]')标签+属性
    # items = soup.select('.class Tag #id')空格表示子节点,组合使用
    # items = soup.select('Tag').text取文本
    # items = soup.select('Tag').get_text()取文本
    # tag.get('className')取标签属性
    # tag['className']取标签属性
    # tag.attrs.get('className')取标签属性
    items = soup.select('.news-list-b .list .item .title a')
    for item in items:
        yield item.get('href')#attrs字典取属性

CSS选择器 子串匹配 模糊匹配

# soup = BeautifulSoup(html, 'lxml')
# trs = soup.select('#table_live tr[id*="tr1"]')
# id包含“tr1”字符串的tr标签
# soup.select('tag[attr="属性值"]') #标签+属性
# tags = soup.select('li[id^="newsLi"]') #标签+属性,id属性以newsLi开头
# tags = soup.select('li[id$="newsLi"]') #标签+属性,id属性以newsLi结尾
# tags = soup.select('li[id*="newsLi"]') #标签+属性,id属性包含newsLi
#div class=’content-list latest-content’
#div class=’content-list hot-content’

tags = soup.select('div.content-list.latest-content')
标签: BeautifulSoup_lxml 爬虫
最后更新:2021年4月2日

博主

全栈工程师,侧重项目技术解决方案规划和开发

打赏 点赞
< 上一篇
下一篇 >

文章评论

取消回复

分类
  • .NET (65)
  • docker (3)
  • linux (12)
  • python (20)
  • web (14)
  • 小程序 (4)
  • 数据库 (2)
  • 未分类 (4)
  • 杂七杂八 (10)
标签聚合
js linux winform python C# nginx centos DevExpress
最新 热点 随机
最新 热点 随机
.NET开发手册标准参考 招募兼职前端开发 Centos安装dotnet6环境 VS上切换分支,vs编译运行出现bug,A fatal error was encountered彻底解决方案 用C#封装一个线程安全的缓存器,达到目标定时定量更新入库 C#通过特性的方式去校验指定数据是否为空
wpsjs插件开发-采用js和wps交互功能 用C#封装一个线程安全的缓存器,达到目标定时定量更新入库 ubuntu18.04使用GPU部署学习后的中文OCR识别完整教程 centos系统执行python或者其他的错误集合 python快速把office文档execl或者word等转成pdf nginx配置命令

COPYRIGHT © 2021 陈程的技术博客. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS