陈程的技术博客

  • 关于作者
爬虫
python

BeautifulSoup_lxml解析

def parseHtml(html): soup = BeautifulSoup(html, 'lxml') # print(soup.prettify)格式化输出 # items = soup.find_all('div', attrs={'class': 'news-list-b'}) # items = soup.select('Tag')#CSS选择器 # items = soup.select('.class')属性 # items = soup.select('#id')ID # items = so…

2021年2月2日 0条评论 616点热度 0人点赞 博主 阅读全文
.NET

使用C#+Jumony开发网络爬虫并对数据做相关分析

使用C# + Jumony开发网络爬虫 现在开发网络爬虫大部分都用python,发现用C#来写爬虫太少,我自己尝试用C#写了一个定向爬虫,在这里我向大家介绍它,目前已经把它开源到github上了,想要深入了解的朋友直戳下面的链接: [https://github.com/zuiyuewentian/Reptile.git] 首先介绍下该爬虫的设计模型: 1.定义相关的网站入口,爬取内容页,爬取规则 2.使用多线程,从不同的网站入口开始爬取网站的URL链接 3.获取URL链接加入到待爬取链接的集合中 4.从待爬取的U…

2016年9月6日 0条评论 714点热度 0人点赞 博主 阅读全文
分类
  • .NET (65)
  • docker (3)
  • linux (12)
  • python (20)
  • web (14)
  • 小程序 (4)
  • 数据库 (2)
  • 未分类 (4)
  • 杂七杂八 (10)
标签聚合
DevExpress winform nginx centos linux python js C#
最新 热点 随机
最新 热点 随机
.NET开发手册标准参考 招募兼职前端开发 Centos安装dotnet6环境 VS上切换分支,vs编译运行出现bug,A fatal error was encountered彻底解决方案 用C#封装一个线程安全的缓存器,达到目标定时定量更新入库 C#通过特性的方式去校验指定数据是否为空
fastapi做后台的跨域官方BUG以及修复方式 js操作localStorage保存本地json文件的方法 centos安装pip工具 JsonHelper序列化和反序列化 python操作隐藏Selenium登录网站的身份指纹 python 常用命令安装

COPYRIGHT © 2021 陈程的技术博客. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS