博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python学习笔记之爬虫
阅读量:6820 次
发布时间:2019-06-26

本文共 1164 字,大约阅读时间需要 3 分钟。

爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况

URL管理器:对将要爬取的和已经爬取过的URL进行管理;可取出带爬取的URL,将其传送给“网页下载器”

网页下载器:将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器”
网页解析器:解析网页可解析出①有价值的数据②另一方面,每个网页都包含有指向其他网页的URL,解析出来后可补充进“URL管理器”

 

 

 

网页解析器——Beautiful Soup-语法:

例如以下代码:

对应的代码:

1、创建BeautifulSoap对象

2、搜索节点(find_all,find)

3、访问节点信息

# -*- coding: UTF-8 -*-from bs4 import BeautifulSoupimport rehtml_doc = """The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names wereElsie,Lacie andTillie;and they lived at the bottom of a well.

...

"""soup = BeautifulSoup(html_doc,'html.parser', from_encoding='utf-8')#(文档字符串,解析器,指定编码utf-8)print('获取所有的连接:')links = soup.find_all('a')for link in links: print link.name, link['href'],link.get_text() print('获取Lacie的连接:')link_node = soup.find('a', href='http://example.com/lacie')#text='Lacie'print link_node.name,link_node['href'],link_node.get_text()print('正则匹配')link_node = soup.find('a', href=re.compile(r'ill'))print link_node.name,link_node['href'],link.get_text()print('获取p段落文字:')p_node = soup.find('p', class_='title')#class_print p_node.name, p_node.get_text()

 

转载于:https://www.cnblogs.com/PeterZhang1520389703/p/7731840.html

你可能感兴趣的文章
安装Sublime Text 2插件的方法
查看>>
我的友情链接
查看>>
我的友情链接
查看>>
Kubernetes NFS存储服务的误报
查看>>
meta设置
查看>>
sed 行编辑器知识汇总
查看>>
nginx升级OpenSSL
查看>>
C++中Timer的用法
查看>>
报表软件JS开发引用HTML DOM的location和document对象
查看>>
Windows7 Python-3.6 安装PyCrypto(pycrypto 2.6.1)出现错误以及解决方法
查看>>
《Linux学习并不难》Linux常用操作命令(14):grep命令查找文件中符合条件的字符串...
查看>>
MFC界面库BCGControlBar v25.1新版亮点四:网格控件等
查看>>
Linux下定时切割Nginx访问日志并删除指定天数前的日志记录
查看>>
zabbix 监控项目
查看>>
跨交换机实现VLAN
查看>>
Python的"print"函数在“Hello World”之外的延伸
查看>>
计划任务
查看>>
获取无序数组中第n大的数及快速排序算法使用
查看>>
我的友情链接
查看>>
MongoDB复制集原理
查看>>