python简单爬虫
- 作者: 丶InMyHeart
- 来源: 51数据库
- 2022-08-12
import re
import urllib
import urllib.request
from collections import deque
queue = deque()#存放待爬取的网址
visited = set()#存放爬取过的网址。判断是否爬取过
url = "http://news.dbanotes.net"#入口网站
queue.append(url)
count = 1
while queue:
url = queue.popleft()#删除已经爬取过的队首的网址url
visited |= {url}#把已经爬取过的页面放入set中,方便下面的判断
urlop = urllib.request.urlopen(url)
if 'html' not in urlop.getheader('Content-Type'):
continue#如果是html再继续爬取
try:
data = urlop.read().decode('utf-8')
except:
continue
value = re.findall(r'href="(.+?)"',data)
for x in value:
if 'http' in x and x not in visited:
print("加入队列:" + x)
推荐阅读
热点文章
Discord.py(重写)on_member_update 无法正常工作
0
Discord.py 在 vc 中获取用户分钟数
0
discord.py 重写 |为我的命令出错
0
Discord.py rewrite 如何 DM 命令?
0
播放音频时,最后一部分被切断.如何解决这个问题?(discord.py)
0
在消息删除消息 Discord.py
0
如何使 discord.py 机器人私人/直接消息不是作者的人?
0
(Discord.py) 如何获取整个嵌入内容?
0
Discord bot 尽管获得了许可,但不能提及所有人
0
Discord.py discord.NotFound 异常
0
