ASP.net C# VB.Net PHP

Swoole ASP/ADO/VBScript SQL语言 Python Python3 Diango C语言 Lua C++ Go语言 Revel Docker Ruby Perl Erlang R语言 Julia Apex OAuth 2.0 Arduino 编程经验汇编语言树莓派游戏设计 MATLAB Elasticsearch Numpy F# Delphi HTCondor Rust 易语言 NSQ

用户登录

还没有账号?立即注册

用户注册

点击换图

python简单爬虫

作者: 丶InMyHeart
来源: 51数据库
2022-08-12

import re
import urllib
import urllib.request
from collections import deque

queue = deque()#存放待爬取的网址
visited = set()#存放爬取过的网址。判断是否爬取过

url = "http://news.dbanotes.net"#入口网站
queue.append(url)
count = 1

while queue:
	url = queue.popleft()#删除已经爬取过的队首的网址url
	visited |= {url}#把已经爬取过的页面放入set中，方便下面的判断
	urlop = urllib.request.urlopen(url)
	if 'html' not in urlop.getheader('Content-Type'):
		continue#如果是html再继续爬取
	try:
		data = urlop.read().decode('utf-8')
	except:
		continue
	value = re.findall(r'href="(.+?)"',data)
	for x in value:
		if 'http' in x and x not in visited:
			print("加入队列：" + x)

推荐阅读

热点文章

Discord.py(重写)on_member_update 无法正常工作

Discord.py(重写)on_member_update 无法正常工作

Discord.py 在 vc 中获取用户分钟数

Discord.py 在 vc 中获取用户分钟数

discord.py 重写 |为我的命令出错

discord.py 重写 |为我的命令出错

Discord.py rewrite 如何 DM 命令?

Discord.py rewrite 如何 DM 命令?

播放音频时，最后一部分被切断.如何解决这个问题?(discord.py)

播放音频时，最后一部分被切断.如何解决这个问题?(discord.py)

在消息删除消息 Discord.py

在消息删除消息 Discord.py

如何使 discord.py 机器人私人/直接消息不是作者的人?

如何使 discord.py 机器人私人/直接消息不是作者的人?

(Discord.py) 如何获取整个嵌入内容?

(Discord.py) 如何获取整个嵌入内容?

Discord bot 尽管获得了许可，但不能提及所有人

Discord bot 尽管获得了许可，但不能提及所有人

Discord.py discord.NotFound 异常

Discord.py discord.NotFound 异常

软件

前端设计

程序设计

Java相关