Python的一些用于抓取的方法封装
- 作者: 霜霜洗逼用霸王
- 来源: 51数据库
- 2022-08-12
#!/usr/bin/env python
#-*- coding:utf-8-*-
import urllib2
import re
import hashlib
import json
#--------------------------------------------------- 工具 start
def md5(str):
'''
计算MD5值
'''
m = hashlib.md5()
m.update(str)
return m.hexdigest()
def search(regex, content, group = 1):
'''
搜索指定正则匹配的内容
'''
pattern = re.search(regex, content, re.DOTALL)
if(pattern != None):
return pattern.group(group)
return ''
def findall(regex, content):
'''
查找指定正则匹配的所有内容
'''
return re.findall(regex, content, re.DOTALL)
def cleanHtmlTag(content):
'''
清理HTML标签
'''
return content or re.sub(r'<[^>]*?>', '', content).strip()
def cleanedSearch(regex, content, group = 1):
'''
查找匹配的指定字符串并清除HTML标签
'''
return cleanHtmlTag(search(regex, content, group))
def httpGet(url, encoding='gbk'):
'''
发送Http GET请求,返回内容
'''
return urllib2.urlopen(url).read().decode(encoding, 'ignore').encode('utf-8')
def toJson(dict):
return json.dumps(dict, ensure_ascii=False, indent=4)
#--------------------------------------------------- 工具 end
推荐阅读
热点文章
Discord.py(重写)on_member_update 无法正常工作
0
Discord.py 在 vc 中获取用户分钟数
0
discord.py 重写 |为我的命令出错
0
Discord.py rewrite 如何 DM 命令?
0
播放音频时,最后一部分被切断.如何解决这个问题?(discord.py)
0
在消息删除消息 Discord.py
0
如何使 discord.py 机器人私人/直接消息不是作者的人?
0
(Discord.py) 如何获取整个嵌入内容?
0
Discord bot 尽管获得了许可,但不能提及所有人
0
Discord.py discord.NotFound 异常
0
