V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  littlecowherd  ›  全部回复第 7 页 / 共 7 页
回复总数  124
1  2  3  4  5  6  7  
体验不错,厉害
2019-08-21 17:49:14 +08:00
回复了 littlecowherd 创建的主题 问与答 http 代理和 https 代理的区别
@ysc3839
emmm,我现在的理解是:
proxies 字典里的 key 的表示协议类型( http/https )应该使用哪个代理服务器(对应的 value ),当找不到对应的协议的时候就默认不使用。
http/https 代理指的是 key 对应的值(即代理地址)的协议,如
proxies = {
'https': 'https://222.189.244.56:48304'
}
中的 https://222.189.244.56:48304。( https 代理)

不知道我的理解对不对?
2019-08-21 17:48:00 +08:00
回复了 littlecowherd 创建的主题 问与答 http 代理和 https 代理的区别
emmm,我现在的理解是:
proxies 字典里的 key 的表示协议类型( http/https )应该使用哪个代理服务器(对应的 value ),当找不到对应的协议的时候就默认不使用。
http/https 代理指的是 key 对应的值(即代理地址)的协议,如
proxies = {
'https': 'https://222.189.244.56:48304'
}
中的 https://222.189.244.56:48304。( https 代理)

不知道我的理解对不对?
**用正则,去掉 HTML 标签,保留标签内文本。**
想保留图片的话,可以先用正则把 img 标签处理下:
1. 将<img src="">替换成{img src=""}
2. 删除 script 和 style 及 comment 等无用标签。
3. 将标签符号替换为空:re.sub(r'<[\s\S]*?>', "", body)
这样大概能完成你得需求。如果还想保留换行的话,可以将</p>、<br>等标签替换为换行符,需要在第 3 步之前执行。
1  2  3  4  5  6  7  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4699 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 05:36 · PVG 13:36 · LAX 21:36 · JFK 00:36
Developed with CodeLauncher
♥ Do have faith in what you're doing.