V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  my8100  ›  全部回复第 1 页 / 共 3 页
回复总数  50
1  2  3  
把 scrapy 抓取的网页保存到文件,再手动调用解析一次,看是网页还是解析问题。
@TwoCrowns 好像 base64 解码也搜不到微信?
238 天前
回复了 moudy 创建的主题 Python Python += 运算符可以修改原始引用?!
写成这样会清楚一些吧:

g_all = Graphics()

g_all = g_all + circle(origin, i*5)
frames.append(g_all)
238 天前
回复了 moudy 创建的主题 Python Python += 运算符可以修改原始引用?!
https://github.com/sagemath/sage/blob/c4363fc97eb67fb08073ea37ef88d633e9feb160/src/sage/plot/graphics.py#L1129

def __add__(self, other):
"""
If you have any Graphics object G1, you can always add any other
amount of Graphics objects G2,G3,... to form a new Graphics object:
``G4 = G1 + G2 + G3``.
没用过,可以看看 深圳租房团 深圳租房小天使。
浏览器 F12 看实际返回的时间带不带年份信息。
试试 from py4j.protocol import get_return_value
2022-11-15 12:52:56 +08:00
回复了 itskingname 创建的主题 正则表达式 正则表达式如何忽略子字符串中的内容
“忽略双引号内部的中括号中的内容”,既然这么明确,为啥不先 re.sub 一次将无关内容替换为空字符串?
2021-01-16 23:46:43 +08:00
回复了 yixiugegegege 创建的主题 Python 迫于逻辑实在理不清了, Python 求助
from collections import defaultdict

child_dict = defaultdict(list)
for d in data["child"]:
child_dict[d["f_pyfirstletter"]].append(d)

assert {"child": child_dict} == target_data
2019-11-07 07:55:04 +08:00
回复了 Livid 创建的主题 Python 关于 Flask 项目的代码文件组织
Visitors and git clone insights traffic stats on all repos shows as zero since the 21st August 2019 #1650
https://github.com/isaacs/github/issues/1650
2019-08-23 09:58:35 +08:00
回复了 aaronhua 创建的主题 Python scrapydweb 和 spiderkeeper 有什么区别?
“请尽量让自己的回复能够对别人有帮助”
2019-08-22 23:50:03 +08:00
回复了 aaronhua 创建的主题 Python scrapydweb 和 spiderkeeper 有什么区别?
1. 可靠性:持续集成,目前代码覆盖率 > 89%。
2. 实用性:集成 LogParser,爬虫进度可视化,基于 Scrapy 日志分析的监控和警报。
3. 可扩展性:在爬虫集群的任意多个节点实现一键操作,包括部署,运行,停止和删除项目,汇总分布式爬虫的日志分析报告等。
4. 权威性:Scrapyd 开发者成员之一,及时适配新版本新特性。

在线体验就完事了: https://scrapydweb.herokuapp.com/
2019-06-30 22:03:27 +08:00
回复了 kikaoki 创建的主题 问与答 有办法知道这两个网页在时间上的先后关系么?
## Chrome F12 开发者工具
http://www.pudong.gov.cn/shpd/department/20190315/019020004004_3377cd83-5f78-4809-ad60-f5eef65ad1c2.htm
Last-Modified: Mon, 25 Mar 2019 08:47:12 GMT

http://www.pudong.gov.cn/shpd/department/20190315/019020004004_988dd3b7-77ec-4ba8-bd3d-b6badaf470ca.htm
Last-Modified: Fri, 15 Mar 2019 09:18:50 GMT

## 下载 xls 文件
右键>属性>详细信息>最后一次保存的日期 也能看出区别。

你自己再确认一下。
参考 #1 的写法:
```
In [229]: sel.xpath("//tbody[tr/th/text()='跑步机']/tr[@align='center']/td/text()").extract()
Out[229]:
['\n ',
'\n ',
'\n ',
'\n ',
'38Min.',
'14:29',
'15:07']

In [230]:
```
<tr><th colspan="5" class="pit" align="center">跑步机</th></tr>
<td>
这里第二行的 <td> 应该是多余的

```
In [215]: from scrapy import Selector

In [216]: sel = Selector(text=doc)

In [217]: sel.xpath("//th[contains(text(), '跑步机')]/parent::tr/following-sibling::tr/td/text()").extract()
Out[217]:
['\n ',
'\n ',
'\n ',
'\n ',
'38Min.',
'14:29',
'15:07']

In [218]: sel.xpath("//th[text()='跑步机']/parent::tr/following-sibling::tr/td/text()").extract()
Out[218]:
['\n ',
'\n ',
'\n ',
'\n ',
'38Min.',
'14:29',
'15:07']

In [219]:
```
@itskingname 参考 #3 链接:
1. 提交,回复 issues
2. 提交 PR
3. 持续下去,等待 invitation
@ddzy 头像眼熟
1  2  3  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1387 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 27ms · UTC 17:34 · PVG 01:34 · LAX 09:34 · JFK 12:34
Developed with CodeLauncher
♥ Do have faith in what you're doing.