V2EX › a65420321a 的所有回复 › 第 1 页 / 共 2 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2

❮

❯

2021 年 2 月 26 日

回复了 a65420321a 创建的主题 › 程序员 › 这个网站是怎么做的访问限制?

@nekobest
@reed2020
@Jasmine2016
@dingwen07
好吧,这么看来是 ip 本身的问题了,这倒是好解决了
谢谢各位大佬

2021 年 2 月 26 日

回复了 a65420321a 创建的主题 › 程序员 › 这个网站是怎么做的访问限制?

@lsvih 啊?普通的海外代理可以直接访问吗?为什么我挂 v 皮恩不行呢

2020 年 7 月 13 日

回复了 a65420321a 创建的主题 › Python › scrapy 如何在多个模块里共用一个数据库连接池

@Kobayashi
看过的~你们说 pipeline 让我以为 middleware 可以调 pipeline 来着。。。

2020 年 7 月 10 日

回复了 a65420321a 创建的主题 › Python › scrapy 如何在多个模块里共用一个数据库连接池

@Kobayashi
。。。pipeline 里面可以给 request 加代理吗？

2020 年 7 月 9 日

回复了 a65420321a 创建的主题 › Python › scrapy 如何在多个模块里共用一个数据库连接池

@Kobayashi
我之前一直在纠结，怎么在 spider 里面直接调用 pipeline 的 redis 链接，没有相通，最后我是在 spider 里面声明了 redis 连接池，在 pipeline 和 middleware 通过 spider 参数直接调用 redis 链接
现在看下来，在 pipeline 的 open_spider 中声明 redis 链接，在 spider 里面把需要筛选的东西处理成不同的 item，通过 pipeline 的 process_item 调用 redis 链接。。
我没理解错吧？
可是，如果这样的话，我需要在 middleware 里使用代理，也要用到 redis，这又要怎么搞。。。

2020 年 7 月 8 日

回复了 a65420321a 创建的主题 › Python › scrapy 如何在多个模块里共用一个数据库连接池

@996635

额，你说的钩子指的是哪些？

数据库链接搞定了
在 spider 下__init__构建了 self.pool 和 self.conn
然后在 pipeline 里通过 process_item 中的 spider 参数调用 spider.conn 可以复用数据库链接
middleware 同样是通过 process_request 的 spider 参数

话说，为啥我搜出来的都是说在 pipeline 下的 open_spider 里创建数据库链接，这样的话别的地方通过什么方式调用呢？

2020 年 7 月 8 日

回复了 a65420321a 创建的主题 › Python › scrapy 如何在多个模块里共用一个数据库连接池

@zdnyp

from .settings import ITEM_KEY
import json, redis

class RedisPipeline:

def __init__(self, redis_host, redis_port, redis_db):
self.redis_host = redis_host
self.redis_port = redis_port
self.redis_db = redis_db

@classmethod
def from_crawler(cls, crawler):
return cls(
redis_host=crawler.settings.get('REDIS_HOST'),
redis_port=crawler.settings.get('REDIS_PORT'),
redis_db=crawler.settings.get('REDIS_DB')
)

def open_spider(self, spider):
self.pool = redis.ConnectionPool(host=self.redis_host,
port=self.redis_port,
db=self.redis_db)
self.conn = redis.StrictRedis(connection_pool=self.pool)
print('#### pipelines.open_spider')

def close_spider(self, spider):
pass

def process_item(self, item, spider):
self.conn.rpush(ITEM_KEY, json.dumps(item))
return item

这样没错吧？
我没搞懂的是，在 middleware 和 spider 里面要怎么调用这个 self.conn 呢？

2020 年 6 月 16 日

回复了 guoqing4396 创建的主题 › 程序员 › 想搞一个免费看小说的 app，大家觉得需要有哪些功能点？

老哥们，视频 app 有没有类似阅读的

2020 年 6 月 10 日

回复了 a65420321a 创建的主题 › Python › 动态变化的 js 如何逆向

@joesonw 太慢了。。。

2020 年 6 月 10 日

回复了 a65420321a 创建的主题 › Python › 动态变化的 js 如何逆向

@takemeaway 之前是下载他的 js 运行的，不晓得什么情况现在不通。。

2020 年 6 月 10 日

回复了 a65420321a 创建的主题 › Python › 动态变化的 js 如何逆向

@wnpllrzodiac 不是~我们做行研的