V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  zictos  ›  全部回复第 126 页 / 共 127 页
回复总数  2539
1 ... 118  119  120  121  122  123  124  125  126  127  
2020-05-13 22:27:18 +08:00
回复了 zictos 创建的主题 Python sublime text 无需保存文件,直接运行已输入的 Python 代码
@jfcherng 嗯,我已经实现了。直接用 sublime 插件通过 sublime 的 api 获取当前文件的所有内容,然后在插件中建立一个专门的临时文件,直接把内容保存到该临时文件,然后运行该临时文件。需要使用的时候通过快捷键调用。
2020-05-13 22:09:31 +08:00
回复了 zictos 创建的主题 Python sublime text 无需保存文件,直接运行已输入的 Python 代码
主要也不是经常使用,没必要用其他软件。sublime text 算是功能相对较全面并且扩展性较强的文本编辑器了,直接用 sublime text 替代 windows 自带的记事本,有需要简单测试一下代码的时候偶尔使用一下,平时用 ide 。
2020-05-12 08:14:05 +08:00
回复了 allencloud 创建的主题 问与答 ssh 到 aws 好卡啊,能走 socks5 代理 ssh 吗?
代理服务器本身也是直连 aws 的,只是服务器那边能通过代理访问其他网站。
当然你有其他代理就另说。
我用的亚马逊日本节点,并且还在使用 “锐速”。ssh 一点都不卡,并且 youtube 1080p 无压力,跟国内视频网站没啥区别,除了延迟高一点
2020-04-29 20:15:42 +08:00
回复了 isno 创建的主题 问与答 没有人因兴趣做个 ai 翻译么?
很难达到大公司的水平的,做着自己玩基本也是调用大公司的 api,只是可以做得在使用上比大公司的成品方便点。
2020-04-28 22:08:50 +08:00
回复了 Jessepinkman 创建的主题 Google Google 中文搜索质量越来越差了。
一些生活性的问题用谷歌很难搜出好的结果,前面经常出现一些乱七八糟的网页,反倒是百度的结果挺好的。谷歌搜技术方面、软件方面、影视方面的东西还是很不错的。
2020-04-26 17:30:22 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@abcbuzhiming 如果西方国家的爬虫真的成 ca 边行为,那估计那些大企业都不会去做了。拿版权来说,国外就是非常重视版权的。
2020-04-26 17:27:01 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@abcbuzhiming 大企业不是违规就只罚款就行,大企业也有刑事责任的。像爬虫假设以破坏计算机系统罪、侵入计算机系统罪、非法获取计算机系统定罪,由于大企业的体量大,他们的爬虫对别人造成的后果比普通人的爬虫大得多。
你是不知道西方国家的惩罚性赔偿吗?动不动就几个亿的罚款或者惩罚性赔偿。惩罚性赔偿都是赔给普通人的,有律师愿意给普通人打官司,因为这里面的利益非常大。比如老太麦当劳被咖啡烫伤都天价赔偿,如果换中国就是老太自己的责任了,还会有很多人说老太讹人。
2020-04-26 17:18:37 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@abcbuzhiming 你不要拿西方拿举例,西方爬虫违法吗?西方的大企业能把爬他们网站的普通人送进去吗?
2020-04-26 17:12:18 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@abcbuzhiming “凭什么普通人就要被抓”这个问法为什么可笑?同样违法,大公司就没事,这正常吗?虽然是现状,难道普通人连说一下都不行了吗?
而且我之所以说那句话是为了反驳你前面说的,你前面说“不允许爬就用任何方法爬都是错的”,既然是错的,那大公司就也是错的。
我也不仅仅是抱怨,而是通过大公司来举例探讨一下普通人用爬虫到底违不违法,单纯拿“爬虫”这个行为来说又到底违不违法。虽然明知道现状是怎样的,那也只是为了讨论一下而已。这个帖子大家也是为了讨论,虽然知道无论如何爬虫都是有风险的,只是风险小而已。
2020-04-26 17:05:01 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@marcong95 虽然伪造 UA 只是侯某的一方面,但今天法官能因为不懂技术而把伪造 UA 写到判决书中,认为这个行为很严重,那明天肯定也可以因为单独伪造 UA 让别人坐牢。另外好像不是拿出了内部程序吧,反正判决书看着挺无语的。
2020-04-26 14:32:27 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@abcbuzhiming 之前还有人在网上代买火车票被判刑,跟携程的模式差不多,凭什么携程就没事。
2020-04-26 14:30:57 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@abcbuzhiming 凭什么普通人就要被抓?
2020-04-26 14:30:11 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@abcbuzhiming 那很多大公司不也爬吗?天眼查爬取数据公开贩卖
2020-04-26 14:13:52 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@iConnect 反正法院的判决理由中有这么一条,所以风险是存在的。严格按法律来说肯定不算,只是你如果得罪了某些大公司就难说了。大公司有时候往往能力通天,参考鸿茅药酒案和华为事件和 pandownload 事件
2020-04-26 14:10:55 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@murmur 是的,各种各样的理由都有可能。人人自危,什么都不敢做
2020-04-26 14:08:38 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@taizhenhua1987 头条现在的数据应该大部分都是用户生成的吧。当然即便头条是爬的,你能让他被抓吗?只有大公司能叫人抓普通人,哪个普通人能叫人抓大公司的人的?特别是像这种法律界定不清的事情,大公司往往是比较安全的,大公司真的侵犯了别的权益,其他公司也往往最多只敢提起“民事诉讼”,怎么可能直接叫人抓人?
2020-04-26 02:09:58 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
之前爬取头条的内容被抓的人判的理由中有一条是:
为了破解头条的反爬技术,侯某等人伪造了 UA ( useragent 的缩写,意思就是“用户身份”)来绕过。

意思是伪造 UA 都不行,居然可以用这样的理由让你坐牢,反正随便用什么理由都行。破解验证码或者换 ip 就更危险了。爬虫如果不用点技术那还爬什么,现在各大网站或多或少都会有一点反爬虫的措施。
@Higurashi 刚还是试了一下,发现有报错,具体错误提示可看这篇笔记:

http://note.youdao.com/noteshare?id=b7397b8746fe671545ea1fe327c89ba5
@Higurashi 我用不到,因为我自己本身没这需求。我也不清楚你的需求是什么,按你说的似乎只有自己写笔记的时候#号标得很规则才能有用。既然这样,那还不如手动标。

另外用太多标题作为层级的笔记并不好看,层级太多用项目符号或者缩进更好。你的代码经过我之前的测试发现好像只有#号很规则的情况下才有用,如果随机在某些行加入一些#号,最终标出来的序号是非常乱的。

我之前没事也有试着重新写了一下,我写的代码即便在#号随机标得很乱的情况下添加的序号也还算规则。只是不知道究竟该用什么算法,不知道是相同的#号数量用相同的层级还是用相对的方式增加或减少层级,相对的方式就是说发现#号比上一行多就增加一个层级,比上一行少就减少一个层级。

总之不管用什么方式都无法保证很规则,最终都还是可能标得很乱。我感觉这个程序实在没什么用。除非你能明确自己的需求,确保自己在笔记中的序号一定是规则的,一定是你预先考虑到的情况,不会出现其他特殊情况。

下面是我后来写的代码:
http://note.youdao.com/noteshare?id=3cd18b9191d748c0db3dabb6893da3d1
2020-04-22 18:01:39 +08:00
回复了 foreverfuck 创建的主题 程序员 写个爬虫爬取值得买的商品和文本会被安排进去吗?
@nellace 部分可能是手动发的吧?现在不止官方的人可以发,用户也可以发布优惠商品。反正他们不数据来源不单一,所以就比单一来源的爬虫更能为自己开脱
1 ... 118  119  120  121  122  123  124  125  126  127  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3168 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 38ms · UTC 12:25 · PVG 20:25 · LAX 05:25 · JFK 08:25
Developed with CodeLauncher
♥ Do have faith in what you're doing.