V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  gzdaijie  ›  全部回复第 6 页 / 共 7 页
回复总数  137
1  2  3  4  5  6  7  
2019-06-29 19:03:45 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@meetocean #78 你是专业写作的,这个评价很开心!技术博客写作算是业余爱好,不喜欢被采集也只是一时气愤不过。看了你写书的帖子,才觉得,版权状况的好转对于全职投入的人至关重要,祝愿你实现梦想!
2019-06-29 17:20:58 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@haozi3156666 #70 我分析了大部分转载的网站,结果很失望。

1. 将指向原站的链接全部干掉。
2. 将原站链接的 a 标签,加上 nofollow, noindex 属性,搜索引擎会过滤掉有这个属性的标签。
3. 将原站的链接全转为跳转,比如 https://la_ji_zhan 点 com/go?href=你的链接,由垃圾站的服务器提供 302 重定向。
4. 把你原站的链接,全爬过来,都改为指向自己的。

最终连外链都舍不得施舍。
2019-06-29 17:02:48 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@westoy #60 也有可能爬 sitemap,比对是否有新链接再过滤。估计维护了一个域名列表,定期去看是否有新链接。我被爬取后的文章不是 feed 里的原文,而是从 article 标签内部,过滤掉 a、script、canvas 等标签的结果。
2019-06-29 16:51:42 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@littleghosty #66 爬 cnblogs 就太傻了,除非是做推荐用,比如 tuicool,cnblogs 的权重太高了。爬百度不管的原创博主,是收益最大的。
2019-06-29 16:45:26 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@ElegantOfKing #59 当时在打比赛,然后用 mnist 总结了一些与众不同的地方写了下来,对你有帮助,感觉很开心!现在有更新的内容了~
2019-06-29 16:34:40 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@lirui0073 感谢,我现在新文章推上去,马上在 google 上手工更新 sitemap.xml ,5 分钟后发现收录了,安心睡觉。之后发现采集再举报,效果明显。过去荒废了一年,不懂这些。
2019-06-29 16:32:30 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@LongLights #55 作为一个搜索引擎,搞百家号这种专注于抄袭的内部引流,格局之小,令人咂舌。
2019-06-29 16:31:22 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@vsitebon 配色好漂亮呀,突然感觉我设计的土得掉渣了,注重功能,没注重色调了。
2019-06-29 16:21:42 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@halfer53 #50 这点没了解过,一开始搜相关关键字,都是转载的网站,但是用 site:查看的确是收录了,但是举报后,效果确实很明显。连续几天我的文章就能出现在搜索首页了,刚刚搜索也是......
2019-06-29 16:15:49 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@weakish 你居然发了语音,我跟着读了一遍。你的 pages 主页别具一格~
2019-06-29 16:11:37 +08:00
回复了 timeromantic 创建的主题 程序员 给 V 友上班摸鱼的一个福利~~~
今天刚好发了个和独立博客有关的帖子,已提上墙申请,支持楼主。
2019-06-29 15:57:24 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@skenan 感谢,这个有时间给加上。
2019-06-29 15:37:52 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@NG6 你的文章数量和质量都不错,肯定花了不少时间。写文章很耗精力,当然是希望帮助别人的~ 但是希望搜索引擎认为自己的原创的,这是底线。收录了几天后再转,也没啥问题,我原来的声明也是鼓励转载的,伤心了。

大家也可以发一发自己的原创博客链接,独立博主是个小圈子,一起交流交流~
2019-06-29 15:11:47 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@cifermail 爬虫琢磨过一段时间,静态博客,服务器端能做的有限。不过计划下一篇博客折腾记,专门记录这两周的心路历程和反爬措施,让看到的独立博主多点方式维护自己的利益。目前还要再总结点干货。
2019-06-29 15:06:14 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@weixiangzhe 正常转载问题不大的,主要是采集站爬得太快了,搜索引擎难以分别原创。不过即使是正常转载,Google 也会给转载站降权重的,对自己不利。其实自己写一段推荐摘要,不放原文会比较好。
2019-06-29 14:47:18 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@youngxu pages 是 robots 协议不允许百度爬,对普通的爬虫也有反爬措施吗?还有一点,就是觉得 pages 访问太慢了,今年发现快很多了,上海联通,github 晚上卡得不行。
2019-06-29 14:41:43 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@Buges 哈哈,我觉得生活对我不薄,还想多活几年。
2019-06-29 14:39:06 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@easylee 自己撸的 hexo 主题,持续优化中~

如果对 hexo 主题感兴趣,也欢迎关注我的主题,两周前花两天时间撸的。

https://github.com/geektutu/hexo-theme-geektutu
2019-06-29 14:35:47 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@skiy 嗯,我在代码片段里加了,图片也加了。不过令我最烦恼的,是 Google 搜索把我判定为抄袭,然后搜索结果显示聚合站,而不显示我的。比如对方十分钟就爬走了,然后第一时间提交 Google,并被收录。跳进黄河也洗不清。
2019-06-29 14:31:43 +08:00
回复了 gzdaijie 创建的主题 程序员 独立博客被各种聚合网站爬,好心累。
@terence4444 这些聚合站采集文章,估计知道大家不会这样做的。

不过,大家如果发现自己的网站被爬了,搜索结果还排在前面,Google Spam Report 真心推荐。效率很高,一般两小时后,再去搜索,垃圾站的索引就没了。前提是,你第一时间向 Google 提交了网址。

真心得总结一篇,让大家都少走点弯路。
1  2  3  4  5  6  7  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3468 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 04:46 · PVG 12:46 · LAX 20:46 · JFK 23:46
Developed with CodeLauncher
♥ Do have faith in what you're doing.