V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 201 天前的主题，其中的信息可能已经有所发展或是发生改变。

当前互联网的一大问题是数据封闭,数据被认为是重要资产严密保护在各个公司手里

这不公平也不合理:

数据是各个用户劳动创造并免费共享的(比如帖子,视频,app),但是却不能被公开的免费获取,这点非常像论文下载公司,互联网公司以此牟利
小公司缺乏数据,很难竞争,导致互联网被几家大公司垄断,进而侵犯用户利益

那么,做一个将数据重新免费共享到全互联网的机制,就很有意义,诸位怎么看?

我能想到的一个方案:

做一个数据爬取和分发插件,在用户授权的范围,当他浏览网页时,就爬取当前网页,并广播全网
下游数据消费者就能存储,解析,整理全网原始数据,供其他人使用

这个方案能做到:

免疫所有反爬策略,毕竟你不能不让用户看你的网站数据吧
数据来源于人民,再被人民分发出去,道德架构上合理

41 条回复 • 2024-06-07 22:27:23 +08:00

iyiluo

201 天前

不是已经有了吗，web3 的数据存储，filecoin 啥的。你想的方案一看就是违法的，所有绕过 robots.txt 策略的爬虫都不怎么合法

meeop

201 天前

@iyiluo 咱讨论是否合理,恶法非法

kenshinhu

201 天前

我认为应尽量降低服务器存储的费用，并确保数据的长期保存。我不禁想到那些保存了数百万年信息的化石，这可能是最优的解决方案。

试想一下，如果前一个文明发展到了比我们更高的科技水平，他们是否也曾一开始使用电子设备记录信息？后来，他们可能也发现了类似的问题，才意识到石头是最廉价且时效最长的解决办法。

liprais

201 天前

你准备进去蹲几年?

meeop

201 天前

@liprais 一天也不想进去,只是讨论

meeop

201 天前

@liprais 以及这个行为其实是合法的,我把我们的聊天截图后保存,分发,难道有哪里违法吗?

pkoukk

201 天前

每个用户上报的数据相当于自己详细的浏览记录，属于个人隐私数据，还是极度隐私
你愿意公开自己的浏览器记录？

summerwar

201 天前

请先回答下面的问题：

1.对于用户来说，这个插件的使用是收费的还是免费的？查阅别人产生的数据是收费的还是免费的？

2.别人使用插件产生的数据，是否对用户有益（金钱激励还是积分或者等级等提升）？如果有益，这些益处是否能让用户愿意让渡个人隐私而使用，如果免费，用户为何要使用插件来产生数据？

3.数据存储到哪里？服务器、数据库以及所产生的的各种费用谁来支付？代码及这些数据的日常维护产生的费用如何支付？

4.数据如何展示和使用？由展示产生的费用如何支付？

5.作为反对数据封闭的一员，你的数据必然不会封闭起来，那么请问，由此产生的爬虫问题如何解决？是否要屏蔽或者防止爬虫爬取数据？为了与目的相一致必然不能禁止爬虫，那么因为爬虫产生的流量费用如何支持？

yxd19

201 天前

@kenshinhu 那么是否需要大容量呢？如果它低成本大容量长期保存，那么它岂不是成了六边形战士了？那就不是想不想有而是能不能有的问题了。

MMM25O7lf09iR4ic

201 天前

他能浏览不代表你能爬取他浏览的，某个网盘共享插件也干过这种小聪明，判了几年。

meeop

201 天前

@pkoukk 所以强调是在用户允许下共享特定数据

比如你是一个博主，每发一篇博客插件都会问你，是否愿意共享此篇博客到全网，通常应该都是愿意的。

另一个场景，我是一个普通用户，插件给你个按钮，推荐当前内容到全网（这个行为应该是会违法网站用户协议，不过每个人分享几篇内容目前不违反任何法律）

meeop

201 天前

@summerwar
1 是否收费
必然不能收费，用爱发电，收费那就是非法牟利了
而且插件也未必是某个特定的人开发，它应该是类似 bt 下载之类的开源协议和客户端

2 是否有激励
一般没有
用户分享一般目的是分享自己发布的内容，以及如标题所述为打破数据垄断做一点微小的贡献
但也可以有
比如你可以悬赏说挖一篇抖音的视频返现几毛钱（少量分享目前是灰产，就各个网站之间互相搬运，剽窃别人创作的内容）

3 数据存哪里？
不存储
这里只是尝试建立一个内容共享生态机制
存储是内容消费侧考虑的事

当内容充分共享时，当然是谁用谁存储，各取所需
比如我提供一个网盘下载搜索，我自然要监听网盘类资源共享消息并存储

4 如何消费
如 3 所述，取决于生态圈具体的应用

5 如何反爬？
数据都共享了还爬什么，直接监听共享消息啥都有

meeop

201 天前

@erwsd32ew 那肯定，所以需要用户授权，这是用户行为，插件只是提供工具

kenshinhu

201 天前

那也是的，大容量存储是个重要的东西。不过，假如有了低成本、长期保存的方法，那信息压缩还会同时发展吧！

像那些远古的化石，虽然看起来只是石头，但实际上它们保存了非常丰富的信息，比如气候变化、生物进化等。这些信息在石头中存储了数百万年，而且非常密集。

pkoukk

201 天前

@meeop #10 你这样相当于把互联网所有内容的风险转嫁到自己身上了，有人通过这个发色情，诈骗，你就得因为帮信蹲牢子

qq135449773

201 天前

其实我觉得这个想法是 ok 的，但是现在需要立法角度考虑 1 用户数据归属权 2 赋予爬虫更宽松的合法权力。

指望国内某些人这辈子能想到这个问题肯定是没戏了。但是另一方面，不止国内，现在国外因为最近几年 AI 大火特火，各家各户都在各种限制爬虫。

这样下去肯定不是办法，我估计将来为了保护互联网开放权力，迟早国外会有国家牵头法律上去限制这种城墙高筑的行为。

somebody1

201 天前

你开发吧。

反正我不会用的，我浏览网站都不想网站知道，还想让你个第三方知道！！！

meeop

201 天前

@pkoukk 我觉得不会,因为第一转发的人是某个具体用户,行为主体是该用户,第二也不存在“我”,因为这就是个开源软件,而且作者还是个外国人的话,中国法律管不到.

比如说有人用 bt 分发色情信息,抓谁?

meeop

201 天前

@qq135449773 我觉得指望庙堂去改革是不可能的,也没有动力去改革

要想改变只能靠群众自发支持新技术

比如说短信和电话费用贵,我就做个 im 软件,当时不是各种阻挠吗,如今不还得妥协
还有个例子是电视机顶盒,明明互联网电视更方便,但是就是不让介入,现在把电视搞得没人看了

所以你觉得信息垄断不好,就应该力所能及的支持一些反垄断方案

meeop

201 天前

@somebody1 那是因为你是实名认证浏览的,允许匿名账户不关联具体个人信息不就完了

比如别人看到的是“火爆兔兔”浏览了 xx 网站,分享了 xx 信息

pkoukk

201 天前

@meeop #17 你的软件通过什么途径，把信息“广播”到网络上面去呢？
网页么？那这个网页是谁提供的？如果是你，那么这个网站上出现违法内容，你就要担责。
如果你找些 github 这些公开免费网页作为途径，相当于薅公共服务的羊毛，他们愿意接收么？

meeop

201 天前

@pkoukk 用 gossip 协议啊,比特币用的这个
或者用 dht 协议,ipfs 和 bt 都是这个方案
还可以用一些免费公共服务做信号服务器,比如电报群
或者使用 mastodon 等区中心消息服务

这些方案都不依赖中心服务器,上面都有违法内容,都不需要有人担责

somebody1

201 天前

@meeop #20

厂商的隐私保护我都没法全信，你谁啊，你搞个匿名我就信？

meeop

201 天前

@somebody1 这里的隐私保护不是基于信用的,而是基于算法

上述比特币啊,dht 啊,电报啊都是保护隐私的

判断原理也很简单,只要一个服务不需要你填写任何隐私信息,那就是保护隐私了啊
你啥都没填有啥好获取的
如果是怕木马病毒后门之类,可以靠开源社区保证,你不懂有比人懂,代码开源的有问题就爆出来了

H97794

201 天前

各个大厂互相投广告!!!

linyongxin

201 天前

前段时间有篇爆文“中文互联网正在加速崩塌”，第二天全被删了。

meeop

201 天前

@H97794 确实会如此,相当于 ddos 攻击

不过那是这个服务有很高热度之后的事了,而且也不是没法解决

meeop

201 天前

@linyongxin 这也是数据被垄断的另一个体现啊,因为数据被少数寡头控制,所以你才能很简单的删除

数据分发到全网的话,根本不可能被删除

pkoukk

201 天前

@meeop #21 那你这个服务也不算 “广播” 吧，实际就类似于 tg 上面的盗版资源分享群咯？
想看到这些内容，也得知道你这个地方，再加入你这里，才看得到。
tg 上的盗版群也是需要管理员的，否则大量的灰黑产广告就会淹没有效信息

YGHMXFAL

201 天前

@meeop #22 IPFS/BT 这些都是抗审查不抗封锁,ISP 有心/有红头文件,你这一套从技术上就玩不转了

meeop

201 天前

@pkoukk 确实具体实现还是有挑战的,主要在如何治理垃圾信息

meeop

201 天前

@YGHMXFAL 我觉得不至于
1 如果真有红头文件,说明这一套这的可行且有很多人用(有巨大影响),那就已经成功了,能吸引到更多资源去对抗和迭代技术
2 理论上只要能和墙外服务器建立数据连接,就能实现所有信息的传播
实践层面上,比如 v2ray,支持对通信流量进行混淆和隐藏,看起来就是一个普通的 http 或者其他人畜无害协议包

一个简单的解法就是挂个梯子,后面就是外网对外网的通信了,国内管不着

YGHMXFAL

201 天前

还有一个问题就是,你这一套,在数据巨头看来也很好打击:

强制内容登录后可见,然后加隐藏水印,以后在私域之外发现该内容就追踪+封号

不止是截图可以藏水印,复制也可以藏“水印”,看看起点怎么追杀盗版,每一个账号看到的内容实际上不一样,随便多一个/错一个空格/空行/标点符号,不影响阅读,但是能追踪到你

YGHMXFAL

201 天前

@meeop #32 那网民都有能力/兴趣到墙外冲浪了,还搬运墙内私域的内容干啥呢?你是说想搞互联网档案馆墙内专版吗?这个中国数字时代就是吧?

meeop

201 天前

@YGHMXFAL 这个还是技术对抗问题
只要资源足够,你能反爬,我就能解反爬,结果取决于谁资源多

对于我说的这个场景,项目不成功没人对抗我,项目成功就有更多资源升级技术

而且最近不是还有兜底方案吗,直接用 ai 理解页面内容再整理数据输出,我已知的所有水印技术都会失效(明水印,隐水印,字符里藏隐藏字符或者编码)
prompt 比如这么写:帮我理解当前页面,重新绘制所有图片并略微修改规避版权,重新理解并描述所有文字,并去掉可能的用户追踪编码

meeop

201 天前

@YGHMXFAL 只是讨论,比如打破数据垄断,实现真正意义全网数据共享?

YGHMXFAL

201 天前

@meeop #35

①还需要网民有访问 AI 的能力,拉高了门槛,自然就缩小了受众圈子

②AI 重构原始内容,必然存在理解偏差和失真,失真后,受众能否接受?我个人不能接受

Goooooos

201 天前

“数据是各个用户劳动创造并免费共享的(比如帖子,视频,app),但是却不能被公开的免费获取,这点非常像论文下载公司,互联网公司以此牟利”

数据是用户创造没错，用户可以上传多家平台，除了特定签约用户，没人限制只能上传某个平台

summerwar

200 天前

你使用任何协议，即使不依赖于中心服务器，那么也必然存在着存储这些数据的服务器？那么请问，这些服务器存储这些数据，对他们有何益处？他们为什么要消耗金钱来存储这些东西？

其次，这些数据既然是开源的协议和客户端，那么必然要考虑第二个问题，如何保证数据的真实性。当用户访问量大的时候，我直接往上面发送大量广告数据或者垃圾数据如何处理？如何保证数据的干净，减少垃圾数据的产生？数据是否能够修改，如果可以修改，如何保证不被篡改？

最后，bt 协议也好，其他的协议也好，必然是对用户来说，好处大于坏处的，你这个我没看出来对用户好在哪里？

数据是免费的，但是存储数据和展示数据是需要消耗货币的，维护数据和筛选数据也是需要消耗货币的，不能觉得因为数据是用户直接共享的，而认为没有成本，其实成本还是很高的。

技术手段不能解决所有问题，但所有的问题最终要回到经济问题上来，那就是钱从哪里来？

btw：广播全网，这里的全网指哪里？下游消费者就能存储解析，整理全网原始数据，那么当这个数据巨大的时候，每个人的硬盘上都先存储一份吗？按照今天互联网数据的产生速度，怕是不到一个月数据就把硬盘撑破了

TY233

200 天前 via iPhone

@yxd19 感觉你在说 DNA ，信息密度和时间尺度都是顶级容器

meeop

200 天前

@summerwar 看下我上面的回答
数据分享只是数据生产端，消费端才会承担存储和法律风险
消费端就是具体落地应用了，看应用场景，比如你要做一个网盘搜索，你就监听网盘类信息呗
v2 上也经常能看到聚合全网某种数据的新应用，如果有这个生态的话，就不用自己做爬虫了，直接监听共享数据并聚合整理就行

至于存储，这也不是问题啊，普通用户不存储，谁监听谁存储，信息只是分发出去了，并不是说必须全量存储
另一个方案是 dht ，每个用户存储一部分，全网用户能生产多少数据，就一定能存储多少数据（你每天发的消息照片肯定能存储在你的手机里）

看今天的阮一峰周报想到个点,数据共享计划

当前互联网的一大问题是数据封闭,数据被认为是重要资产严密保护在各个公司手里

这不公平也不合理:

我能想到的一个方案:

这个方案能做到: