1
cornetCat 2020-05-19 20:10:52 +08:00
不同平台的同一个用户怎么关联上啊?根据 id ?误报率很高吧
|
2
summerl0l OP @cornetCat 以前可能没有,现在有啊。现在不是有身份证号、手机号、邮箱嘛,一个号的数据不准就用不同类型的号码的数据进行关联比对,额外再用“用户”的常用登录 ip 等手段进行辅助判断。
不过这个只能说是我觉得挺意思的事,有个平台通过耗费大量的资源获取众多主流平台的用户痕迹就只是为了通过这些分析用户得出“用户”在网络上学识、价值观、政治倾向、生活习惯等等的精准画像,在往上就是根据已经生成的”画像“模拟不同类型的事件下这个画像在网络上的“行动” 。 条件允许的话再根据这些模拟的”行动“和这个”用户“的实际行动进行比对改进,就这样循环“训练”最终得到一个精准预测”用户遇到事件后将进行的行动”的功能。 拥有这个平台最高权限的人还可以随意窥探这些用户的画像,甚至创造事端引导这些“用户”行动,说起来不也挺没品的。 不是专业人士,不清楚这东西能不能实现。之前我想的是有一个问答平台,通过分析用户针对同个事件不同的回答来给用户划分“志同道合”的团体。后来发散了一下,何不直接利用现有各大平台的数据直接推算出每个用户的属性。 |
3
fensou 2020-05-20 01:15:51 +08:00 via iPhone
Facebook 早就玩烂这个了
|
4
fensou 2020-05-20 01:19:22 +08:00 via iPhone
而且。中国人没个性,千人一面,盲从愚昧。大数据面前,蚂蚁一般。
|
5
xy2020 2020-05-20 02:17:19 +08:00 via Android
这种模式有很大问题
如果你真按这个模式去做 你就会发现很不准确——你获取到的很多数据都是“脏数据”,因为你暗含了一个假定前提,而生活中这个前提基本不存在 |
6
jwenwang 2020-05-20 08:43:54 +08:00
当然不错,有公司 /官方机构就是在这么干了,用户数据就是新时代的矿产,各个层面都有数不清的价值,这么有价值的东西一般人只能远观而不能亵玩吧?
|
7
WoStaring 2020-05-20 09:32:31 +08:00
数据呢
|
8
summerl0l OP 数据来源:
1 、必要信息(用户 id 、ip 、发布内容、时间)强制过统一平台; 2 、顶级集团利用自己已有的生态圈 现在网站注册强制实名制,网站会强制使用手机号来注册来解决这个问题。 那么能不能强制要求这些个平台统一接入规定的接口。让需要进行筛选的数据进行实时或者定时从这里走。 这是数据来源的一种,这种不就保证了数据的可靠性。 如果是集团的话实现就更方便了,阿里巴巴现在算是覆盖领域比较多的吧 毕竟新闻门户、支付工具、微博、数据中心等等。那符合这种条件的公司就可以用这些数据给用户做一个比较精准的画像。 数据可以保证真实,技术团队也有能力,数据中西可以提供大量算力 通过喂数据,这些大集团是不是可以获得一个较精准的画像呢?随着技术进步,数据的增多,这个画像是不是会更加的精准呢? 1 、假如说现在出现了一个突发新闻,将这个新闻信息喂养给比较精准的模型,是不是可以预测这个“用户”的行动 2 、每个通过结识不同的人,不停的筛选最终才有可能得到一个至交好友,也有可能一辈子都没有。有交集才会认识,认识后才能产生联系。同一个公交上可能就有值得一生结交的好友,但是没有交集就注定错过。 那么使用这些训练出来的模型 /画像,是不是可以将这种概率大幅度提高呢? 3 、预测“个体”需求,做精准有效推送。就像是现在推送广告了。不过淘宝 /京东蠢的地方是,“买过电脑了,还在推电脑”。而不是在我准备买的时候推适合我的电脑,需要预测的是准备这个需求和喜好。 4 、大选,不过这个好像谷歌,Facebook 他们都已经在搞了 5 、..... |
9
lx0758 2020-05-20 12:44:57 +08:00
[屌丝][高级屌丝][屌丝 Plus]
|
10
systemcall 2020-05-20 16:54:53 +08:00 via Android
@summerl0l 早就玩烂了的东西,广告联盟在 10 年前就可以了通过 cookies 之类的来追踪了
中国大部分人都是千篇一律的,早就研究透了 发达国家一堆法律来约束这种行为,要求去标识化,Google 上面可以看到你的用户画像,就只能做到那个程度,超过了就会巨额罚款 只能是经常去漫画网站,所以推导出“喜欢漫画”,经常看本子,推导出“喜欢本子”,利用用户的性取向来营销在一些发达国家是违法的,更不要说是 xp 了 倒是国内管的比较松,不过你十几年前提出来也许有人会投资 facebook 和 google 早就玩烂了的东西,国内对一般的企业也开始管理了,不是 tx 这种必胜客企业还玩这套是 50 年入国军 |
11
summerl0l OP @systemcall 法律角度讲确实是侵犯隐私。不过要是能做到精准,然后再去预测真实用户的行动感觉还是挺有意思的
|
12
morizawatt 2020-05-21 13:03:16 +08:00
@fensou 中国人本人表示有被你的愚昧冒犯到
|
13
fensou 2020-05-21 14:11:14 +08:00 via iPhone
@morizawatt 我这么愚昧还能冒犯到你?
|
14
morizawatt 2020-05-21 14:25:23 +08:00
@fensou 确实啊 大放厥词也挺厉害的 就好像每个中国人你都认识一样 建议阁下下凡间来看看 不是每个中国人都跟你一样一日三餐 朝九晚五 键盘治国
|
15
wzhjii0 2020-05-22 14:54:35 +08:00
@fensou 啧啧,素质真低,单说一个中国隐私做的没其他国家好不就行了?
上来一个地图炮先打遍中国人,可惜了中国生小孩不用考证 |
17
cangcan 2020-05-24 13:12:50 +08:00 via Android
腾讯广告大赛 2020 就是用广告记录推测用户的年龄和性别,年龄分为了 10 个类别,目前的 acc 是 1.45+,仅供参考。
|
18
imn1 2020-05-26 13:01:22 +08:00 1
数据分析不是这样做的
如果按你所说的去分析,极可能得出是个“人格分裂”的 profile @xy2020 #5 提到的一个词很正确 —— “脏数据” 数据分析必须是基于“真实”数据,所谓真实,是指行为表现和分析标的是合理相符的,并不是说真实存在或出现的就是真实数据 你所说的数据其实可以粗分两大类,真实和虚拟 例如购物、银行流水、行程、线下人际关系……等等,这些是相对真实的数据 但,评论、话题、聊天……等等,这些只能算虚拟数据,和本人真实属性是否对等、关联,有待商榷 很重要的点是,即使实名注册,在前台匿名的情况下,大多人的心态仍然归属“匿名”,所以不能将这些主观类型数据视为真实 即使线下,一个人的言论,也不能直接视为其内心价值观和性格对等关联,更何况虚拟环境 主观数据,只能归纳出这个人的表现是怎样,而不是他本身就是这样 如果一个人,他在虚拟环境也能保持本心的话,或者无意识遵从本心,确实能得出他的真实属性,前提是你能判断他是这样 —— 但这就构成一个互斥逻辑:这个项目模型究竟是从表推导里,还是里推导表? 然后真实数据里面也有“脏数据”,例如我大部分支出还是现金的,大部分说的不是数额,而是商品类别,单纯银行流水、线上购物记录,会得出一个偏差结果,提示:我有记录支出频次最高的地方是医院,但实际上我快 5 年没去过医院看病。除非模型数据还能包含我的诊疗记录,否则,如果没有前面那句话,单从银行流水,能分析出我是病患,还是我家人是病患? 数据分析,目前不能做到个体精准分析,只能做到泛类型分析 能对每个人精准分析,这是目前很多人对“大数据”的错误理解,包括从事和不从事这个行业的人都有这个误区 精准分析,就要结合精准的行为数据,例如某个人去就餐的数据,那是他真实吃进肚子里的,有人在这种情况还能产生“脏数据”,那就真是稀奇了。但如果他只是打包买走,这就不是精准行为数据了 |
19
baigreen 2020-07-09 16:17:13 +08:00
呵呵。好多年前就这样做了。大厂互换用户 session,不能说的秘密
|