通过回帖、购物记录、评论等属性来对每个“用户”做画像

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个专门讨论 idea 的地方。

每个人的时间，资源是有限的，有的时候你或许能够想到很多 idea，但是由于现实的限制，却并不是所有的 idea 都能够成为现实。

那这个时候，不妨可以把那些 idea 分享出来，启发别人。

这是一个创建于 2098 天前的主题，其中的信息可能已经有所发展或是发生改变。

甲看到 a 贴的标题，点都不会点；乙看到 a 贴的标题，仅会点进去看看；丙看到 a 贴的标题，会点进去更会回帖。
甲看到 b 贴的标题，仅会点进去看看；乙看到 a 贴的标题，会点进去更会回帖；丙看到 a 贴的标题，点都不会点。
甲看到 c 贴的标题，仅会点进去看看；乙看到 a 贴的标题，仅会点进去看看；丙看到 a 贴的标题，仅会点进去看看。
...
每一个帖子都会有不同的类型，根据这些类型来判断这些用户的价值观等

漫画网站判断一个用户喜欢阅读的漫画
本子网站判断一个用户的历史 x 癖
百度贴吧判断用户不同贴、不同回复的意向
v2ex 同上
新浪微博同上
知乎同上
新闻评论区同上
京东 /淘宝判断用户属性（这个好像已经有了）
支付宝 /微信
银行流水

用户的日常灌水可以很明显的看出这个用户的价值取向
用户的购物 /金融平台流水可以看出用户日常消费倾向、理念和收入
关于用户甚至说不同的平台上相同的问题同样的用户同时间段也会有意向不相同的回复 /评论

举个例子
像 epic 现在挺火的。
抓取 epic 刚推出时候，游民、机核、3dm 、nga 、贴吧等等平台用户的评论
抓取 epic 出现争议时候，这些平台的用户评论
抓取 epic 限时免费知名作品（天国拯救、正当防卫）时候的评论
抓取 epic 限时免费 gtv5 时候的评论。

每个时期同一个“用户”的评论所包含“价值观”的变迁图，同时现实该用户不同时期是否用 epic 账户
从开始到现在就一直讨厌 epic 的不注册 /仅注册 /注册领取
从开始 fxxx epic 到后面开始用 epic 不注册 /仅注册 /注册领取
从开始就无所谓 epic 的用户不注册 /仅注册 /注册领取
...
同理还有拼多多，网易，百度，腾讯等等

也就是说搞一个平台，将这些“用户”的数据注入到这个平台以后，会形成一个“用户”完整“画像”。
注意，不是说一个类型的平台数据，而是用这个“用户”在网络上的所有能够“公开”抓取到的痕迹来构建这个画像。

虽然我不知道通过大数据耗时耗力搞出一个能够详细展示一个人价值观变迁的画像有什么用，不过不是挺有意思的么？

就像点开
一个“id”的画像看到这个 id 发布“开挂 xxx”，但是购物流水发现多次购买“科技产品”；
一个“id”说自己拿着底薪勉强度日，实际上月入百万；
一个“id”两年前说“永不使用 xx”，直到现在这个“id”也没有使用痕迹
一个“id”昨天说“用 xx 的都是 xx”，实际这个“id”已经使用 xx 许久。

Epic

用户

标题

画像

19 条回复 • 2020-07-09 16:17:13 +08:00

cornetCat

2020 年 5 月 19 日

不同平台的同一个用户怎么关联上啊？根据 id ？误报率很高吧

summerl0l

2020 年 5 月 19 日

@cornetCat 以前可能没有，现在有啊。现在不是有身份证号、手机号、邮箱嘛，一个号的数据不准就用不同类型的号码的数据进行关联比对，额外再用“用户”的常用登录 ip 等手段进行辅助判断。

不过这个只能说是我觉得挺意思的事，有个平台通过耗费大量的资源获取众多主流平台的用户痕迹就只是为了通过这些分析用户得出“用户”在网络上学识、价值观、政治倾向、生活习惯等等的精准画像，在往上就是根据已经生成的”画像“模拟不同类型的事件下这个画像在网络上的“行动” 。
条件允许的话再根据这些模拟的”行动“和这个”用户“的实际行动进行比对改进，就这样循环“训练”最终得到一个精准预测”用户遇到事件后将进行的行动”的功能。

拥有这个平台最高权限的人还可以随意窥探这些用户的画像，甚至创造事端引导这些“用户”行动，说起来不也挺没品的。

不是专业人士，不清楚这东西能不能实现。之前我想的是有一个问答平台，通过分析用户针对同个事件不同的回答来给用户划分“志同道合”的团体。后来发散了一下，何不直接利用现有各大平台的数据直接推算出每个用户的属性。

fensou

2020 年 5 月 20 日 via iPhone

Facebook 早就玩烂这个了

fensou

2020 年 5 月 20 日 via iPhone

而且。中国人没个性，千人一面，盲从愚昧。大数据面前，蚂蚁一般。

xy2020

2020 年 5 月 20 日 via Android

这种模式有很大问题
如果你真按这个模式去做
你就会发现很不准确——你获取到的很多数据都是“脏数据”，因为你暗含了一个假定前提，而生活中这个前提基本不存在

42V0CdLjCU494ogF

2020 年 5 月 20 日

当然不错，有公司 /官方机构就是在这么干了，用户数据就是新时代的矿产，各个层面都有数不清的价值，这么有价值的东西一般人只能远观而不能亵玩吧？

WoStaring

2020 年 5 月 20 日

数据呢

summerl0l

2020 年 5 月 20 日

数据来源：
1 、必要信息（用户 id 、ip 、发布内容、时间）强制过统一平台；
2 、顶级集团利用自己已有的生态圈

现在网站注册强制实名制，网站会强制使用手机号来注册来解决这个问题。
那么能不能强制要求这些个平台统一接入规定的接口。让需要进行筛选的数据进行实时或者定时从这里走。
这是数据来源的一种，这种不就保证了数据的可靠性。

如果是集团的话实现就更方便了，阿里巴巴现在算是覆盖领域比较多的吧毕竟新闻门户、支付工具、微博、数据中心等等。那符合这种条件的公司就可以用这些数据给用户做一个比较精准的画像。数据可以保证真实，技术团队也有能力，数据中西可以提供大量算力

通过喂数据，这些大集团是不是可以获得一个较精准的画像呢？随着技术进步，数据的增多，这个画像是不是会更加的精准呢？
1 、假如说现在出现了一个突发新闻，将这个新闻信息喂养给比较精准的模型，是不是可以预测这个“用户”的行动
2 、每个通过结识不同的人，不停的筛选最终才有可能得到一个至交好友，也有可能一辈子都没有。有交集才会认识，认识后才能产生联系。同一个公交上可能就有值得一生结交的好友，但是没有交集就注定错过。那么使用这些训练出来的模型 /画像，是不是可以将这种概率大幅度提高呢？
3 、预测“个体”需求，做精准有效推送。就像是现在推送广告了。不过淘宝 /京东蠢的地方是，“买过电脑了，还在推电脑”。而不是在我准备买的时候推适合我的电脑，需要预测的是准备这个需求和喜好。
4 、大选，不过这个好像谷歌，Facebook 他们都已经在搞了
5 、.....

lx0758

2020 年 5 月 20 日

[屌丝][高级屌丝][屌丝 Plus]

systemcall

2020 年 5 月 20 日 via Android

@summerl0l 早就玩烂了的东西，广告联盟在 10 年前就可以了通过 cookies 之类的来追踪了
中国大部分人都是千篇一律的，早就研究透了
发达国家一堆法律来约束这种行为，要求去标识化，Google 上面可以看到你的用户画像，就只能做到那个程度，超过了就会巨额罚款
只能是经常去漫画网站，所以推导出“喜欢漫画”，经常看本子，推导出“喜欢本子”，利用用户的性取向来营销在一些发达国家是违法的，更不要说是 xp 了
倒是国内管的比较松，不过你十几年前提出来也许有人会投资
facebook 和 google 早就玩烂了的东西，国内对一般的企业也开始管理了，不是 tx 这种必胜客企业还玩这套是 50 年入国军

summerl0l

2020 年 5 月 21 日

@systemcall 法律角度讲确实是侵犯隐私。不过要是能做到精准，然后再去预测真实用户的行动感觉还是挺有意思的

morizawatt

2020 年 5 月 21 日

@fensou 中国人本人表示有被你的愚昧冒犯到

fensou

2020 年 5 月 21 日 via iPhone

@morizawatt 我这么愚昧还能冒犯到你？

morizawatt

2020 年 5 月 21 日

@fensou 确实啊大放厥词也挺厉害的就好像每个中国人你都认识一样建议阁下下凡间来看看不是每个中国人都跟你一样一日三餐朝九晚五键盘治国

wzhjii0

2020 年 5 月 22 日

@fensou 啧啧,素质真低,单说一个中国隐私做的没其他国家好不就行了?
上来一个地图炮先打遍中国人,可惜了中国生小孩不用考证

phpbest

2020 年 5 月 22 日

@fensou 厉害厉害

cangcan

2020 年 5 月 24 日 via Android

腾讯广告大赛 2020 就是用广告记录推测用户的年龄和性别，年龄分为了 10 个类别，目前的 acc 是 1.45+，仅供参考。

imn1

2020 年 5 月 26 日

数据分析不是这样做的
如果按你所说的去分析，极可能得出是个“人格分裂”的 profile

@xy2020 #5 提到的一个词很正确 —— “脏数据”
数据分析必须是基于“真实”数据，所谓真实，是指行为表现和分析标的是合理相符的，并不是说真实存在或出现的就是真实数据

你所说的数据其实可以粗分两大类，真实和虚拟
例如购物、银行流水、行程、线下人际关系……等等，这些是相对真实的数据
但，评论、话题、聊天……等等，这些只能算虚拟数据，和本人真实属性是否对等、关联，有待商榷
很重要的点是，即使实名注册，在前台匿名的情况下，大多人的心态仍然归属“匿名”，所以不能将这些主观类型数据视为真实
即使线下，一个人的言论，也不能直接视为其内心价值观和性格对等关联，更何况虚拟环境

主观数据，只能归纳出这个人的表现是怎样，而不是他本身就是这样

如果一个人，他在虚拟环境也能保持本心的话，或者无意识遵从本心，确实能得出他的真实属性，前提是你能判断他是这样 —— 但这就构成一个互斥逻辑：这个项目模型究竟是从表推导里，还是里推导表？

然后真实数据里面也有“脏数据”，例如我大部分支出还是现金的，大部分说的不是数额，而是商品类别，单纯银行流水、线上购物记录，会得出一个偏差结果，提示：我有记录支出频次最高的地方是医院，但实际上我快 5 年没去过医院看病。除非模型数据还能包含我的诊疗记录，否则，如果没有前面那句话，单从银行流水，能分析出我是病患，还是我家人是病患？

数据分析，目前不能做到个体精准分析，只能做到泛类型分析
能对每个人精准分析，这是目前很多人对“大数据”的错误理解，包括从事和不从事这个行业的人都有这个误区
精准分析，就要结合精准的行为数据，例如某个人去就餐的数据，那是他真实吃进肚子里的，有人在这种情况还能产生“脏数据”，那就真是稀奇了。但如果他只是打包买走，这就不是精准行为数据了

baigreen

2020 年 7 月 9 日

呵呵。好多年前就这样做了。大厂互换用户 session，不能说的秘密