V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  sillydaddy  ›  全部回复第 1 页 / 共 139 页
回复总数  2778
1  2  3  4  5  6  7  8  9  10 ... 139  
45 分钟前
回复了 LiuJiang 创建的主题 分享创造 3 天 Vibe Coding 了一个生产级的项目
bro ,我有几个问题:
架构是怎么做的,用的 Plan 模式吗?谁 AI 主导的架构吗?
还有就是这个项目的花费,3 天平均每天 10 刀吗?感觉按 token 数量计费的话,Opus 4.5 一个对话(百万 token 级别)就轻松几刀了。
5 小时 23 分钟前
回复了 Nexora 创建的主题 生活 老婆觉得我没出息,看不上我那点死工资了
7 小时 46 分钟前
回复了 Nexora 创建的主题 生活 老婆觉得我没出息,看不上我那点死工资了
不过《穷爸爸,富爸爸》在书里教导人要多思考,倒是真正的有价值,可惜啊。
7 小时 47 分钟前
回复了 Nexora 创建的主题 生活 老婆觉得我没出息,看不上我那点死工资了
《穷爸爸,富爸爸》果然是一本有毒的书。它的「资产比劳动力更值钱」的理论,毒害了阮一峰,又经由他毒害更多的人。
7 小时 51 分钟前
回复了 williamWilson 创建的主题 分享创造 长除法运算线工具 Long Division Calculator
多点几下「 Calculate Now 」就乱码了,不能暂停,没有分析。
这样的 AI 批量生产的垃圾,还专门占用一个域名,到底有什么意义呢?
https://openlm.ai/chatbot-arena/#:~:text=1445-,1460,-68

可以看一下 Elo 得分数据,好像是根据 6 百万用户的无数投票得出的评分对比:
Elo 基本是所有赛事都常用的评分机制:围棋、游戏、赛车等等。

Elo 胜率公式:胜率 = 1 / (1 + 10^(分差/400))

Elo 相差 10 分 胜率 51.4% vs 胜率 48.6%,几乎无差别,运气因素更大
Elo 相差 50 分 57.1% 42.9% 略有优势,需要多次对局才能体现
Elo 相差 100 分 64.0% 36.0% 明显优势,约 2:1 的胜率
Elo 相差 200 分 76.0% 24.0% 显著优势,约 3:1 的胜率
Elo 相差 400 分 90.9% 9.1% 碾压性优势,约 10:1 的胜率
Elo 相差 1000 分 99.0% 1.0% 几乎不可能输,约 100:1 的胜率


目前的 Opus 4.5 thinking 领先 GLM 4.7 大概 50 分:
https://openlm.ai/chatbot-arena/#:~:text=1445-,1460,-68

什么意思呢?用户问 2 个 AI 一个同样的编程问题,平均用户采纳各自答案的概率分别是:57.1% vs 42.9%

当然,这必须要考虑编程的特殊性,考虑它跟直接围棋 PK 的差别。

差别就在于,用户在比较 2 个 AI 的解决方案的优劣时,待 Coding 的问题是什么困难级别的。如果都是简单级别的,那高手之间基本看不出差别,那就是随机的选择一个答案,50% vs 50%的胜率。但是如果都是困难的 Coding ,又是另一番景象了。

上面的评分数据,估计应该是解决难度均匀分布的题目(这点对评分非常重要)。如果换成都是 PK 解决难题的能力,那差距就明显不一样了。

如果自己平时遇到的 Coding 问题,与用户投票时的问题难度分布类似,就说明差 50 分,意味着接近 3:2 的采纳比例。差距还是比较明显的。
@JoeJoeJoe 我没有权限移动自建节点里的主题。
2 天前
回复了 liushui 创建的主题 随想 大家脑子里都在想什么呢,可以告诉我么
很多生活会遇到的问题,往深了想,就会走向哲学,只不过太困难,太难想通。
就比如 OP 提到的,理想和现实的纠结,面对无常的态度,以及人人都会有那么几瞬会想到的生死。
优势是对厂商来说的吧,Claude Code 这种不需要开发复杂的 IDE 功能,厂商专注开发 Agent 侧就可以。
对于用户来说,无论是哪个,都可以用自带的 IDE 对比和 review 代码。
3 天前
回复了 hxndg 创建的主题 北京 好奇
外国小区的权利边界很清楚: /t/833300
当时初次看到 HOA 真的被震撼到了,不过现在看来,像那个帖子里的回复所说的,我是少见多怪了,那本来就是产权明晰、权责明晰的自然结论。
现在中国搞的,尤其是房地产(不只是业委会)的,权利边界完全就是乱七八糟,权责利对等完全谈不上。
收藏主题:现在很少了,短期的用收藏夹,长期的记笔记软件 LogSeq 上。
感谢主题:1 是对我有用,2 是感谢 OP 的分享精神。
感谢回复:1 是对我有用,2 是幽默搞笑,3 是不想打字。
@cskeleton #24 我看到 cursor 有 subagent ,是不是这个呢? subagent 一般怎么用啊,比较困惑这一点。如果是为了减少单个对话的上下文,是不是每个子任务都让 subagent 去做呢?
前期试验阶段还可以理解吧,如果帖子多了再这样操作,就要犯众怒了。
自建节点就是有权限啊,原来的节点都不受影响。。我也是偶然发现的。
该自建节点的版主,删除了所有帖子,并把节点改为了资源节点,即 /go/res
@doraemonki #10 测试 driven 这个马上安排上,即使是 UI 界面这种,也搞一个文字版的测试用例,看看效果怎么样。
@Cyron #11 感谢分享,现在正弄 Cursor 的 rules ,正用的上。
@JoeJoeJoe #12 是啊,我太想一口吃个胖子了。
@Sylphiette #16 好的,spec 也给安排上。
@hi2hi #5 前期基本是按照你说的,plan 做好了,大概的用户故事都是有的,但就像主题里说的,没有做到特别细,但就是很多没有明确的,AI 就会掉链子了。我想尝试的还是希望减少人工介入。
@yrom 感谢分享,这个新闻我得看看去。
技术这事,拿居住房间里的东西来举例吧:热水器、洗衣机、电冰箱这些东西,你了解它们的技术原理和结构吗?甚至说抽水马桶呢,坏了你自己能修吗?

实践出真知,无论对于 AI 来说,还是对于人类来说,都是如此。所以,你的问题的答案,完全取决于 AI 在未来 10 年,能做到什么,会给人类留下什么。答案就这么简单。

如果是 AGI 已经达成,那么人类还剩下什么可以实践?

现在看来,没有理由认为 AGI 无法实现,因为 LLM 的成功,揭示了一个基本的道理:智能没什么特殊的。常识、直觉、逻辑、记忆这些只属于人的神话,都已经被一一打破了。学习能力乃至意识这些,又怎么样呢?
1  2  3  4  5  6  7  8  9  10 ... 139  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   4031 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 38ms · UTC 10:17 · PVG 18:17 · LAX 02:17 · JFK 05:17
♥ Do have faith in what you're doing.