V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  NoOneNoBody  ›  全部回复第 48 页 / 共 128 页
回复总数  2547
1 ... 44  45  46  47  48  49  50  51  52  53 ... 128  
做 WebGUI 是 server 和 client 在同一个实例中,调起浏览器是 server 和 client 在同一个设备,但不在同一个实例

前者可以控制 client 的 request 和外观,后者不能完全控制,还会受到浏览器本身的扩展和脚本影响,如果某些扩展有安全性问题,还会引发数据安全(中间多了一个或多个风险环节),另外就是接管 request 的高级玩法,用 browser 做不到
227 天前
回复了 fcadef 创建的主题 职场话题 请教大佬们大数据就业问题
无关:学院和学校差很远,我还以为现在还有大学(大专)把自己叫“学校”的

一般不会用大专做建模,除非有优异的经历
面向测试、训练监察、采样、可视化还是有可能的,如果个人有时间和意向,建议补充学一下采样学,感觉很少人学这个,采样是有一定学问的,还比较偏,目前见得最多的采样方式都是定点采样,也见过不少滥采样的例子
指定经销商,但预算不够,这是让你贴钱么?

看你的模型多大,不大的话甚至纯 CPU 也能跑,放实验室通宵跑就是了,所以根据模型选算力
前置,用的较多是 bard ,chatgpt 最近才开始用
1.用得最多是函数参数意义的询问,开发文档一般只会有参数的格式类型,而不是该参数的意义,没有例子的文档会看得一头雾水
例如 pandas.Series.str.get ,这个函数其实可用类型不仅是字符串,用途比光看名字预想大得多了

2.只懂描述,不知道用什么关键词搜的

3.超出个人知识范围的
例如数学理论、艺术、历史……当然专业问题肯定需要二次搜索确认的

4.嫌麻烦懒得搜的
例如 有什么评分>8 的电视剧,有什么烧脑的扑朔迷离的电视剧……
228 天前
回复了 Jaeger 创建的主题 软件 Obsidian 最优的跨平台数据同步方案是什么?
如果新添加了插件,并且确认当前文档为最佳,可以整体传送到另一个设备,然后该设备去掉它当前笔记,新建(从目录导入)并同时导入目录内插件就是了
不过我在 Android 这样重建,部分插件不起效,但我试过直接装也是不起效的,不知道是否该插件不兼容 Android

如果不是协同编辑,是不需要实时同步的,一般单人多设备都不是协同编辑,肯定有时间差(同理还有相册这些)
这样的话每次“同步”的逻辑实际上是异步备份,就是同名文件以一个标准决定保留哪一份(内容一致跳过),不同名文件以一个标准决定是否保留,找一个能实现这个逻辑的备份软件就够了
228 天前
回复了 hgfhffjh 创建的主题 奇思妙想 关于“真相”
@shortawn #1 的引用说得对
社会学科的真相只是大家都认同的一种解释,自然学科的真相是现象的复现
在我们处于的宇宙是时空概念,一个时间点和一个空间点共同构成唯一的节点,任何复现都不会完全一致
229 天前
回复了 suqiuluck 创建的主题 程序员 有没有自己电脑上跑大模型的大佬啊
@Rnreck #11
你用 “微信聊天记录 AI” 搜本站,前几条都是相关的

我用我的 10 万条微信聊天记录和 280 篇博客文章,做了我自己的数字克隆 AI
/t/931521
229 天前
回复了 blurethdao 创建的主题 生活 亲戚老是来借钱怎么办
“我帮你借吧”
229 天前
回复了 suqiuluck 创建的主题 程序员 有没有自己电脑上跑大模型的大佬啊
站内有人发过用自己的聊天记录训练的(年初的帖子,全文在其 blog ),你可以参考一下
要玩训练模型我是耗不起,基本看前几段就劝退我了,还是继续玩我的小模型好了
230 天前
回复了 JinTianYi456 创建的主题 问与答 有本地版以图搜图软件?
一些相册软件应该有类似附带功能,把 a 放进该软件的相册管理,或者可以
单独的软件应该没有,这个一般需要部署一个数据库,单独搜图需求极小

python 脚本则遍地皆是,搜 similar image 就能找到了,然后自己加个遍历文件的循环就是了
这个印象中是国外的故事?
231 天前
回复了 vfx666 创建的主题 OpenAI 香港节点能不能访问 gpt 啊
不一定要美国,坡、日、韩、东南亚部分、欧洲大部分都可以
主要是好几个作为辅助的域名(认证和 cdn )都要以相同 ip 访问,此节点前几天有一帖有写,你找找
@helee9199 #5
你和 ISP 签的协议里面不允许 web 或者作为公众服务,然后政策也规定所有 web 等公众服务需要备案,两者加成
虽然 NAS 外放是自用,但当你无法证明为“自用”,他们会按有罪推论视为公众服务,可以直接关停
231 天前
回复了 Richard14 创建的主题 Python 预训练模型在预训练时操作是如何做的?
@FlyingBackscratc #6
呃,看错了,你不是 OP ?
231 天前
回复了 Richard14 创建的主题 Python 预训练模型在预训练时操作是如何做的?
@FlyingBackscratc #6
说了半天原来是我理解错了,你说的“预训练”就是训练,我以为是说预训练模型,后者是说现在已经公布的一些模型,如 128 点人脸检测模型、5 点人脸检测模型、车辆辨别模型……诸如此类

回答你最后一句吧,数学算法一样的话,训练参数是类似的
我有做三个模型,都是用 KNN ,一个人脸、一个文字,一个销售,它们后面的步骤,从训练到测试代码是基本相同的,包括参数
不同的是输入的样本数据,一个用人脸检测模块从图像提取人脸特征,一个用分词提取特征、一个用统计数据量化,都转为二维 numpy (这步是归一),扔进相同的训练代码和检测代码,就能分出结果,KNN 只是个数学算法,它并不理会数据的实际“意义”(人脸、NLP 、医学还是销售……),它只管哪个数据对应哪个标签,维度相同就行,其他数学算法也类似,只要是合理的数目就行

只用数字算结果为数学模型,把其中的数字附上实际意义则为业务模型,业务模型千变万化,但基础数学模型并没有很多,感觉上很多只是衍生和组合,例如所有的距离算法思想是一样的,就是求两个点的空间距离,不同的只是求这个距离的公式,有欧氏距离、余弦距离……等等
231 天前
回复了 Richard14 创建的主题 Python 预训练模型在预训练时操作是如何做的?
@Richard14 #4
我举个自己的例子吧,虽然跟人家没法比,但过程是可以说一说的
我用 KNN 做一个小小小小模型,数据少于 1w ,tag 只有两个:True/False ,可以说极其简单了
这个模型基本各种参数都选定了,不用调,唯一要调整的近邻 n 的个数,可选为 4~15 ,共 12 个
然后将数据随机方式分 20 组,每组有训练样本和测试样本
将每组和 12 个可选参数,用训练样本各训练一次,然后用测试样本测试,这样共 240 次测试
最终选定 n=8 ,因为 n=8 时所有测试结果都落在 96.5~98%之间,是最稳定的
其实 96~98%并非最好的,当 n=12 时,有三组得出了 99%以上的,但是 n=12 的其他 17 组,最低还出现 88%,分布很乱;所以 n=12 是不能用的,因为用到真正产出时,结果的准确性无法预计

我想说的是,光一个仅 12 可选项的参数的调参工作,工作量就达到 240 组,多个参数可想而知,这里 KNN 的训练只是纯粹打包,几分钟而已,而有些模型的一次训练就要几小时甚至几天(视乎算力)
当然,可以只用一组作为调参测试就选定参数(只跑 12 次),但实用时的结果嘛……可能要骂娘了

然后,上述还忽略了一个重要问题:采样数据是否合理,如果不合理,前面说的所有的工作都是白搭
因为我个人能力有限,只能获得这小一万的数据,更多我就要花钱雇人帮我收集了,还不是雇一个人就能搞定的
所以我手头的这一万数据,是否有代表性,分布是否合理,这里还有采样学的分析(上面只是默认为合理)
例如我要做一个买菜意愿的模型,然后我从程序员采集了一万数据,但程序员买菜的极少,这样的数据做出的模型用在评估家庭主妇,那就是错漏百出、惨不忍睹,大概就是这个意思
例如现在的公开人脸提取模型,用于欧洲人比亚洲人更精准,就是因为采集做模型的数据欧洲人占多这个原因

你如果看过我写的其他帖子(回复帖),我说过,AI 是一个长久的工作,需要几代人努力,包括机器学习和深度学习,目前还没有一个算法能通吃不同领域的,所以做模型时还有选数学算法(或者组合算法)的步骤
目前文献还是说基础算法的实现,至于用到实处,因为不同的数学算法在不同领域表现不同,就需要做业务模型的人自己来选择并测试了,文献换个角度看就是说某个算法能把模型做出来,但结果不能打包票
例如我上面这个例子,用 CNN 或者其他也能做,只是我嫌麻烦(部分是不熟悉),所以没有用其他算法测试,说到底就是懒,96%的结果我可以接受,如果只有 70%,我可能就要硬着头皮换其他了,那样的话又是新一轮工作量了
232 天前
回复了 huangya 创建的主题 Windows windows 系统如何对整个硬盘进行克隆
@ntedshen #16
是,多年前被微软收购的
1 ... 44  45  46  47  48  49  50  51  52  53 ... 128  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2307 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 54ms · UTC 11:14 · PVG 19:14 · LAX 04:14 · JFK 07:14
Developed with CodeLauncher
♥ Do have faith in what you're doing.