十天之前做产品的一个微需求 测试也通过 上线后一直运行无人爆出问题 直到今天偶然看日志发现程序存在问题 而此刻已意识到由于程序错误 公司已经损失过千万 并无人意识到问题 于是快速反映领导修复 bug 上线 下午被拉着去和运营讨论补救方案 我师傅在安慰我 领导给我说要我被 fire 快拿 n+1 走人(我心里何尝不是这么想) 可是代码上刻着我的提交记录 还好像因为这事取消了我们组的评优和年终 心里挺过意不去的,因为自己的疏忽让全组人背锅,但是这事只是第一天 我才工作半年 我完全 hold 不住 我还有希望吗
1
cnkuner 2019-03-02 00:33:38 +08:00 via Android
并夕夕?
|
2
NoString OP 还有 我不是故意的 我是铁笨比 可是这又能改变什么呢
|
3
sunnyadamm 2019-03-02 00:34:41 +08:00 via Android
不慌,先甩测试,走一步看一步
|
4
LxExExl 2019-03-02 00:35:06 +08:00 12
别想太多 不是你一个人的疏忽
代码有没有 review 定期有没有和老板一对一 有没有开过组会 这些都有肯定不是你一个人的责任 应该全组背锅 这些都没有就更不是你一个人的责任了 应该经理背锅 上班就是上班 领工资就行了 公司拉到投资上市了也不给你分红 董事们开始你也不参加 所以出事了也是公司应该承受的 |
5
NoString OP @sunnyadamm 现在感觉 fire 不 fire 都无所谓 只是为什么这么严重的问题 大家隔了这么久都没发现 还是妈的我自己发现的
|
6
NoString OP @LxExExl 首先代码我是没有 merge 权限的 在 merge 的时候也没注意到这个点 不过后面也是 上市也和我没关系 但心里总是很不舒服
|
7
zbinlin 2019-03-02 00:41:22 +08:00 1
先别自己走,等
如果被 fire 了, 先表个白再走 :) |
8
zbinlin 2019-03-02 00:42:45 +08:00
既然没有 merge 权限,那最大的责任不在你这
|
9
current 2019-03-02 00:44:02 +08:00
习惯就好啦,出错是不可避免的,所以才需要流程。你是这件事里面责任最小的一个人了
|
10
binux 2019-03-02 00:44:29 +08:00 via Android 14
你就是上个班而已,你的任何责任不会超过你的职责本身。
不要给自己加戏,想要加,先提工资再说。 |
11
rabbbit 2019-03-02 00:44:59 +08:00
你们的测试 /运维呢?
以前在工厂的时候,领导跟我讲以前车间事故.印错了 2 个字,损失了几十万吧. 处罚结果是所有人都扣钱, 从上到下车间 /质检 /印前 /领导全罚了个遍, 级别越高扣得越多, 也没见开除过谁,因为都有责任,又不是一个人的错. |
15
sunnyadamm 2019-03-02 00:49:10 +08:00 via Android
@NoString 安心啦,不会让你赔偿损失的,从你的描述看出来你们公司制度还是很不完善的,开发组测试组对功能理解可能也有偏差,领导对项目跟踪不到位,谁都有责任,像我们单位有些服务要线上测试长达半年到一年的时间才会正式上线使用的,额,前单位(刚辞职)。总之安心吧,没有什么过意不去的,这个雷是你们一起埋下的,只是你碰巧触发了而已
|
16
NoString OP @sunnyadamm 前段时间公司服务血崩 我切了一下午的 redis 投资人的聊天记录被老板发在脸上 第一次感受了什么叫死亡如风,没想才没几个月又来 工作都这么刺激的吗. .. 不过公司制度不完善也是事实,小地方啥都裸奔,过意不去主要是就像自己算错 1+1 然后 emmmm
|
17
sunnyadamm 2019-03-02 01:01:38 +08:00 via Android
@NoString 还是你内心不够强大,泰然面对即可
|
18
foru17 2019-03-02 02:04:39 +08:00 3
分享一个自己的经历,算是国内最大的某内容网站了,曾经的一个跟支付相关的系统 Server 用的两年前我写的基础架构 1.0 版,另外一个已经离职的同事有做 config 之类的。
然后某天晚上,突然支付系统 bug,第二天早上才预警,持续时间将近 10 个小时,算是 P0 级事故了。 第二天紧急修复,发现是那个架构某处内存泄露,之所以没被发现,是因为这个架构两年前被负责支付部门的团队拿走用后,再也没 update,而那套架构在我们自己的业务环境都升级到到 2.X 了早就 bugfix 了。 最后的处理结果 1.CTO 召集开发、运维、测试、几个部门 leader 集体检讨,分析 bug 原因(代码 code review),流程漏洞,改进措施。 2.硬是背锅的人,leader 是说了离职的哥们,因为是那个哥们 hardcode 的代码和部署的 server,虽然这个架构是我写的,但是我啥事都没有,也的确轮不到我承担责任。 对于公司,对于开发和技术团队来说,这类事故不可能是单一因素造成的。处理得好,对公司开发、上线、测试流程都有帮助,当做经验教训。就我所接触,T 家的任何事故,内网都有系统查询,公开事故原因、责任人、处理结果,解决方案等等,主要还是为了借鉴和经验分享,因为技术 bug 严重处理责任人的,一般都是处理到 Leader 头上,不会到一线 coder。 |
19
soli 2019-03-02 04:58:54 +08:00 via iPhone 3
你应该这么想,你提前一年发现问题并上报,然后迅速出方案补救,为公司挽回了几十亿的损失。公司应该奖励你哈。
另外,敢不敢在发文的时候点个标点? 另另外,以前好像有个 bot is 的发文风格就是没有标点。 |
20
dangyuluo 2019-03-02 05:13:38 +08:00
膜拜能造成千万损失的大佬。。我实在是想不到给公司造成千万损失的办法。
|
21
lloovve 2019-03-02 09:08:55 +08:00 via iPhone
人没事就行
|
22
arthas2234 2019-03-02 09:34:48 +08:00
赔偿肯定不会要你赔的,这个肯定是整个项目组背锅,至于挽回损失就看你们公司了,而且就算挽回了那也和你没什么关系,功劳是别人的。
|
23
yuuko 2019-03-02 09:40:38 +08:00 via Android
所以你加楼下妹子微信了吗
|
24
dajj 2019-03-02 09:40:43 +08:00
理论上应该领导背锅, 这肯定是制度问题,比如拿 2 万工资的,能随便造成上千万损失,肯定不合理。 涉及资金应该至少有多道防线, 业务上也有总体的资金把控才行
|
26
PP 2019-03-02 09:54:17 +08:00 via iPad
楼主不用担心,这种情况不一定是谁的锅。
发现代码错误要及时妥善处理。在检讨过程中要谨慎排查,不要急着甩锅。先看看各种开发、测试、部署文档,然后将原始代码按照原始流程在每个环节重新走一遍,走通了就改进流程,没走通也让责任人心服口服。 |
27
codingBug 2019-03-02 09:57:23 +08:00
真刺激
|
28
NoString OP @dangyuluo 其实说起来很傻逼 我做转账 系统一直结余用的 cny 可是那个微需求就是做币种自动切换,加上测试环境美金账户没钱,自动切到 cny,所以没事。然后 usd 就成了问题点.....公司账户使用美金转出的金额其实是应转 cny 的......低级错误可就是硬是都没发现。
|
32
NoString OP @foru17 其实自己也明白 出了这种事情,不仅是我自身的疏忽,更多也是流程存在问题。要不是自己抖机灵,这个坑可能得等财务发现钱不对才能意识到,他们十天都没有意识到,说明不光是研发,财务也....感谢老哥的分享吧 只是昨天自己跑数据跑出损失数额 心里咯噔一下。看后续吧 心里已经想了好几个出路
|
33
ericls 2019-03-02 10:29:15 +08:00 via iPhone
这个不是你的责任
|
34
R18 2019-03-02 10:35:41 +08:00 via Android
复盘结果就是汇率没有转换把 USD 当 CNY 转了对吗?
|
35
Yourshell 2019-03-02 10:40:01 +08:00
如果赚了上千万就没你什么事情了
|
36
drackzy 2019-03-02 10:50:10 +08:00
带钱的还不好好测试一下
|
40
uxstone 2019-03-02 11:15:24 +08:00
流程制度决定了一定会出问题
|
41
zqguo 2019-03-02 13:22:12 +08:00 1
我用了个新技术,然后现在离职,技术经理说我擅自用新技术,不顾代码维护,要对我执行开除流程,我还有救吗 ?
|
42
woscaizi 2019-03-02 13:49:34 +08:00 via iPhone
十几天,造成千万级的损失。
损失这么大,十几天还没发现吗? |
43
woscaizi 2019-03-02 13:50:51 +08:00 via iPhone 1
感觉你在编故事。
|
45
tongz 2019-03-02 15:07:17 +08:00
这时候是不是应该来个经典的段子: 你递交了辞呈, 领导看了一眼就甩在了你脸上: `公司已经花了上千万培养你了, 你还想走?`
|
49
ck65 2019-03-02 16:26:58 +08:00 1
楼主宽心。如果说是你的代码造成损失要你负责,那么因为你的代码挣来的钱也该全归你。
|
50
winglight2016 2019-03-02 16:37:00 +08:00
你们公司的财务系统都不做每日对账的吗?我之前在 p2p 公司,上线后有三百多没对上账(精度问题),整个 IT 部从上到下全部都罚了
另外,10 天损失千万,相当于 10 天营业额达到上亿,这是做数字币吧? |
51
NoString OP @winglight2016 并不是 而是服务者平台提现 但是因为有些服务组账户为了避免提现的单笔高手续费,一版都是十几万提一笔 但是原先都是美金 这次整上了 usd 了.... 所以我感觉我能把公司干解散 了
|
52
hyyou2010 2019-03-02 17:11:16 +08:00
如果我是老板,肯定表扬你奖励你,哪里舍得开你。
|
53
hyyou2010 2019-03-02 17:12:09 +08:00
另外,测试要背锅,开发责任很小很小。
|
54
ymj123 2019-03-02 17:22:52 +08:00 via Android
测试没测出来那不是测试的锅吗?
|
55
Cbdy 2019-03-02 17:35:04 +08:00 via Android
整个流程的问题,主要问题是 Code review 和测试
|
56
hpeng 2019-03-02 17:41:23 +08:00 via iPhone
上线了,大概率是测试的锅了
|
57
winglight2016 2019-03-02 17:45:19 +08:00
@NoString 但是原先都是美金 这次整上了 usd 了——这就很费解了,美金和 USD 有什么不同吗?
|
59
laoyuan 2019-03-02 20:01:19 +08:00
usdt 吧
|
61
woshipanghu 2019-03-02 21:16:43 +08:00
楼主还算有责任心的
那些说要把锅甩给别人的 呵呵了 |
62
Allianzcortex 2019-03-02 22:00:31 +08:00
和 Airbnb 前段时间出的问题好像
曾经听有在 P2P 做风控的同学介绍说有次模型上线环比上个月损失几百万 |
63
NoString OP @winglight2016 写错了 原先系统账 cny 手残了
|
64
leekafai 2019-03-02 22:36:23 +08:00 via Android
代码上线这么多的流程,不可能是你一个人全部负责完的
|
65
blackshadow 2019-03-02 22:41:07 +08:00
不要自己走。等通知,这事不是简单的你的原因。如果 fire 你,你到时候再准备也不急。这事原因很多,比如测试不周全(异常样例未覆盖),比如代码没有 review,比如 merge 人的代码审核不完全等等。这事是很多人的问题,不仅仅是因为你。虽然是你手残,导致了 bug 的产生。但谁又保证不写 bug。之所以有测试和后续的审核等一系列流程,就是为了找你可能产生的 bug 的。放轻松,不要过于内疚。
|
66
blackshadow 2019-03-02 22:46:00 +08:00
对于产生资损这事。你们如果是平台服务商,应该会有办法追回相应的损失的。再说了,这种交易对账应该可以发现问题的,长时间没发现,财务也有问题的吧。你只是链条中的一环。这事,等公司的安排,不要主动走。也不要过于内疚,不要主动往自己身上揽责任,毕竟你想抗也抗不下来不是。该干嘛干嘛,等最后的通知。
|
68
scnace 2019-03-03 03:09:10 +08:00 via Android
我想起了我之前 review 我们组老代码的时候 发现了一个可能调用的时候有坑的地方 然后去跟隔壁组过了一下 果然发现隔壁组的调用不对 emmm 结果就是这个 bug 持续了六个月 六个月送的货都没有收用户的快递费 大概损失了大概上百万吧 然后隔壁组还写了 8d 然而我们现在还是关系非常好的同事 所以 这有啥的 给个 8d 不就好了 不过扣绩效这种事情是有点坑了 请组里的人吃个饭吧(毕竟可能有无辜躺枪的) 大家一起好好干以后再把绩效加回来不就好了;)
|
69
NoString OP @blackshadow 已经走线下追回了,可能会有部分手续费和人力成本,但也只能尽力止损了。的确我是一环,今天问过财务了,她们的对账周期是 1/month 一号才开始。只不过我发现在她们之前了而已。我能扛啥子,我的工资几年下来都不够扣手续费。看怎么处理我咯
|
71
kajweb 2019-03-03 04:21:18 +08:00 1
楼主现在不是应该想着蹲几年吗。千万那止 fire 这么简单,哈哈哈。比删库还严重
|
75
kajweb 2019-03-03 04:27:33 +08:00
话说,你是不是因为公司的那个妹子,然后没有心情工作的。。。
|
77
NoString OP @kajweb 靠 去你的 我上班摸鱼 和 写代码分的很清的 和妹子没关系 。你也休息吧 这么晚操心陌生人也是哎。。。
|
79
smiledoll 2019-03-03 08:49:44 +08:00 via Android
大概是因为自己写的代码出现 bug 才会出现这样的心理。认为自己工作没做到位吧。不过,我觉得这不是个人的问题。上面也有大佬剖析的很清楚。
|
80
mawenjie 2019-03-03 11:41:37 +08:00
我觉得真要是损失几千万肯定有人是知道的,就是谁都不敢出来背锅。
|
81
zmxnv123 2019-03-03 14:53:33 +08:00
现在发现我这种 B 端而且跟钱没关系的业务还是挺幸福。
几个月前实习的时候误删了线上 ES,过了几个小时后用户突然上报服务 down 了,然后我才发现 es 被我误删了,当时也是感觉凉的一批,然后赶紧主动承认错误,恢复数据。最后统计损失,发现虽然半天没服务但是几乎没什么影响,没人用啊。 现在仍然在这家公司,马上回学校搞毕设去了。从那以后处理线上库的时候 execute 前一定多 review 几次。另外晚上不要做奇怪的事了,影响精力。 |