2023年中国互联网故障总结之九大故障

资讯 4个月前 admin
82 0 0

一 故障回顾    

    2023年过去了,23年是一个非常艰难的一年,各大互联网故障不断,裁员不断;跟大家分享一下23年的各个公司的故障回顾

2023年中国互联网故障总结之九大故障

1 2023-03-29唯品会

    故障描述:2023-03-29 00:14~12:01 唯品会329机房宕机12小时P0级故障,业绩损失超亿元,影响客户800多万
   故障原因:南沙机房重大故障的主要原因是南沙 IDC 冷冻系统故障导致机房设备温度快速升高宕机,造成线上商城停止服务。
   故障影响:持续 12 个小时,由于崩溃时间太长,影响了很多消费者无法正常下单,导致公司业绩损失超亿元,影响客户达 800 多万,公司将此次故障判定为 P0 级故障。与此同时,唯品会认为此次事故暴露出容灾应急预案和风险防范措施不到位,并决定对此次事件严肃处理。对基础平台部负责人做了免职处理。

2023年中国互联网故障总结之九大故障


2 2023-03-29 腾讯广州机房故障14+小时

    故障描述:00:23~15:00 腾讯广州机房故障14+小时 因制冷系统故障,容灾处置中。

    故障原因:本次事故由广州电信机房冷却系统故障导致,腾讯将其定义为公司一级事故。为此,腾讯对相关部门和领导进行了严肃的问责和处罚,其中包含公司高级执行副总裁、TEG(技术工程事业群)总裁卢山(LS)和 WXG(微信事业群)副总裁周颢(harveyzhou)在内的管理者承担领导责任,被予以通报批评。卢山目前为腾讯总办(腾讯总经理办公室,为公司最高决策机构)成员。此外,TEG 华南数据中心的两位总经理和总监被处以降级和免职处罚,WXG 技术架构部的两位总监和组长当期绩效考核给予 Underperform 等评级(二星级别,最高为五星)。腾讯管理层认为,这次故障暴露了公司在容灾设计和应急预案方面存在的不足,有关业务部门的风险防范意识不到位。

    故障原因:制冷系统包括了冻水系统和蓄冷系统;利用蓄冷+电力的差价进行削峰填谷;但是因为控制失误导致了故障。


3 2023-06-08 广东电信故障

2023年中国互联网故障总结之九大故障    6月8日晚间,广东省通信管理局紧急召集广东电信、广东移动、广东联通广东广电、广东铁塔相关负责人就广东电信突发网络故障及应急处理情况召开网络运行安全紧急调度会。广东省通信管理局党组书记、局长蔡立志要求广东电信深入查明原因,做好后续处置,加强网络运行保障。
    广东电信网络罕见地出现了5小时的大面积断网事件,引发社会各界的关注。此次故障的原因目前尚未得到官方的解释,但是从独立电信分析师付亮的看法来看,应该是广东电信核心网某个关键模块出现了故障。此次事件对亿万用户的生产和生活都带来了严重影响,同时也必须引起政府和电信企业等相关方面的重视。为此,应加强电信网络的基础设施建设和安全防护,确保人们的网络使用畅通无阻,避免重大电信网络故障的再次发生。


4 2023-7-6 boss直聘故障 

    7月6日上午,BOSS直聘APP出现短时间服务异常,经过团队抢修已恢复正常。期间为用户带来的不便我们深表歉意。我们将持续优化服务保障。感谢大家一直以来的关注与支持。

2023年中国互联网故障总结之九大故障


4 2023-07-26 小红书iOS版APP大规模闪退

2023年中国互联网故障总结之九大故障

    7月27日凌晨,社交应用小红书的iOS版本出现大规模闪退问题,用户反映卸载重装也无法解决。对此,小红书客服在微博上回应称,这是由于技术故障引起的。他们建议用户遇到无法启动的情况时,可以前往App Store下载最新版本(版本号7.97.2)。部分网友表示,更新后应用可以正常使用。  

    故障原因:客户端重大缺陷 + 处置不合理引发新的崩溃:线上存在部分业务Crash,只能卸载重装或升级App版本解决。

5 2023年10月23日 语雀故障 

    语雀在故障公告中称,10月23日下午,服务语雀的数据存储运维团队在进行升级操作时,由于新的运维升级工具bug,导致华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。为了尽快恢复服务,语雀和数据存储运维团队全力进行数据恢复工作,但受限于恢复方案、数据量级等因素,整体用时较长。
    针对所有受到上述故障影响的用户,语雀作出了赔偿方案:对个人用户赠送6个月的会员服务;对空间用户会单独制定赔偿方案。
    除此之外,语雀还披露了改进措施。具体为:升级硬件版本和机型,实现离线后的快速上线。该措施在本次故障修复中已完成;运维团队加强运维工具的质量保障与测试,杜绝此类运维护bug再次发生;缩小运维动作灰度范围,增加灰度时间,提前发现bug;从架构和高可用层面改进服务,为语雀增加存储系统的异地灾备。

2023年中国互联网故障总结之九大故障


 2023年11月12日阿里云故障

    2023 年 11 月 12 日 17:39 起,阿里云云产品控制台访问及管控 API 调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务 (AK) 异常有关。工程师修订白名单版本后,采取分批重启 AK 服务的措施,于 18:35 开始陆续恢复,19:20 绝大部分 Region 产品控制台和管控 API 恢复。

2023年中国互联网故障总结之九大故障

https://help.aliyun.com/noticelist/articleid/1064981333.html

原因:访问密钥服务 (AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控 API 服务出现异常,同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。


改进措施
1、增加 AK 服务白名单生成结果的校验及告警拦截能力。
2、增加 AK 服务白名单更新的灰度验证逻辑,提前发现异常。
3、增加 AK 服务白名单的快速恢复能力。
4、加强云产品侧的联动恢复能力。



7 2023年11月27日滴滴故障

   事件回顾:11月27日晚,滴滴出行对当天晚间滴滴App服务出现异常进行了回复,滴滴出行称,由于系统故障,今天晚间滴滴App服务出现异常,经技术紧急修复,目前正陆续恢复中。截至27日晚23时28分,经多人测试,该状况尚未恢复。 
   原因:更新的 kubernetes master 组件版本与预期的版本不一致,导致一个大集群中的容器全部宕机,两个版本分别为 v1.12 和 v1.20。滴滴弹性云内部的 kubernetes 版本升级在两个月以前就已经在所有机房升级完成,整个升级过程中0故障且业务无感知。kubernetes v1.20版本已经在滴滴弹性云中稳定运行了几个月。因此此次故障猜测是由于误操作导致 kubernetes master 组件由 v1.20 回退至 v1.12 导致。


2023年中国互联网故障总结之九大故障



8 12月3日 腾讯视频故障

    12月3日,大量腾讯用户在社交平台反映,购买的腾讯视频会员出现问题,本来可以看的VIP视频,提示需要开通会员
    目前腾讯视频出现了短暂技术问题,我们正在加紧修复,各项功能在逐步恢复中。感谢您的耐心等待,由此给您带来的不便我们深感歉意。
2023年中国互联网故障总结之九大故障
有网友反馈:卸载重装也不管用,重启也不管用;
2023年中国互联网故障总结之九大故障

故障原因分析
    腾讯这次故障从反馈来看,影响最大的应该是vip用户看不了会员视频,因为很多用户开始重装APP,但还是不行;应该可以判断是服务端的问题。
    另外vip用户很多服务都看不了,端上识别不出来是vip用户,从这次故障来看应该是会员账号体系出现了。

9 12月19日 喜马拉雅故障 
2023年中国互联网故障总结之九大故障
    12月19日,“喜马拉雅崩了”登上微博热搜,有网友反映喜马拉雅App出现崩溃状况,无法正常使用或聆听节目。
  随后,喜马拉雅官博发文致歉,称问题目前已紧急修复,不会影响用户的会员等权益,同时将抽奖送出5张喜马VIP月卡作为补偿。

二 原因分类
  • 客户端故障:小红书
  • 业务服务故障:腾讯视频、语雀
  • 基础服务:阿里云
  • 基础平台:滴滴
  • 基础设施:腾讯、唯品会

2023年中国互联网故障总结之九大故障

  • 越是底层的故障,影响越大

  • 越是影响大的故障,往往越简单


三 2023年关键字
节流:滴滴的故障
    2023年是一个比较艰难的一年,大部分公司其实还在裁员
    增长、成本、稳定性其实一直就是一个公司不断的发展阶段面临的问题;在整体经济无法快速复苏的时候,裁员就成了主流但裁员带来的问题也是必然的 裁员带来的后果就是熟悉系统的人走了,留下来的对系统的各种预案不熟悉;故障的频率大大增加
    滴滴的故障可以看出来,熟悉的人都走了,留下来的对各种预案不熟悉,所以增加了故障的时间和影响面。

降本增效:腾讯&&唯品会

    熟悉的人都走了,写ppt的人留下了;现在是一个非常卷的时代,因为增长点没有了,很多人就开始疯狂内卷,卷什么呢?卷ppt。越是重大故障其实越简单,越简单的事情越难晋升。越是花哨的东西越没用,越没用的东西越好晋升,就陷入到这个无限死循环中。

    其实在腾讯和唯品会的故障中,出发点是好的都是为了降低成本所以采用了。南沙这次故障其实本意出发点是好的。制冷系统包括了冻水系统和蓄冷系统;利用蓄冷+电力的差价进行削峰填谷;但是因为控制失误导致了故障。



四 故障经验

    大道至简越是重大的故障其实越是简单;越是简单的手段其实越有效

    华为云的干冰预案,华为云有好几次来冷却系统出问题的时候依然能保障机房的问题,这里有一个非常非常重要的预案就是干冰,机房储备了大量的干冰来保障。方案很简单单就是有效


    至简难收: 简单的事情往往有很难得到职级和薪资待遇的提升。

这里我们可以各种公司的各种ppt各种花哨。但实际上有多少效果不得而知


    是骡子是马,拿出来溜溜;技术优越感到头来忽悠的只是自己前10年百度以技术号称,百度掉队了现在阿里以技术号称,阿里开始退缩了滴滴、小红书、腾讯;每个公司都在尽力输出自己的技术优越性,无疑不命中了故障自己讲多自己就信了,不要在输出技术优越感了,因为输出的越多,迷惑的只能是自己,做了4分,输出10分,到底行不行只有试过才知


五 更多细节整理

2023年12月19日,喜马拉雅也崩了;幸好崩的不是山

2023-12-03 腾讯视频也崩了

2023-11-27滴滴故障原因解密

2023-11-12阿里云故障解密和反思

2023-10-23语雀故障原因解读和数据可靠性的思考和分享

关于唯品会故障的一些看法

腾讯2023.3.29故障的一些思考


更多内容欢迎关注微信公众号“SRE说”



原文始发于微信公众号(SRE说):2023年中国互联网故障总结之九大故障

版权声明:admin 发表于 2024年1月2日 上午6:01。
转载请注明:2023年中国互联网故障总结之九大故障 | CTF导航

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...