20230618


发布于

|

分类

这一周是消防员,一周都在救火

生活

和联通杠上了。从去年10月开始,家里联通10010跟发疯了似的,几乎每天给我发短信。夸张到啥程度呢,10月份的时候每天5条短信,10月14日当天相同的短信五连发。后来有一点点收敛,一个月30天大概有20天能收到联通发来的短信。今年5月开始,联通天天发短信说「如您在使用过程中有任何问题,请拨打XXX;如您有好的建议,请随时拨打XXX」。好呀,既然你天天追着我让我骂,不骂还不行,那就只能恭敬不如从命了。

你也草台,我也草台,大家都草台

于是人工投诉第一个单子,要求屏蔽所有反诈啊、市里各个不知道啥些个政府部门发的各种「公益」短信。但后来依然天天收到联通「查话费请拨XXX,查流量请拨XXX」。于是继续投诉,但这次开始难度就大了,因为已经不是常规系统可以轻易完成的事儿了。工作人员回电说处理完成了,但实际上完全没处理,次日依然收到查话费查流量短信。继续投诉,次日依然收到省里发的反诈提醒,并且一看就是工作人员不认真、字段没填写完成就瞎XX发的那种。目前继续投诉中。

另外发现个联通内部的事情:这类投诉,联通首先会瞎派单,市里直接派单给开户网点。其实这类东西,开户网点完全没处理能力,还得交给市里处理。但之前的处理经验来看,如果直接去微博等公开渠道,或者直接去工信部投诉,那么投诉会先转到省里,然后省里转给市里,市里瞎派单给开户网点,开户网点再返给市里。

哦对,这个事儿吧,不是我自己没做屏蔽:首先,联通各个平台的垃圾屏蔽都是针对「打电话」的场景设计的,实在找不到屏蔽短信的方法,更找不到关键字屏蔽的方法;如果直接屏蔽10010,那么我将收不到联通发来的登录验证码、收不到充值和流量预警;如果是 PBYW106,那么106开头的所有短信和10010的所有短信都会被屏蔽,我就收不到各种验证码、收不到各种通知了。iPhone短信拦截有个设定是,如果发来短信数量超过多少、并且你给对方回过短信的话,那么这个号码之后就完全拦不住了,所以熊猫吃短信之类的第三方短信过滤软件也拦不住。

解铃还须系铃人,监守自盗谁都拦不住。其实吧,杀个急功近利的PM祭天就好了,是吧~

还有就是,难度更高的携号转网都实现好几年了,难度低一点的协号转归属地都没实现。河南人和三体人都能结婚生娃了,河南人和河北人互相看对方还都是人与猩猩。那么想实现协号转归属地,可能只能先协号转网,再协号转回来。

楼下芝麻菜也要搬家了。简单聊了聊,是润欧洲去了。哎,果然,成功的最高境界就是润出去。于是收了一张椅子,把我35块钱坐了两年坐得屁股生疼的椅子给换掉。我说,直接转你银行卡里面吧,芝麻菜一脸诧异:没想到2023年了你到现在还在用这么traditional的方式付款。

周末在家,好好收拾了下屋子。感觉从2月到现在,屋子几乎没咋收拾过,都快进不来人了。

队友终于换房子了,从6人群租重新换到了类似公寓的体验。不过算下来……俩人加起来,一个月房租要8000多块钱……还是有点心疼的。但是说实话,群组,虽然没有公共空间、每个人都是完全隔离的,体验是真心糟心:有人每天早上6点多起来洗漱、水管呲呲响,有人晚上在卫生间吐,搭在阳台的毛巾都浸透了几米外下水道的味道,窗外工地早7晚11一周通宵2天。希望这次能改善点体验吧,最起码晚上能睡好一点。

上次误删塞尔达存档,现在终于给补回来了:其实就是空岛下来后开完地面地图,没了。不过玩游戏会让我感觉更烦……不知道咋回事儿。

又是一年毕业季,当时带过的本科班,现在都研究生毕业了。祝各位前程似锦,不要被生活虐趴。

学习和折腾

周六,实在是烦得不行,又由于端午节想宅在床上看剧完全不动弹,于是在家折腾了下那一堆赛博废铁们。

那么首要需求就是重建一下电影墙。首先是试了试TMM,觉得每次都需要手动刮削,虽然步骤不复杂,但总觉得「多一步」不太爽。然后又试了Radarr这个管理电影的东西,有了它的话就能想看什么电影就自动下载出来了,但似乎只能管理电影,不能管理剧集,并且需要配合jellyfin+aria2+bt,配置起来感觉蛮麻烦的,再加上现在心烦意乱的,就不想这么深入地折腾了。nastool不更新了,蛮可惜的。其实可以直接用Infuse,但我想在投影仪上看电影,用infuse的话需要手机投屏,或者插那个神奇的Lightning转HDMI转接头,也是十分不方便。或者买AppleTV,想了想似乎不订阅东西的话买了也没啥用。最好的方式还是直接在投影仪上装个啥app直接看。

于是剃来剃去,最终方案是:手动下载(DownloadStation的BT下载功能,或者保存到网盘里面后用alist复制到nas上)、放到对应文件夹里,然后剩下全部交给jellyfin刮削、生成海报墙、下载字幕、转码播放。手机上用Infuse,投影仪上直接用Jellyfin for Android TV(投影仪上装kodi卡到怀疑人生,但jellyfin就很流畅)。一顿折腾后,感觉「这才是nas+投影仪的正确使用方法」啊!

Debian 11 终于上架aws镜像中心了…… 这Debian12都发布了、Debian11都发布一年了,才上架Debian11……这速度也没谁了。于是看了一眼自己的服务器,Website-2019……嗯,是时候做个升级了。反正都是Docker,迁移起来也应该比较容易,就顺手做了下迁移。过程还算顺利吧。顺便,一个Wordpress现在占了接近1G的磁盘空间……我也不知道发生了什么。

工作

这周都在放消防员灭火。

周一,写上周某个服务的事故的复盘,顺带挖事故原因。

周二下午,一个比较重要的服务突然报警,流量从20K猛跌到5K。见缝插针加资源,无济于事。后来自动恢复了。恢复了我就想,当前线上的版本有个bug,在AMD的GPU上会崩溃无法启动,每次重启集群都特别痛苦,所以就说安全升级到修复了bug的版本上吧。小流量没问题,推全,集群再次崩溃。持续了接近一个小时,逐渐恢复。到了晚上,整个集群又毫无征兆地崩溃了一次,持续到接近零点才恢复。

周三,自己写了个事故过程,然后去找资料看看怎么能处理;周四,升级集群、更改配置、盘资源情况——于是一周就要过去啦!!!

怎么说呢,事故和上游不合理重试有关。我的老服务只支持一个请求里面放一张图,新服务支持batch调用,一个请求里面可以放多(一般推荐是10)张图片同时进行处理。但是上游去年在做服务迁移的时候,懒了一下,没加入batch逻辑,所以调用我的服务的QPS大概在20K左右。上游有限流,但是限的是「入到上游」的流量。上游有放大作用,大概是20倍放大打到我的服务上。上游调用下游的时候有错误重试。我的服务在调用下游的时候会先读缓存,缓存miss的话也有放大作用,放大倍数大概是5左右。

于是不知道怎么的(对,没查清楚星星之火是在哪儿出现的),我的服务报错了。上游看到,哎,报错了,那重试吧。于是我的服务压力更大了,继续报错。上游看到,哎,你报错了,那就继续重试吧……于是原本20K的QPS变成了46K。

那么后果是,我的服务里面大量报 can not open files 。这里面有三个事情:

  • 第一个是goroutine的。由于协程是直接go起的,没用协程池限制总量,所以goroutine暴涨
  • 第二个是TCP连接的。你看,上游那么大QPS压来,用于接客的TCP连接被消耗完了;然后我服务还有放大左右,出站的TCP连接也被消耗完了
  • 最后还有文件描述符的事儿,大概和TCP连接的窘况差不多

这样一来,流量打不进、打进去的流量打不到下游,全被憋死在我的服务里了,于是就雪崩了。——大概是这样吧。至于怎么修……只能用限流筑起一道防洪堤了,或者想尽办法减少TCP连接。

哦对,吐个槽:redis,为啥只有SetWithTTL和MSet,没有MSetWithTTL或者MSetTTL啊……摔!


反正这周就很烦,很烦,很烦。似乎有点焦虑。

啥?这个季度都快过完了?


评论

  1. springwood 的头像

    润了确实垃圾短信少很多

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注