浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。
第一,把腾讯最王牌的技术团队安顿在技术工程事业群(TEG),托付给老部下卢山。 第二,在腾讯建立了一个内部论坛,名叫“乐问”。
表面直言快语的卢山,内心其实奔涌着对技术细腻的珍视。这种珍视,会在腾讯面对危险时爆发出强大的力量; 而“乐问”论坛,恰恰能够发现危险。成立第一天,乐问就定下规矩:哪怕最普通的工程师也可以毫无鸭力发帖吐槽。一线战士的声音未经修饰,虽然刺耳,但必定真切。总裁办只有每天被这样的声音“锥心刺骨”,才不至于沉溺在幻象中。
每个“动物”(产品)都坐拥一座自己的庄园,庄园里运转着支撑它主人一切的肥美牧草(底层技术)。然而,庄园的大门紧闭,谢绝参观。。。
一个普通人大概不需要两个QQ号或者微信号;每个人每天也只有24个小时,娱乐休闲的时间必然存在恒定上限——消费互联网的空间是有边界的。
向左走,守在原地和挑战者们拼个你死我活; 向右走,走出大草原,寻找一片新的栖息地。
“留下一半人马在原地厮杀” + “派出另一半人马擎旗远征”。
过去,腾讯钻研的是“技术上面的产品”(也就是那些动物); 未来,腾讯云要钻研“产品下面的技术”(也就是动物吃的牧草)。
一秒都不要等! 赶快拆掉各业务的“庄园围墙”!! 让他们住进一片“中央草原”上!!!
卢山的建议是:把腾讯的技术宅们重组一个“联合战队”,合力研发像积木一样的“基础技术模块”,从此所有模块完全代码透明,腾讯各业务需要哪块就用哪块,这就是“开源协同”。 汤道生的建议是:这些积木,请大家不要再拿回“庄园”里,索性你们都来腾讯云这片“中央草原”上,搭建起没有围墙的新庄园。这就是“自研业务上云”,简称“自研上云”。
你知道,腾讯的管理方式不是“从上到下”的,虽然大方向定了,但上上下下这么多人,还是要慢慢说服。人家业务就是不上来,你也强迫不了的。。。况且,腾讯云还要做好技术准备,怎么能支撑好腾讯的海量业务,我们也要花些时间。 这事本身确实是有挑战的,三年有一定拍脑袋的成分,但当时也没办法算得非常仔细。
搬家上云之后,腾讯的运营成本会怎么变化?
“消息模块”就是一个“工头”。 你给媳妇发一条微信,你的消息会先传到微信的服务器里做临时中转,“消息工头”看到这个任务:“哦是我们小组的工作”。它就会指挥手下的“工人”,找到你媳妇的微信端口,然后把消息转发过去。 “存储模块”也是一个“工头”。 你在朋友圈发了一张照片,这个照片也被送到了服务器里,然后微信的“存储工头”会调动手下的一群“工人”把你的照片放好,然后你的朋友们就能刷到这张照片了。
一来,白白损失了15%的计算力,为了和原来的计算力持平,我们就得多加15%的虚拟机,成本扛不住; 二来,在搬迁的过程中,肯定会存在一半在云下一半在云上的“脚踩两只船”的时刻,此时两边的计算力差太大,会造成服务不稳定的问题。。。
各个业务线的人,一会儿解决了一个技术难题,觉得上云之后效率就是高;一会儿又发现了新麻烦,觉得上云效率也一般嘛。。。就这样一会儿信心满怀,一会儿垂头丧气,反反复复来来回回地摩擦。。。。
一方面,测试指标显示,这一代 AMD 处理器非常符合腾讯云的要求,预计可以把计算效率提升一大截。 但另一方面,AMD 作为服务器处理器还是个新鲜事物,当时的云计算厂商中没人敢把它大规模投入使用。
那种情况下,很多深层改动都来不及了,我们紧急商量,决定把虚拟机切分得更细,然后把消耗网络的应用和不消耗网络的应用混部在同一台设备上,减轻网卡并发压力。
你可以想象一下,它就像个“泡泡机”,把“云工人”包裹在一种叫做“容器”的泡泡里; 假如来了任务A,它就把任务A的代码塞进泡泡,让工人干。干完活儿,就把泡泡扎破,工人就被释放出来了; 下一秒来了任务B,TKE 就再吐一个泡泡,把任务B的代码塞进去,让工人继续干。如此反复。 从远处看起来,每秒钟都有无数个泡泡产生,也有无数个泡泡寂灭,就像孙悟空吹毫毛,左边变出百万猴子猴孙,右边收回成一把毫毛。
过去十几年,每个业务为了极致服务自己的用户,都对自家的“计算调度模块”做了很多定制化的功能。如果换成标准的 TKE,那好多功能就实现不了。。。
当时我就感觉,20多年一起走来的老同事,虽然后来各管一摊,交流变少了,但大家的心其实在一起。很多老腾讯人嘴上不表达,但关键时刻全都在默默推动。
也许有一天,我们会离开腾讯,但如果那时我们回头看,留下一堆技术上的残垣断壁,我们的心会不会痛?
TKE 不是人们想象中“坚固而不可改造”的平台。我了解 K8S 的技术,它就像是一个核心操作系统,兼容性非常强。无论什么定制化需求,一定有办法做成“插件”形式,插在我们的容器平台上。我对 K8S 一统江湖坚信不疑!
技术最终还是要为人服务的。慢慢地,我也成长了。我仍然坚信 K8S 技术是未来,但一个技术成熟的标注,不恰恰是它能够兼容更多的旧架构吗?
我们做了详细的预案。每一步迁移都有监控系统在关注,如果指标出发某个逻辑,就会判定迁移失败,就能回退到旧的 YARD 系统,而整个迁移过程哪怕失败了,微信的用户也不会有任何感觉。
这个瞬间,被大家吐槽了十几年的“独立庄园”不见了,出现在眼前的人只有一个身份——“腾讯人”。
从虚拟化的角度说,现在我们已经做到把虚拟化交给专用的芯片来做,虚拟化损耗已经降低到0%。 从计算密度的角度说,现在很多人工智能服务器的耗能很高,如果能有办法抑制GPU芯片的空转,那么大型数据中心就还能把能耗降低一大截; 从芯片指令集的角度说,其实云计算日常只用到了所有指令集里的一部分,同样是计算“1+1”,普通指令集也许需要2000次运算,但经过优化的指令集,也许只需要1000次运算。这样就能一下子把能耗砍掉50%。 从云上开发的角度说,我们还可以提供更多云上的开发工具,让大家不用写代码,拖拖拽拽就能开发出下一个“腾讯会议”。这样,技术就不再是创意的绊脚石,任何人都有机会在云上做出国民级的应用。
那些留在寒冬中“动物”们,只有不断提高计算效率,才能得到更多“养料”,从而更好地服务消费者,在越来越惨烈的生存大逃杀中走到最后; 而带队远征的腾讯云,也必须依靠最高的计算效率,才能翻越“玻璃幕墙”,可以在更广阔的世界里提供“牧草”,支持国计民生和无数有梦想的创业企业。
如果一个非洲大草原,你是一群动物,你没有了,人家还会换一批。但如果没有草原、没有雨露,没有生态中的一环的话,那就是不行的。所以要到这个程度,才是我们的价值。
延伸阅读(点击可跳转):
再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。
哦对了,如果喜欢文章,请别吝惜你的“在看”或“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。
Thx with in Beijing