克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
系统性能优化领域顶级专家Brendan Gregg,正式官宣加入OpenAI。
入职后,他将加入ChatGPT性能团队,在澳大利亚远程办公,向团队负责人Justin Becker汇报工作。

Brendan被技术圈尊称为“性能之神”,他的到来,受到了OpenAI总裁Brockman的亲自欢迎。
Brockman甚至表示,自己就是Brendan多年以来的老粉丝。

Brendan有多牛?
他的代表著作《性能之巅》,长期被全球高校和科技巨头列为性能工程的必读教材。

他还发明了著名的火焰图(Flame Graphs),让程序员能像看热力图一样直观地看到CPU在忙什么。

同时他还是Linux内核核心技术eBPF的主要推动者,一手构建了现代云计算的性能分析工具箱……
网友们评价,Brendan的这些作品绝对是next level。

那么,这样一位技术大佬,为何在此时选择了OpenAI呢?他本人用一篇博客讲解了自己的看法和观察。
Brendan刚进OpenAI,就给自己定了个死规矩。
Do anything, do it at scale, and do it today.
做任何事,都有规模化地做,并且就在今天做。
这是一种随时准备应战的状态。在他看来,在这个行业里,优化这件事就是要追求快,必须得在当天就在成千上万台机器上跑起来,还得立马见效。
这种对速度和规模的硬性要求,逼着他必须时刻盯着那些庞大的算力集群,哪怕能在缝隙里抠出一点点效率,也得马上动手,绝不拖泥带水。
而OpenAI“没禁区”的环境,正好给他提供了折腾的空间——在OpenAI,只要能把性能提上去,没有任何领域被认为难以改变。
当然除了看到OpenAI是个大舞台之外,Brendan还发现,AI这个行业,也迫切需要他的参与。
让他产生这种想法的,是生活里的一件真事儿。
他发现理发师、房地产经纪人、税务会计师、兼职养蜂人等各种职业的人都在跟他聊ChatGPT,这让他意识到,AI已经成了普通人每天都在用的工具,背后的流量肯定大得吓人,对后台的压力已经增加了一个量级。
面对这么大的流量,以前在通用计算时代用的那些老办法,现在确实不灵了。过去几十年,大家习惯盯着CPU和数据库调优,手里拿的都是旧时代的锤子,但现在面对的是数万张GPU堆出来的超级集群和复杂的神经网络。
旧工具箱里的工具修不了新机器,面对大模型训练这种新物种,就必须得把以前的经验先放一边,重新搞一套专门针对大模型的工程方法。
这也是他干脆利落地离开干了半辈子的通用云计算领域,一头扎进AI基础设施这块硬骨头的原因。
他要干的事情特别具体,就是去解决ChatGPT背后的性能瓶颈,保证这台昂贵的机器在全球人都在用的时候,还能转得飞快。
谁是Brendan?
那么,Brendan究竟是怎样一位传奇人物?
可以说,他是现代系统性能领域的“定海神针”。他写的《性能之巅》和《BPF Performance Tools》,在后端或者运维领域家喻户晓。
这两本大作被全球技术圈奉为圭臬,专门用来解决那些最棘手的系统瓶颈,是排查问题时的标准参考答案和“最后救命稻草”。

写出这两部大作的Brendan,是一位在极端实战环境中磨练出来的老兵。
早年(2001-2014年)在Sun Microsystems和Joyent任职的十几年里,他就已经是DTraceToolkit的核心开发者,那时候就已经奠定了自己在动态追踪领域的元老地位。

到了中期(2014-2022年),他转战Netflix担任高级性能架构师。
那时候的Netflix正面临着全球最大的云端架构挑战,他每天面对的是海量的并发请求和极其复杂的微服务架构,处理的都是那种在普通规模下根本遇不到的性能怪题。
而在加入OpenAI之前的近期,他成为了Intel Fellow。
在这个硬件巨头的顶层技术岗位上,他专注于解决一个长期痛点——如何让软件工程师能看懂硬件PMU(性能监控单元)传回来的底层数据。

除了著作和履历,他还是一个整个行业分析方法的发明家。
在此之前,分析CPU热点只能盯着成千上万行枯燥的文本堆栈看,效率极低。
他硬是将这些数据转化成了直观的、可视化的交互式图谱,哪里是性能瓶颈,一眼就能定点清除。

这还不够,为了对比版本更新前后的性能差异,他又衍生出了差分火焰图。
除了盯着CPU忙什么,他还特别推广了Off-CPU分析方法论,专门去抓那些因为I/O等待而导致进程“磨洋工”的隐形杀手,彻底填补了传统分析中的盲区。

此外,Linux生态里现在最标准化的bcc和bpftrace工具集,也是他在长期维护和贡献。
他还开发了延迟热力图(Latency Heatmaps)用来揭示平均值掩盖下的长尾抖动,以及那个专门给晕头转向的排查者指路的USE方法(利用率、饱和度、错误)。
总之,Brendan把“系统诊断”这门玄学变成了有章可循的科学。USENIX LISA给他颁发杰出成就奖,就是对他这些年实战成果最权威的盖章认证。
One More Thing
Brendan在博客中提到,他选择加入OpenAI,还有一个私人的情结——圆梦。
小时候他是英剧《Blake’s 7》的死忠粉,对里面那台叫Orac的超级计算机特别着迷。Orac能控制宇宙里的其他电脑,但是脾气特别臭,动不动就怼人。
上大学时,Brendan就想自己手搓一台Orac,但是那时候的硬件实在太拉垮,内存连个完整字典都存不下,被电脑销售嘲笑了一通后,这件事也就黄了。
直到遇上了 ChatGPT。他发现这玩意儿简直就是活生生的Orac。
他甚至专门改了ChatGPT的自定义指令,让它模仿Orac那种“只有原始人才会问这种蠢问题”的傲娇语气跟自己对话。


