30天养虾秘籍公开！第4天差点团灭，最后跑出“AI军团”，超全避坑干货在此

作者｜江宇

编辑｜漠影

一套“24小时运转”的龙虾团队，在上线第4天，差点被主人亲手“团灭”。

智东西3月10日报道，海外知名AI科技博主、前谷歌产品经理Shubham Saboo近日在社交平台公开复盘了自己连续运行30天的AI Agent系统。

在他的设想中，这支“龙虾团队”应该像一个自动运转的小型内容工作室：有人负责研究行业信息，有人负责写内容，还有人负责发布和运营账号，整个流程全天候自动运行。但现实很快给了他一记闷棍。

最初几天，这套系统几乎可以用“灾难”来形容：负责写内容的Agent写出来的推文又长又空，读起来像模板拼接；负责搜集信息的Agent一天抓回47条所谓的“行业线索”，其中40条都是没用的假消息。

Saboo后来回忆，那几天他几乎一直在给Agent“擦屁股”。他花在修改Agent输出上的时间，甚至比自己手动把这些事情做完还多。上线第4天，他差点直接把整套系统关掉。

但事情在几周后开始出现转折。同样的模型、同样的提示词，第4周时，这些Agent生成的内容已经可以直接拿来用，大多数草稿只需要改两三个词就能发布。原本需要他反复返工的任务，开始自动跑通。

在这份复盘里，他回答了一个问题：为什么那么多人“养虾”时，第一周就速速放弃，而有些人却能把龙虾变成同事，效率倍增。

一、第1周几乎是“负收益”：改Agent比自己干活还累

Saboo最早上线的Agent是运营Agent——“Kelly”，负责运营他的X账号。第一天只是搭建环境，第二天开始生成推文，但结果并不理想。

Kelly写出来的内容既冗长又套路化，经常使用列表和箭头符号，开头是“我很高兴宣布……”，结尾再配上一串标签，整体风格不是作者平时的表达方式。

Saboo回忆，在第一周里，他几乎每天都在修改这些内容，花在修正Agent输出上的时间，比自己直接写一条推文还多。原本期待AI带来效率提升，现实却是不断修补错误输出，同时还要维护系统本身。

后来复盘这段经历时，他把这个过程称为 “纠错式Prompt工程（Corrective Prompt Engineering）”。与其一开始就设计完美提示词，不如先在SOUL.md（Agent行为设定文件）中写一个粗略设定，然后通过持续反馈不断修正，就像管理新员工一样。第一版通常很普通，第十版开始能用，第三十版才会真正稳定。

Saboo坦言，在第一周结束前，他一度差点把整个系统关掉。

二、把具体反馈写进文件，而不是停留在聊天里

Saboo发现，Agent真正变好的关键在于具体规则的积累。在“运营Agent”Kelly第一次生成推文后，他把一组明确规则写入Agent的记忆文件。

这个记忆文件后来逐渐形成两个部分：一个叫“BAD”，记录所有被否定的写作模式，比如使用bullet points（项目符号列表）、箭头格式或领英帖子的语气；另一个叫“GOOD”，里面放的是作者过去表现最好的推文，让Agent在每次写作时进行模仿。

随着这些规则不断累积，Kelly的表现逐渐改善。第10天时emoji基本消失，第15天开始模仿作者的句式结构，到第20天时，大部分草稿只需要改一两个词就能发布。

Saboo认为，很多人使用Agent时会忽略一个关键环节：反馈必须写入文件，而不是停留在聊天记录里。如果反馈只存在对话记录中，下一次任务Agent就会再次犯同样的错误。只有当这些经验被写入可持续加载的文件，系统才会真正进化。

三、一次错误，让研究Agent学会判断“信号”和“噪音”

Saboo的第二个Agent是研究Agent——“Dwight”，负责每天扫描AI行业信息，为内容团队寻找选题线索。第一次扫描时，Dwight推送了47条信息，其中40条都属于噪音：包括各种小更新、未经验证的传闻，以及几乎没有价值的项目。

于是Saboo给了它一个非常严格的规则：如果读者Alex今天无法据此做任何事情，就不要推送。Alex是Saboo设定的目标读者画像：一位AI产品开发者。

这个规则很快改变了Agent的行为。第10天时，Dwight每天只推送18条信息，而且大多有价值；到第25天时，数量减少到7条，但每一条都值得阅读。

此外，一次错误也让系统进一步优化。Dwight曾把一个工具当成“新发布项目”推荐给Saboo，后来才发现，这个工具早已存在，只是当天有人在X上提到它。Dwight误把“被讨论”当成“刚发布”。

Saboo随后调整流程，要求Agent在推荐项目之前必须验证发布时间，例如检查GitHub仓库创建日期、Hacker News发布时间以及实际发布记录。如果项目已经存在一周以上且没有明显更新，就直接跳过。

他还彻底移除了GitHub趋势榜作为信息源，因为那里噪音太多，很多项目只是被重新讨论而已。取而代之的是goodailist.com（专门筛选新AI项目的网站）。

四、Agent团队也会“发胖”：上下文太多反而拖慢系统

随着系统不断积累经验，一个新的问题出现了：上下文膨胀。

Kelly的上下文一度达到161000个token，Dwight也超过156000个token。大量历史记录占据了模型的上下文空间，导致响应变慢，输出质量也开始下降。

Saboo最终对两个Agent进行了“压缩”：Kelly的上下文从161K减少到40K，Dwight从156K减少到43K。做法很简单，只保留当前真正有用的规则和记忆，其余内容全部归档。

他后来把这件事变成固定流程，每两周检查一次Agent记忆文件。Saboo形容，这个过程就像软件项目里的代码重构，如果长期不清理，系统就会越来越臃肿。

同一时期，他还解决了另一个系统问题。

第三周时，定时任务调度器出现Bug：任务在队列中推进，但实际上并没有执行。Saboo几个小时后才发现问题，因为系统表面状态看起来一切正常。

于是他新增了一个“首席运营Agent”——Monica。Monica负责定期检查系统“heartbeat（任务心跳信号）”。如果某个任务超过26小时没有运行，她会自动触发重新执行。

五、每个Agent团队都会经历的三个阶段

根据自己的实践经验，Saboo认为大多数Agent团队都会经历三个阶段。

第一阶段是混乱期，通常发生在上线后的前一周。Agent输出内容普遍比较普通，修改成本甚至高于人工完成任务，很多人会在这一阶段放弃。

第二阶段是稳定期，大约在第8到第21天之间。随着反馈不断积累，明显错误逐渐消失，输出开始接近可用状态，只需要少量编辑。

第三阶段是复利期。当系统积累了足够多的规则和上下文后，Agent会逐渐理解用户的表达习惯和判断标准，新任务也能继承过去的经验，整体效率明显提升。

在他看来，能够坚持度过“混乱期”的人，最终得到的是一套会不断学习的自动化系统；而那些中途放弃的人，则每一次都要从零开始。

六、真正提升效率的是：两类文件和一个闭环

Saboo在复盘这30天时特别强调，真正会随着时间不断变好的，其实只有三样东西，其他部分基本都没有本质变化。

第一类是记忆文件。记忆文件存放的是Agent从反馈里学到的“偏好”，每一条反馈一旦写进记忆文件，就意味着这类错误以后不必再纠正一次。

第二类是技能文件。和记忆文件不同，技能文件记录的是从失败中提炼出来的“操作规则”。Saboo认为，技能文件更像是任务说明书，它告诉Agent这项工作到底该怎么做，而不仅仅是用户个人偏好是什么。也正因为更具指令性，技能文件往往比记忆文件积累得更快，效果也更直接。

第三类真正持续起作用的东西，是反馈闭环。Saboo认为，这是最容易被忽略的一环。很多人搭完Agent之后就让它自己运行，过几天发现效果没提升，便觉得系统没有用。但问题往往不在模型，而在于反馈没有真正进入系统。

比如“运营Agent”Kelly写完一条推文，如果Saboo只是当场说一句“太长了，把第一段删掉”，但这句反馈没有被写进文件，那么下一次Kelly还是会犯同样的错误。只有当这条反馈被记录进记忆文件或技能文件，并在下一次任务开始时重新加载，Agent才会真正“记住”这件事。

Saboo自己后来形成了一套固定动作：先给反馈，再由Agent更新记忆文件或技能文件，下一轮任务开始时把这条经验重新加载进去。整个流程并不复杂，但前提是执行上必须足够严格。

在他看来，模型在第1天和第30天其实没有变化，不会越用越“聪明”。真正发生变化的，是围绕模型构建的系统——包括规则文件、记忆记录以及持续反馈形成的工作流程。

七、他踩过的坑，也正是多数人会放弃的地方

回头看这30天，Saboo也总结了几个自己最典型的失误。

第一个问题是Agent上得太快、太多了。

他在两周之内一口气搭了6个Agent，结果很快发现：单个Agent本身都还没有进入稳定状态，多个Agent之间的衔接自然更容易混乱。更合理的方式应该是先把一个Agent做到稳定可用状态，再去加第二个。

第二个问题是文件结构一开始就设计错了。

最初两周里，他把所有内容都塞进同一个文件：偏好、规则、经验、教训混在一起。结果就是，Agent加载到的上下文经常互相打架。比如第一周形成的是一种表达偏好，第二周又写入了一条更明确的规则，二者之间可能彼此冲突，最终反而让Agent理解混乱。

Saboo后来才把记忆文件和技能文件彻底拆开，并给自己定了一条更明确的要求：当上下文达到15万token以上时，就必须强力压缩，不能再拖。

第三个问题是反馈给得太模糊。

Saboo认为，“把这个改好一点”这种话几乎不会留下任何有效积累，因为它无法写成一条规则，也无法指导下一次任务。真正有用的反馈，必须具体到足以直接写进文件。可靠的反馈不仅能解释为什么有问题，也能直接告诉Agent下次应该怎么改。换句话说，只有能被规则化的反馈，才有复利价值。

八、如果从零开始，前30天应该怎么跑

在文章最后，Saboo也给出了一套更适合新手照着执行的30天方案。

第一周，最重要的不是追求复杂系统，而是只挑一个自己每天最重复、最机械的任务。

围绕这个任务搭建一个Agent，写好SOUL.md，设置一条简单的定时任务，让它先跑起来。Saboo提醒，这一周产出的内容大概率会很普通，甚至很糟糕，这本来就是正常现象。第一周唯一的任务是把所有错误都具体地纠正出来，不是简单说“这个不行”，而是明确告诉它：“这条不行，是因为X；下次请按Y来做。”

第二周，要开始检查这些经验到底有没有真正留下来。

Saboo建议，可以让同一个Agent跑两次相似任务，然后观察它是否还会犯同样的错误。如果同样的问题再次出现，就说明反馈闭环没有成型，也就是经验没有真正进入可持续存储的文件。这一阶段，用户应该开始建立自己的技能文件，把那些反复重复的规则正式写下来。

第三周，如果前两周执行得比较扎实，Agent通常会逐渐进入第二阶段，也就是“内容需要编辑，但不需要重写”。这个阶段可以开始记录一个更实际的指标：每次审稿到底花了多久。

Saboo认为，这个数字应该是一周比一周下降的。如果没有下降，通常不是模型不行，而是反馈仍然不够具体。

到了第四周，才适合考虑引入第二个Agent，而且前提是第一个Agent已经能够稳定产出有用结果。

Saboo建议，这时两个Agent之间的配合也不要设计得太复杂，最简单的方式就是基于文件协作：第一个Agent把产出写进共享文件，第二个Agent去读取这个文件再继续处理。集成方式越简单，系统越不容易失控。

30天养虾秘籍公开！第4天差点团灭，最后跑出“AI军团”，超全避坑干货在此

Published by

风君子

最新文章

标签

书签