回过头看,这两年过得是真快。
自从国内能用上GPT开始,我就隐约觉得风向变了。作为一个老程序员,那种“不学就要被淘汰”的危机感让我一头扎进了AI的坑里。从23年到现在,跌跌撞撞做了不少东西,有些是纯粹的技术探索,有些是为了搞点流量,还有些是为了解决实际问题。
今天不聊什么高大上的行业趋势,单纯盘一盘我这两年做过的项目,以及作为一个开发者视角的“踩坑”流水账。
2023-2024年初:被Python环境支配的恐惧
刚开始那会儿,市面上成品工具少,想玩点花的,基本都得靠开源项目。
当时我看上了数字人方向,选了 ER-NeRF 架构。那个时候真的头铁,作为一个写Java的,对Python生态完全陌生。
- 从零开始:以前觉得Java配置繁琐,遇到Python才知道什么叫“版本地狱”。Conda环境怎么隔离?CUDA版本怎么跟PyTorch对齐?依赖包冲突了怎么解?那段时间,不仅是在学模型,更是在学怎么让代码跑起来不报错。
- 落地:死磕了一段时间,终于把模型跑通了。为了能交互,我又做了一套Web端和小程序,把模型推理封装成接口。看着屏幕里的数字人能动能说话,虽然现在看效果一般,但当时那种成就感是真强。
- 心得:这阶段最大的感悟是,搞AI开发,环境配置占了50%的时间,剩下30%在找权重文件,只有20%是在写逻辑。
2024年中:万物皆可“缝合”
到了24年,我开始意识到,没必要非得自己训练模型或死磕底层,学会调用和整合,才是出活最快的方式。
- 商品图背景替换: 这是个很实在的需求。没搞太复杂的,直接调用现成的图像处理接口,封装成小程序。给商家用的,主要解决抠图换底的痛点。技术含量看似不高,但胜在实用。
- 无人直播工具(这个玩得挺嗨): 这是一个典型的“大杂烩”项目,把各种技术串起来:
- 耳朵:监听直播平台的弹幕和礼物消息。
- 脑子:接入了 Coze(扣子) 智能体。以前还得自己写Prompt逻辑,后来直接把人设、回复逻辑扔给Coze,接口一调,回复既智能又有人味。
- 嘴巴:对接TTS(语音合成),把生成的文字转成语音。
- 结果:实现了半无人直播。不用真人一直盯着,AI能自动接话茬、感谢礼物。
- 初探ComfyUI: 后来为了研究模特换装,开始接触 Stable Diffusion 和 ComfyUI。不得不说,ComfyUI那种连连看式的节点编排,对程序员来说简直太友好了,逻辑清晰,上限极高。
2025年至今:流水线与内容工厂
时间来到2025年,现在的AI开发,更像是在搭建一条“自动化流水线”。模型能力已经很强了,关键是怎么把它们串成一个能自动干活的系统。
- 数字员工 & RPA: 这是我近期投入精力比较多的。单纯生成内容不够,还得发出去。
- 我们通过数字人技术生成口播视频;
- 结合TTS生成配音;
- 再用文生视频补充B-Roll画面。
- 最关键的一步:引入 RPA(机器人流程自动化)。视频生成好了,RPA自动登录后台、自动上传、自动发布。这才是真正的“数字员工”,全流程闭环。
- AI漫剧系统: 这是最近的风口。现在的文生图、文生视频模型(像Sora、Kling、Runway等类)太强了。 我正在做的漫剧系统,就是要把这个流程工具化:输入剧本 -> 拆解分镜 -> 批量跑图/跑视频 -> 剪辑合成。以前做一个短剧要个把月,现在通过这套系统,效率是指数级提升。
一些心里话
这两年折腾下来,几个很深的感触分享给大家:
- 别看不起“调包侠”:以前总觉得调API没技术含量,其实在AI时代,谁能最快把各种API组合出满足业务场景的Workflow,谁就是赢家。Coze+TTS+RPA,这套组合拳能解决很多实际问题。
- 技术栈要杂:做AI应用,你可能需要懂Python(跑模型)、懂Vue/React(写界面)、懂Java/Go(写后端逻辑)、懂RPA(搞自动化)。全栈在这个时代优势太大了。
- 模型迭代太快,不要恋战:23年学的ER-NeRF,可能25年就有更好的LivePortrait或者其他方案替代了。不要死守某个具体技术,要掌握的是快速上手新模型、快速整合到系统的能力。
- 祛魅:AI不是魔法。剥开华丽的外衣,底下还是代码,还是接口,还是那个如果不加try-catch就会崩的程序。
从最初的手搓环境,到现在的漫剧系统,我感觉自己越来越不像个传统的“写代码的”,而像个**“系统架构师”**——在无数强大的AI模型之间,搭桥铺路。
路还长,继续折腾吧。