拒绝焦虑，聊聊这两年我做过的AI项目：从手搓环境到AI漫剧

Matuto

2025-12-31 / 0 评论 / 256 阅读 / 0 点赞

12/31

回过头看，这两年过得是真快。

自从国内能用上GPT开始，我就隐约觉得风向变了。作为一个老程序员，那种“不学就要被淘汰”的危机感让我一头扎进了AI的坑里。从23年到现在，跌跌撞撞做了不少东西，有些是纯粹的技术探索，有些是为了搞点流量，还有些是为了解决实际问题。

今天不聊什么高大上的行业趋势，单纯盘一盘我这两年做过的项目，以及作为一个开发者视角的“踩坑”流水账。

2023-2024年初：被Python环境支配的恐惧

刚开始那会儿，市面上成品工具少，想玩点花的，基本都得靠开源项目。

当时我看上了数字人方向，选了 ER-NeRF 架构。那个时候真的头铁，作为一个写Java的，对Python生态完全陌生。

从零开始：以前觉得Java配置繁琐，遇到Python才知道什么叫“版本地狱”。Conda环境怎么隔离？CUDA版本怎么跟PyTorch对齐？依赖包冲突了怎么解？那段时间，不仅是在学模型，更是在学怎么让代码跑起来不报错。
落地：死磕了一段时间，终于把模型跑通了。为了能交互，我又做了一套Web端和小程序，把模型推理封装成接口。看着屏幕里的数字人能动能说话，虽然现在看效果一般，但当时那种成就感是真强。
心得：这阶段最大的感悟是，搞AI开发，环境配置占了50%的时间，剩下30%在找权重文件，只有20%是在写逻辑。

到了24年，我开始意识到，没必要非得自己训练模型或死磕底层，学会调用和整合，才是出活最快的方式。

商品图背景替换：这是个很实在的需求。没搞太复杂的，直接调用现成的图像处理接口，封装成小程序。给商家用的，主要解决抠图换底的痛点。技术含量看似不高，但胜在实用。
无人直播工具（这个玩得挺嗨）：这是一个典型的“大杂烩”项目，把各种技术串起来：
- 耳朵：监听直播平台的弹幕和礼物消息。
- 脑子：接入了 Coze（扣子） 智能体。以前还得自己写Prompt逻辑，后来直接把人设、回复逻辑扔给Coze，接口一调，回复既智能又有人味。
- 嘴巴：对接TTS（语音合成），把生成的文字转成语音。
- 结果：实现了半无人直播。不用真人一直盯着，AI能自动接话茬、感谢礼物。
初探ComfyUI：后来为了研究模特换装，开始接触 Stable Diffusion 和 ComfyUI。不得不说，ComfyUI那种连连看式的节点编排，对程序员来说简直太友好了，逻辑清晰，上限极高。

时间来到2025年，现在的AI开发，更像是在搭建一条“自动化流水线”。模型能力已经很强了，关键是怎么把它们串成一个能自动干活的系统。

数字员工 & RPA：这是我近期投入精力比较多的。单纯生成内容不够，还得发出去。
- 我们通过数字人技术生成口播视频；
- 结合TTS生成配音；
- 再用文生视频补充B-Roll画面。
- 最关键的一步：引入 RPA（机器人流程自动化）。视频生成好了，RPA自动登录后台、自动上传、自动发布。这才是真正的“数字员工”，全流程闭环。
AI漫剧系统：这是最近的风口。现在的文生图、文生视频模型（像Sora、Kling、Runway等类）太强了。我正在做的漫剧系统，就是要把这个流程工具化：输入剧本 -> 拆解分镜 -> 批量跑图/跑视频 -> 剪辑合成。以前做一个短剧要个把月，现在通过这套系统，效率是指数级提升。

这两年折腾下来，几个很深的感触分享给大家：

别看不起“调包侠”：以前总觉得调API没技术含量，其实在AI时代，谁能最快把各种API组合出满足业务场景的Workflow，谁就是赢家。Coze+TTS+RPA，这套组合拳能解决很多实际问题。
技术栈要杂：做AI应用，你可能需要懂Python（跑模型）、懂Vue/React（写界面）、懂Java/Go（写后端逻辑）、懂RPA（搞自动化）。全栈在这个时代优势太大了。
模型迭代太快，不要恋战：23年学的ER-NeRF，可能25年就有更好的LivePortrait或者其他方案替代了。不要死守某个具体技术，要掌握的是快速上手新模型、快速整合到系统的能力。
祛魅：AI不是魔法。剥开华丽的外衣，底下还是代码，还是接口，还是那个如果不加try-catch就会崩的程序。

从最初的手搓环境，到现在的漫剧系统，我感觉自己越来越不像个传统的“写代码的”，而像个**“系统架构师”**——在无数强大的AI模型之间，搭桥铺路。

路还长，继续折腾吧。

Java AI 程序员设计开发

版权属于: 上线我的 2.0 - 马图图的学习笔记,马景振个人Blog,上线我的 2.0