JAVA 前端

当画布成为语言：AI 产品的另一种交互范式

Matuto

2026-01-11 / 0 评论 / 247 阅读 / 0 点赞

01/11

做 AI 图像产品，绑定在 prompt 输入框上太久了。

打开市面上任何一个 AI 生图工具，交互模式几乎一样：一个文本框，一个生成按钮，下面是生成结果。用户的全部表达空间，被压缩在那个输入框里。

但图像本身是二维的、空间的、视觉的。用一维的文字去描述二维的画面，这个翻译过程本身就在损耗信息。

灵匠想探索的，是另一种可能：让空间布局本身成为交互语言。

All-in-One 的真正含义

“All-in-One”这个词被用烂了。很多产品说自己是 All-in-One，其实只是把一堆功能堆在一起，用户还是要在不同模块之间跳来跳去。

我理解的 All-in-One，不是功能的堆砌，而是工作流的统一。

用户的创作意图是连续的：我想生成一张图，然后在这张图的基础上换个衣服，再加点特效，最后调整一下构图。这是一个流动的过程，不应该被切割成“生成”、“编辑”、“特效”、“构图”四个独立的工具。

无限画布提供了一个统一的空间，让这些操作可以在同一个上下文里完成。上一步的输出，自然成为下一步的输入。不需要导出、导入、切换工具。

这才是 All-in-One 应该有的样子。

无限画布不只是“大”

很多人对无限画布的理解停留在“可以无限拖拽”。但画布的价值不在于大，在于自由。

传统的图像编辑工具，工作区域是固定的——一张图就是一张图，边界清晰。这种设计隐含了一个假设：用户每次只处理一个对象。

但创作过程往往不是这样的。我可能同时在构思三个方案，需要把它们并排放着对比。我可能需要把参考图、草稿、成品放在一起，看整体效果。我可能想用箭头标注“从这个状态变成那个状态”。

无限画布让这些成为可能。它不预设用户的工作方式，而是提供一个足够自由的空间，让用户自己组织。

更重要的是，当 AI 能够“看懂”这个画布的时候，空间布局本身就变成了一种输入方式。

视觉语义：被忽视的交互维度

人类理解视觉信息是很自然的事。两张图并排放着，我们会下意识觉得它们有关联。一个箭头从 A 指向 B，我们会理解为“从 A 到 B”的某种转换。

这些“视觉语义”在人与人的沟通中被广泛使用——流程图、思维导图、设计稿，都是靠空间布局来传递信息的。

但在人机交互中，这个维度几乎被忽视了。我们和 AI 的沟通，主要还是靠文字。

多模态大模型的出现改变了这一点。AI 现在能“看图”了，而且看得越来越准。这意味着，我们可以开始探索用视觉语义来和 AI 沟通。

灵匠做了一个简单的尝试：定义一套“视觉语法”。

视觉语法	含义
A → B	将 A 的属性应用到 B
人物 ‖ 衣服	换装意图
涂鸦标记	需要特殊处理的区域

用户不需要学习这套语法，因为它本身就符合直觉。把人和衣服放在一起，意图不言自明。

框架：意图的边界

无限画布有一个问题：当元素很多的时候，AI 怎么知道用户想处理哪些？

一种方案是让用户手动选择。但这又回到了传统的交互模式——先选中，再操作。

灵匠的方案是引入“框架”的概念。用户可以在画布上画一个虚线框，框内的所有元素会被视为一个整体。点击生成时，AI 只关注框内的内容。

这个设计有几个好处：

意图边界清晰：框本身就是一种表达，告诉 AI “我关心的是这个范围”
上下文保留：框外的元素还在，随时可以拖进来参与下一次创作
可视化工作流：多个框可以代表创作的不同阶段，整个画布就是一个可视化的工作流

某种程度上，框架是对“图层”概念的重新诠释。传统图层是垂直堆叠的，框架是水平铺开的。后者更符合人的空间认知。

文字的位置

强调视觉交互，不是要取消文字。文字在某些场景下仍然是最高效的表达方式。

“让光线柔和一点”、“增加一些科幻感”——这类抽象的、感性的描述，用文字说比画出来容易得多。

灵匠的设计是：视觉布局定义结构，文字描述定义风格。

用户通过摆放元素来表达“我要把这个人和这件衣服组合在一起”，通过文字来表达“整体风格要赛博朋克一点”。两种输入方式互补，而不是互斥。

这也是为什么生成框里的提示词可以留空。如果用户的视觉布局已经足够清晰，AI 可以自己推断意图。文字只在需要补充信息的时候才出场。

还在探索的问题

这个方向还有很多没想清楚的地方：

视觉语义的边界在哪？ 目前定义的语法很简单，能覆盖的场景有限。更复杂的意图怎么用视觉表达？会不会反而比文字更难理解？
AI 理解的稳定性。 同样的布局，不同的模型、不同的 prompt 工程，可能得到完全不同的理解。怎么让这个过程更可控？
学习成本。 虽然说视觉语义“符合直觉”，但用户真的能自然地用起来吗？还是需要一定的学习和适应？

这些问题没有现成的答案，只能在实践中慢慢摸索。

写在最后

AI 产品的交互设计，现在还处于很早期的阶段。大家都在 prompt 输入框上做文章，但这不一定是唯一的方向。

无限画布 + 视觉语义，是一种尝试。它不一定是最优解，但至少提供了一个不同的思路：让用户用更接近思维本身的方式来表达意图。

毕竟，在我们脑子里构思画面的时候，想的不是文字，而是图像本身。

灵匠是一个开源项目，欢迎交流和贡献。
如果有API的话可以自己部署体验：

https://github.com/majingzhen/ArtisanLab.git

或者考虑谷歌的在线开发工具：

https://ai.studio/apps/drive/1q8WQ-_prXqtSHQlSL4AHxu7qMp5hsm2j?fullscreenApplet=true

文生图 AI 无限画布前端

版权属于: 上线我的 2.0 - 马图图的学习笔记,马景振个人Blog,上线我的 2.0

本文链接: www.majingzhen.com/article/dhbcwyy

作品采用: 《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权