上线我的 2.0

上线我的 2.0

马图图

岁月变迁何必不悔,尘世喧嚣怎能无愧。

20 文章数
1 评论数

当画布成为语言:AI 产品的另一种交互范式

Matuto
2026-01-11 / 0 评论 / 110 阅读 / 0 点赞

做 AI 图像产品,绑定在 prompt 输入框上太久了。

打开市面上任何一个 AI 生图工具,交互模式几乎一样:一个文本框,一个生成按钮,下面是生成结果。用户的全部表达空间,被压缩在那个输入框里。

但图像本身是二维的、空间的、视觉的。用一维的文字去描述二维的画面,这个翻译过程本身就在损耗信息。

灵匠想探索的,是另一种可能:让空间布局本身成为交互语言。

All-in-One 的真正含义

“All-in-One”这个词被用烂了。很多产品说自己是 All-in-One,其实只是把一堆功能堆在一起,用户还是要在不同模块之间跳来跳去。

我理解的 All-in-One,不是功能的堆砌,而是工作流的统一。

用户的创作意图是连续的:我想生成一张图,然后在这张图的基础上换个衣服,再加点特效,最后调整一下构图。这是一个流动的过程,不应该被切割成“生成”、“编辑”、“特效”、“构图”四个独立的工具。

无限画布提供了一个统一的空间,让这些操作可以在同一个上下文里完成。上一步的输出,自然成为下一步的输入。不需要导出、导入、切换工具。

这才是 All-in-One 应该有的样子。

无限画布不只是“大”

很多人对无限画布的理解停留在“可以无限拖拽”。但画布的价值不在于大,在于自由。

传统的图像编辑工具,工作区域是固定的——一张图就是一张图,边界清晰。这种设计隐含了一个假设:用户每次只处理一个对象。

但创作过程往往不是这样的。我可能同时在构思三个方案,需要把它们并排放着对比。我可能需要把参考图、草稿、成品放在一起,看整体效果。我可能想用箭头标注“从这个状态变成那个状态”。

无限画布让这些成为可能。它不预设用户的工作方式,而是提供一个足够自由的空间,让用户自己组织。

更重要的是,当 AI 能够“看懂”这个画布的时候,空间布局本身就变成了一种输入方式。

视觉语义:被忽视的交互维度

人类理解视觉信息是很自然的事。两张图并排放着,我们会下意识觉得它们有关联。一个箭头从 A 指向 B,我们会理解为“从 A 到 B”的某种转换。

这些“视觉语义”在人与人的沟通中被广泛使用——流程图、思维导图、设计稿,都是靠空间布局来传递信息的。

但在人机交互中,这个维度几乎被忽视了。我们和 AI 的沟通,主要还是靠文字。

多模态大模型的出现改变了这一点。AI 现在能“看图”了,而且看得越来越准。这意味着,我们可以开始探索用视觉语义来和 AI 沟通。

灵匠做了一个简单的尝试:定义一套“视觉语法”。

视觉语法

含义

A → B

将 A 的属性应用到 B

人物 ‖ 衣服

换装意图

涂鸦标记

需要特殊处理的区域

用户不需要学习这套语法,因为它本身就符合直觉。把人和衣服放在一起,意图不言自明。

框架:意图的边界

无限画布有一个问题:当元素很多的时候,AI 怎么知道用户想处理哪些?

一种方案是让用户手动选择。但这又回到了传统的交互模式——先选中,再操作。

灵匠的方案是引入“框架”的概念。用户可以在画布上画一个虚线框,框内的所有元素会被视为一个整体。点击生成时,AI 只关注框内的内容。

这个设计有几个好处:

  • 意图边界清晰:框本身就是一种表达,告诉 AI “我关心的是这个范围”

  • 上下文保留:框外的元素还在,随时可以拖进来参与下一次创作

  • 可视化工作流:多个框可以代表创作的不同阶段,整个画布就是一个可视化的工作流

某种程度上,框架是对“图层”概念的重新诠释。传统图层是垂直堆叠的,框架是水平铺开的。后者更符合人的空间认知。

文字的位置

强调视觉交互,不是要取消文字。文字在某些场景下仍然是最高效的表达方式。

“让光线柔和一点”、“增加一些科幻感”——这类抽象的、感性的描述,用文字说比画出来容易得多。

灵匠的设计是:视觉布局定义结构,文字描述定义风格。

用户通过摆放元素来表达“我要把这个人和这件衣服组合在一起”,通过文字来表达“整体风格要赛博朋克一点”。两种输入方式互补,而不是互斥。

这也是为什么生成框里的提示词可以留空。如果用户的视觉布局已经足够清晰,AI 可以自己推断意图。文字只在需要补充信息的时候才出场。

还在探索的问题

这个方向还有很多没想清楚的地方:

  • 视觉语义的边界在哪? 目前定义的语法很简单,能覆盖的场景有限。更复杂的意图怎么用视觉表达?会不会反而比文字更难理解?

  • AI 理解的稳定性。 同样的布局,不同的模型、不同的 prompt 工程,可能得到完全不同的理解。怎么让这个过程更可控?

  • 学习成本。 虽然说视觉语义“符合直觉”,但用户真的能自然地用起来吗?还是需要一定的学习和适应?

这些问题没有现成的答案,只能在实践中慢慢摸索。

写在最后

AI 产品的交互设计,现在还处于很早期的阶段。大家都在 prompt 输入框上做文章,但这不一定是唯一的方向。

无限画布 + 视觉语义,是一种尝试。它不一定是最优解,但至少提供了一个不同的思路:让用户用更接近思维本身的方式来表达意图。

毕竟,在我们脑子里构思画面的时候,想的不是文字,而是图像本身。

灵匠是一个开源项目,欢迎交流和贡献。
如果有API的话可以自己部署体验:

https://github.com/majingzhen/ArtisanLab.git


或者考虑谷歌的在线开发工具:

https://ai.studio/apps/drive/1q8WQ-_prXqtSHQlSL4AHxu7qMp5hsm2j?fullscreenApplet=true


上一篇 下一篇
评论
来首音乐
光阴似箭
今日已经过去小时
这周已经过去
本月已经过去
今年已经过去个月
文章目录
每日一句