你可能在社交媒体上见过这类图,毛线编织的小矮人,圆滚滚的身体,戴着尖顶帽,整个画面带着一种让人想伸手捏一下的温暖感。它们几乎都来自同一条 Midjourney 提示词,被大量转发和复制。

但复制一条提示词只能得到一张好看的图。如果你想用这种风格做一个 IP 角色——让它能笑、能哭、能出现在不同场景里,同时观众一眼就能认出"是同一个角色"——单靠那条提示词是做不到的。
这篇文章记录的就是这个过程:从一条风格提示词出发,一步步把它变成一个有表情、有场景、有辨识度的毛毡风 IP 角色。
起点
先看看那条广泛流传的提示词长什么样:
animated characters by steffik joakimeus, in the style of bill gekas, joyful and optimistic, soft sculptures, victor nizovtsev, charming characters, colour, selective focus
它叠了三位艺术家的名字(steffik joakimeus、bill gekas、victor nizovtsev),加上 soft sculptures 这个关键的材质词,组合出了毛毡编织玩偶的视觉效果。出图质量很稳定,随便跑一次都能得到讨喜的角色。

问题在于,每次生成的角色都不一样。这一批是橙色卷发的小精灵,下一批可能就变成棕色直发的老奶奶。发色、体型、帽子形状、服装风格全都在变。对于发社交媒体来说这不是问题,但如果你的目标是做 IP,角色不能每次都换一张脸。
第一步:把"风格"翻译成"角色"
原始提示词描述的是一种视觉风格,而不是一个具体角色。要锁定角色,需要做一件事:把模糊的风格感受翻译成明确的外貌特征。
从原始提示词的出图里挑一个你最喜欢的角色,然后观察它的具体特征:头发是什么颜色和形状?帽子是什么款式?穿什么衣服?身体比例如何?把这些观察到的细节逐一写进提示词。
我选了一个橙色卷发、戴蓝绿色尖顶帽的小矮人,把它的特征写成了这样:
a small knitted gnome character, round body, orange curly hair, teal pointed hat with pom pom, teal wool coat with orange buttons, brown boots, big round nose, freckles, joyful expression, soft sculpture style, full body, front view, clean blurred background, selective focus
和原始提示词对比,三位艺术家的名字全部去掉了,取而代之的是具体的外貌描述——orange curly hair(橙色卷发)、teal pointed hat with pom pom(带毛球的蓝绿色尖顶帽)、teal wool coat with orange buttons(蓝绿色毛线大衣配橙色纽扣)、brown boots(棕色靴子)、big round nose, freckles(大圆鼻子和雀斑)。
风格层面只保留了 soft sculpture style 和 selective focus 这两个词,因为它们足以撑住毛毡质感和浅景深的视觉效果。

跑出来的结果,几张图里的角色高度一致:同样的配色、同样的帽子、同样的体型比例。偶尔纽扣的数量或围巾的有无会变化,但站在观众的角度,这已经是"同一个角色"了。
这就是锁定角色的核心逻辑。你描述得越具体,Midjourney 的发挥空间越小,角色一致性就越高。
第二步:让角色活起来——表情扩展
一个 IP 角色不能只有一个表情。想象一下,如果你在做一套表情包或者一个儿童绘本的角色设定,至少需要开心、生气、难过、困倦这些基本情绪。
保持角色描述不动,只替换表情相关的词。
开心版本里写的是 joyful expression,把它换成 angry expression, furrowed brows(生气,皱眉),角色就皱起了眉头、撅起了嘴。换成 crying expression, tears(哭泣,眼泪),同一个小矮人就低着头掉眼泪。换成 sleepy expression, half-closed eyes(犯困,半闭眼),它就变成一副没睡醒的样子。



几组表情跑下来,角色的核心特征——橙色卷发、蓝绿色尖顶帽、圆圆的身体——在每一张图里都保持住了。表情的变化也足够清晰,观众不需要看文字说明就能读懂角色此刻的情绪。
描述表情时,除了情绪词本身,最好加上对应的面部特征。比如不只写"生气",而是写"生气,皱眉";不只写"犯困",而是写"犯困,半闭眼"。Midjourney 对情绪词的理解有时候比较模糊,但对具体的面部特征(皱眉、流泪、闭眼)反应很准确。给它一个情绪方向加一个物理特征,出来的表情会更到位。







