AI 大模型应用探索3——国内文生图工具(即梦、可灵、豆包等)对比、文生图提示词方法论、使用场景

AI 大模型应用探索3——国内文生图工具(即梦、可灵、豆包等)对比、文生图提示词方法论、使用场景
一、国内文生图工具对比
目前国内市场上涌现出许多优秀的文生图工具,如“即梦”、“可灵”和“豆包”等。这些工具在功能和性能上各有特点,下面进行简要对比:
1. 即梦
即梦是一款功能强大的文生图工具,支持多种风格的图像生成,包括写实、卡通、漫画等。其优点在于操作简单、界面友好,适合广大用户使用。然而,即梦在图像质量和细节表现上还有待提高。
2. 可灵
可灵是一款专注于创意领域的文生图工具,提供了丰富的创意素材和模板,帮助用户快速生成具有创意的图像。可灵的优点在于创意性强、素材丰富,适合设计师和艺术家使用。但其在图像分辨率和细节处理上还有一定不足。
3. 豆包
豆包是一款集图像生成、编辑和优化于一体的文生图工具,具有强大的图像处理能力。豆包的优点在于功能全面、性能稳定,适合对图像质量要求较高的用户。然而,豆包的操作相对复杂,需要一定的学习成本。
二、文生图提示词方法论
文生图提示词方法论是指在生成图像时,通过输入相应的文字描述,引导 AI 模型生成符合要求的图像。以下

相关内容:

AI 大模型文生图的出现,为文章配图、宣传活动、短视频封面等提供了全新的解决方案,极大地提高了效率和便捷性。本文将对国内主流文生图工具如即梦、可灵、豆包等进行对比,探讨文生图提示词的方法论,并展示不同工具在相同提示词下的生成效果。

之前没有大模型生图的时候,为了给文章找一个好的封面配图,我需要在浏览器中逐步查看搜索出来的图片,翻找半天,有时候看到一张合适的图,但图片的清晰度又很差,为文章配图真的很难搞定。如果是说给活动做宣传图,这种图基本不可能从网上找到,只有求助于平面设计师,或者花钱到网上找人做。

如果设计师手上有活,还要排时间,这已沟通,一等待时间也比较久了。但是现在有了大模型文生图之后,对于文章封面,文章配图,宣传活动,logo,简单的图片编辑都可以直接使用AI来完成。我最近几个月的文章封面和文章内的配图都是用AI完成的。

另外我最近也在做短视频,短视频的封面也是AI生成,而且在短视频封面上还有相关的文字,

还有商业宣传的图文

我自己做的智能体所需要的数字人的图片,背景图片,这些人像基本很难判断是真实照片还是AI生成的。

其它的各种场景还在不断探索中,比如用户商品头图,给模特换衣服的等等。

那我们接下来:

a、就给大家讲讲国内有哪些比较常见的文生图工具,他们的优劣点是怎样的;

b、之后我们对文生图的提示词方法论进行一个简单梳理;

c、最后我们再用同样提示词在各个工具生成一下图片,看看效果。

一、国内

最新评测的国内主流文生图工具对比表,综合生成质量、功能特色、使用成本及适用场景等维度分析:

免费策略‌:多数工具提供基础免费额度(如即梦积分制、通义灵感值),但商用高频需求需订阅‌电商运营‌:通义万相(淘宝数据支持)、可灵AI(虚拟试穿)

二、提示词

文生图提示词的构建需系统性地考虑多个维度,以下是根据业界主流实践总结的核心要素

1、内容描述维度

‌主体(Subject)‌

*示例:一位身着汉服的少女,手持油纸伞核心对象:明确人物、动物或物体的具体特征(如年龄、服饰、姿态)细节强化:包含材质(陶瓷杯)、状态(热气腾腾)、纹理(毛茸茸)等

‌环境与背景(Environment)‌

*示例:晨曦中的雪山之巅,冰晶覆盖松枝物理场景:室内/室外、自然景观(雪山/森林)、城市街景等动态元素:天气(暴雨/晴天)、光线(霓虹反射/晨光)

‌情感与氛围(Mood)‌

*示例:幽蓝色调,天地苍茫的孤寂氛围抽象意境:孤寂感、梦幻感、赛博朋克式的未来压抑感

2、艺术控制维度

‌风格(Style)‌

*示例:水墨画风格,皮克斯动画质感艺术流派:水墨画、浮世绘、赛博朋克、吉卜力风格媒介形式:油画、水彩、3D渲染、摄影写实

‌构图与视角(Composition)‌

*示例:鸟瞰视角,动态构图,留白20%镜头语言:广角/微距/俯拍、中心对称/三分法构图主体比例:全身像/半身特写、留白空间控制

‌画质与细节(Quality)‌

*示例:超写实细节,焦点锐利,自然光晕技术参数:8K超清、电影级光影、细腻纹理光影效果:体积光、丁达尔效应、HDR3、技术优化维度权重控制(Weighting) 增强符号:提升重要性 减弱符号: 降低存在感

反向提示词(Negative Prompt)‌排除元素:模糊、畸变手、多余肢体、文字 *示例:避免水印、低分辨率、4、结构化公式(万能框架)+ | | | | 注意点简洁精准‌:避免冗余词,核心词靠前描述清晰:将模糊描述转为具体的特征*示例:错误❌“一杯咖啡” → 正确✅“陶瓷杯装拿铁,表面麦穗拉花,热气升腾”

三、生成效果

我们使用同一的提示词:

一位年轻貌美的女士,穿着休闲,坐在一个复古风格的咖啡馆木凳上,她身前的榆木桌上的有一杯陶瓷杯装拿铁,表面麦穗拉花,热气升腾,她微微偏头望向玻璃窗外,窗外的夕阳正在下落,阳光透过窗户照在她的脸上,可以清晰的看到她脸上纤细的毫毛。

百度打开百度,点击顶部的“AI”,然后在输入框上面选择“AI生图”,在输入框输入提示词就可以,等待几秒

下面是效果图

可灵AI打开可灵AI的官网
https://app.klingai.com/cn,进入之后看左侧,找到图片生成,然后进入选择左上角顶部的“文生图”,把提示词复制进去

豆包打开豆包官网,新建一个对话,然后选择对话框下的“图片生成”

生成效果图,生成的效果图还可以进一步的进行编辑

即梦AI打开即梦AI官网,在顶部选择文成图,将提示词复制进去,点击生成

生成效果图

腾讯元宝进入腾讯元宝的官网,点击腾讯元宝,在右侧的输入框中输入提示词,效果如途中所示,这个确实不太好,环境是真实的,但是任务是卡通的

通义万相

进入通义万相官网
https://tongyi.aliyun.com/

在左侧找到生成的图标,然后再输入框下左侧要切换为图像,之后输入提示词,效果如下。

这里面第二章图片的咖啡杯与提示词不一致,另外好几张图片的凳子不是木凳子,也有问题,另外这个也是要收费的,注册的时候会送一些积分。

总的来说,几个模型生成的图片大部分能用,但有些模型对提示词的生成效果不一样。免费的百度和豆包相对都还不错。

本文由人人都是产品经理作者【markzou】,微信公众号:【markzou的笔记】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章