车讯网 - 专业汽车新闻资讯门户
当前位置: 车讯网 -> 热点

三位Adobe老将出走,做出了超强文生图模型

时间:2025-04-04 19:19  |  责任编辑:宋元明清  |  来源: 投资界  |  关键词:  |  阅读量:10890  |  

GPT-4o,被击败了?

最近大伙都被GPT-4o生成的各种“整活”图像刷屏了吧,各种动漫油画风格改图、经典影视复现、漫画设计改图……,大有“AI一日,人间一年”之势。

甚至OpenAI CEO Sam Altman都累了:“收手吧,我们需要休息!”

但就在GPT-4o火遍全球之际,一个来自初创团队的新模型Reve Image,却凭借其在特定图像生成领域的出色表现,悄然赢得了用户和专业榜单的认可,排名连续多日超过GPT-4o,在人物、奇幻与神话、插画等细分领域更是妥妥的*。

自3月发布以来,它在多个海外第三方“盲测竞技榜”上表现抢眼,即使在GPT-4o持续刷屏的日子里,依然能在榜单上占据高位。

截图日期:4月1日

这不禁让人好奇,Reve这匹“黑马”究竟有何过人之处?它如何在巨头林立的文生图“牌桌”上占据一席之地?我们通过一系列实测来一探究竟。

实测:从AI生图到AI“摄影”

模型发布后,Reve官方在X平台上将自己的核心优势概括为三点:提示词遵循、美学(Aesthetics)和排版(Typography)。

我们就从这几个方面入手,把它与如今大热的GPT-4o、Imagen3、Recraft直接对比,来看看Reve表现究竟如何。

1. 提示词遵循:不漏掉任何一个元素,还要逻辑合理

首先,我们来测试模型处理复杂指令的能力,将几种风马牛不相及的元素组合在一起,观察模型的还原度和逻辑性。

提示词:一只杰出的暹罗猫被描绘成一个富丽堂皇的姿势,穿着带有复杂金色刺绣的伊丽莎白时代天鹅绒紧身裤。这只猫的服装包括一个大的蕾丝镶边的围脖,勾勒出它的头。一条带有宝石吊坠的粗金链挂在它的脖子上。猫的蓝眼睛直视着观众。背景是深绿色的森林,一旁是披着深红色天鹅绒的古典大理石柱子,暗示着宏伟的庄园环境。场景以16世纪油画的风格呈现,对细节和纹理一丝不苟,尤其是毛皮、织物和背景元素。

我们再来一组:

提示词:一只戴墨镜的企鹅,站在极地夜晚的冰川洞穴入口,左手举着一个插着吸管的菠萝,洞穴内漂浮着3只发光的彩虹色独角兽,背景有霓虹灯组成的'生日快乐'字样,空中悬浮一条蒸汽朋克风格的机械鱼,整体画风为超现实主义,地面有融化的巧克力河流,天空出现梵高《星月夜》的笔触,部分物体边缘带有故障艺术的数码裂纹效果。

这组对比除了能直观地检查各模型是否遵循提示词以外,还可以很直观地看到它们的风格偏好。虽然这是一个虚构场景,但Reve和GPT-4o生成的图像中,企鹅和巧克力河流的元素仍呈现出偏写实的风格。相比之下,Recraft生成的图像风格虽然更讨喜,但却忽略了很多细节。

2. 美学表现与风格塑造:氛围感与人文气息是亮点

在很多评测中,美学风格符合大众偏好是大模型在盲测中脱颖而出的关键。我们换一组较为正常和细致的提示词,其中包含了大量主观描述,看看这些模型会怎么处理。

自然风光与氛围

提示词:白雪皑皑的山峰耸立在寒冷的黎明天空中,充满了淡蓝色和紫色的色调。飘渺的云层飘过高处的山坡,被清晨的阳光照亮。这座山锯齿状的岩壁显示出清晰的细节和纹理,而雪块则突出了山脊和裂缝。前景以植被稀疏的岩石地形为特色,一直延伸到主峰的底部。广角风景摄影,自然采光充足,在冷色调的天空下清晰聚焦山区细节。

人物肖像与故事感

提示词:一位年轻的白人男性士兵身着二战时期的战斗装备,站在严酷的冬季条件下,周围下着雪。士兵戴着一顶橄榄绿色的军用头盔,头盔的边缘有积雪,肩膀上穿着风化的棕褐色冬季战斗外套,肩膀上有明显的湿气。他的表情紧张而担忧,嘴唇微微张开,仿佛在说话或呼吸沉重,而他的目光则略微向下和向侧面。背景显示了他身后的其他戴头盔的士兵,在战场场景中创造了深度。在阴沉的天空下,远处光秃秃的冬树清晰可见。该图像具有自然的正面照明和浅景深,可保持主体清晰对焦,同时略微模糊背景元素。调色用柔和的绿色、灰色和棕色来降低饱和度,强调冬季战争的严峻现实。特写人像摄影,具有浅景深和自然的正面照明,色彩饱和度低。

动态场景与情绪

提示词:一个剪影音乐家得意洋洋地拿着他们的吉他弹唱,在一片人群组成的海洋冲浪,海洋中双手向上伸展。他们沐浴在暖光的舞台灯光,背景有标志性的太空针塔刺穿夜空。这模糊、充满活力的人群消失在黑暗中场地,他们的兴奋是显而易见的。反射着舞台灯光的泡沫在空气中飘荡,增添了庆祝的气氛。低光照片烘托出现场表演的原始能量。

艺术风格与虚构场景

提示词:希腊哲学家们聚集在狂暴的天空下,一道闪电划破画布,呈对角线照亮了他们。他们的表情交织着敬畏与恐惧,挥手指向天空,身上的长袍随风旋转,与乌云遥相呼应。在他们脚下,一块风化的石碑上隐约刻着“fate”二字,被飘动的衣袍部分遮住。这是一幅充满戏剧性的明暗对比油画,具有强烈的对角线构图和富有氛围感的光影效果。

意境理解和视觉化

我们再上些难度,把经典名著中的景物描写交给模型,这些描述相对模糊,看看它们会给出怎样的答卷。

提示词:穿过县境上长长的隧道,便是雪国。夜空下,大地一片白茫茫。火车在信号所前停了下来。

在以上几组对比中,各模型生成的图像在核心元素还原上似乎并未拉开决定性差距,但仔细对比后不难发现,Reve在处理细节上与其他模型存在一些不同之处。

例如最后一个案例中,将川端康成《雪国》开篇文字视觉化,是对模型捕捉意境及理解能力的考验。所有模型都生成了火车、雪景、夜晚这些关键元素,但只有Reve在这一测试中采用了框式构图,拍摄角度和质感都更接近人类摄影师拍摄的照片。

而这种对摄影构图和真实感的偏好,并非个例。

Reve在这一案例中生成的照片大量出现远景,利用天空、雪地、火车在画面比例上的对比,表现“大地一片白茫茫”

AI新榜观察到,当许多文生图模型倾向于生成视角相对“标准”、构图“板正”的图像时,Reve常常会采用一些在AI生成领域不那么常见、但在人类摄影作品中却很经典的构图方式。例如更具纵深感的角度、利用前景遮挡、模拟特定镜头焦段的效果等。

再加上Reve本身在光影效果、内容质感方面的不错表现,使其生成的图像甚至难辨真假。

这种对构图、光影和质感的细腻把握,使得Reve在生成具有人文气息、故事感和电影质感的写实风格图像方面尤为出色,这或许就是它能够在考察大众审美偏好的盲测中取得好成绩的秘密。

3. 文字排版能力:图文融合有亮点,但语种支持待提升

提示词:一张专业的野生动物摄影作品,画面中一只棕熊站立在高草丛中,背景是深色的森林。画面中融入了粗体黄色复古风格的衬线字体,拼写出“bear”一词,文字部分被巧妙地遮挡在熊的头部之后。熊的头部从字母“e”中探出,形成了文字与主体之间的巧妙视觉互动。照片采用自然光线拍摄,采用中景构图和略低的角度,营造出一种强大而平衡的画面效果。棕熊浓密的棕色毛发与深沉的暗绿色森林背景形成了美丽的对比。

不过遗憾的是,目前,Reve在处理除英文以外的其他语言时仍然存在一些问题。比如,当我们把提示词从“熊”换成“虎”,并要求模型生成中文时,虽然图像从文字中间穿过的效果仍然可以实现,但汉字却无法正常生成。

综合来看,Reve是一个长处和短处都非常明显的产品。

长处:

*的美学表现: 尤其擅长营造人文气息、故事感、电影感的写实风格,符合大众审美。

良好的提示词遵循能力: 对细节元素的还原度较高。

创新的图文排版: 在英文语境下能实现较好的图文融合设计。

用户友好: 目前网页版无水印、无需注册、支持中文界面、生成速度快。

短板:

非英文文字处理能力弱: 基本无法准确生成除英文外的文字。

复杂指令下的逻辑性: 处理一些复杂或需要深度逻辑推理的提示词时仍会出错。

多轮生成与一致性: 相较于一些能多次修改的模型,在保持角色、风格一致性方面稍弱。

通用性与多模态: 功能相对单一,不像GPT-4o等具备更强的多模态交互能力。

复杂元素过多时Reve表现不如GPT-4o,左Reve右GPT-4o

不知道是不是为了防止因访问量太多而崩溃,Reve AI并非完全免费,但每天登录会赠送20次试用,新账号赠送100积分,也可以购买积分,价格是5美元500积分。

02Reve登顶背后,是三位Adobe老将的“梦想”

我们是一个小团队:充满激情的研究人员、建造者、设计师和具有伟大创意的故事讲述者。

但这个“小”团队背后,是三位图形处理界的“大佬”:

Christian Cantrell:前Stability AI产品副总裁,Stable Diffusion Photoshop插件的创建者。

Taesung Park:前Adobe研究科学家,是GauGAN的共同作者之一。

Micha?l Gharbi:前Adobe研究科学家,研究方向包括计算摄影、图像/视频处理和机器学习。

有网友推测,三人离开公司重组Reve团队,可能是为了完成一些在原公司推行受阻的项目。

Reve面世后,创始人们在社交平台上的发言似乎印证了这一点,还为我们揭示了Reve AI更深层的目标。创始人Taesung Park在X平台发文表示:

与LLMs相比,今天的文生图像/视频模型常常缺乏逻辑。我们在Reve的使命是用逻辑增强视觉生成模型,专注于通过高级语言功能理解用户意图,从而实现更好的复杂提示理解能力。

Micha?l Gharbi也发表了类似的观点,并将现有模型比作只会模仿的“随机鹦鹉”:

基于创始人在计算摄影、GauGAN等方面的过往成就,我们谨慎推测:Reve在技术路径上可能借鉴了计算摄影,模型注重学习场景的3D布局、对象间的空间关系以及光照与材质的物理交互。

从这个角度而言,或许Reve和这个“小团队”的故事,或许才刚刚翻开序章,我们可以期待它在逻辑性、可控性和多语言支持等方面持续进化。

说起来,Reve这次确实有点“生不逢时”。

团队埋头苦干一年,好不容易把*代模型Reve Image发出来,它也争气地冲上了盲测榜首,甚至一度被兴奋的用户捧为“世界*图像模型”。

仅仅过了一天之后,功能更全面、声势更浩大的GPT-4o便横空出世,把热度完全抢走,这让刚刚崭露头角的Reve Image瞬间显得黯淡无光。

这也让我们回到了最初的问题:在GPT-4o这样强大且全面的多模态模型阴影下,其他文生图模型是否还有机会?

而Reve或许已经用它带有明显倾向性的生图策略,给了我们答案。

当下的AI模型在“生成万物”上已取得长足进步,“整活”玩法层出不穷,但往往缺乏独特的“视觉品味”或难以稳定输出特定的高级美学风格。

Reve则敏锐地切入了“人文写实”及“电影氛围感”这一细分审美领域,通过深度优化,提供了超越许多通用模型的效果,同时保持了极低的门槛,将“审美”本身作为核心竞争力。

这种“审美力”并非空中楼阁,而是具有实实在在的商业价值。

这种由Reve独特审美驱动、与其他AI工具联动组合的玩法,也是其“专精”价值得以延伸和放大的体现。

显然,如果你追求的不是天马行空的奇幻效果,而是希望获得更贴近真实世界、蕴含情绪和叙事性的现实风格图像,那么Reve会是个不错的选择。

虽然GPT-4o的光芒已经足够耀眼,但一个健康繁荣的AI生态,既需要GPT-4o这样的强大“平台”和“通才”,也离不开像Reve这样在垂直领域深耕细作、独具特色的“专才”。

资料: