智源探求院：原生多模态宇宙模子Emu3发布，已毕视频、图像、文本大一统

发布日期：2024-11-01 18:30 点击次数：134

　　新浪科技10月23日下昼音书，智源探求院近日书记原生多模态宇宙模子Emu3发布。该模子已毕了视频、图像、文本三种模态的同一同一与生成。据悉，Emu3只基于下一个token忖度，无需扩散模子或组合式门径，便能把图像、文本和视频编码为一个闹翻空间，在多模态搀和序列上从新驱动荟萃梭巡一个Transformer，展现了其在大边界梭巡和推理上的后劲。

　　在图像生成、视觉讲话同一、视频生成任务中，Emu3的发达寥落了 SDXL 、LLaVA-1.6、OpenSora等盛名开源模子。在图像生成任务中，东说念主类评估得分Emu3高于SD-1.5与SDXL；在视觉讲话理衔命务中，12 项基准测试的平均得分，Emu3最初于LlaVA-1.6与LlaVA-1.5；在视频生成任务中，VBench基准测试得分，Emu3优于OpenSora 1.2。

　　下一token忖度被以为是通往AGI的可能旅途，但这种范式在讲话之外的多模态任务中莫得被讲授。此前，多模态生成任务仍然由扩散模子（举例 Stable Diffusion）所主导，而多模态理衔命务则由组合式的门径（举例 CLIP视觉编码器与LLM联接）所主导。智源探求院院长王仲远暗意：“Emu3讲授了下一个token忖度能在多模态任务中有高性能的发达，这为构建多模态AGI提供了宽敞的时间远景。Emu3有契机将基础范例开拓拘谨到一条时间阶梯上，为大边界的多模态梭巡和推理提供基础，这一浅薄的架构野心将利于产业化。改日，多模态宇宙模子将促进机器东说念主大脑、自动驾驶、多模态对话和推理等场景运用。”

　　现在，智源探求院已将Emu3的关节时间和模子开源至外洋时间社区。权衡时间从业者暗意：“关于探求东说念主员来说，Emu3意味着出现了一个新的契机，不错通过同一的架构探索多模态，无需将复杂的扩散模子与大讲话模子相联接。这种门径相似于transformer在视觉权衡任务中的变革性影响。”（文猛）

海量资讯、精确解读，尽在新浪财经APP

包袱裁剪：刘万里 SF014

让建站和SEO变得简单

智源探求院：原生多模态宇宙模子Emu3发布， 已毕视频、图像、文本大一统

智源探求院：原生多模态宇宙模子Emu3发布，已毕视频、图像、文本大一统