智源发布原生多模态世界模型Emu3，实现图像、文本、视频大一统_快讯_资讯

快讯

来源：星元科技作者：自媒体小编 2024-10-21 18:05:21 我要评论

，智源研究院正式发布原生多模态世界模型Emu3。该模型只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视

，智源研究院正式发布原生多模态世界模型Emu3。该模型只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。据了解，Emu3在图像生成、视频生成、视觉语言理解等任务中超过了SDXL 、LLaVA、OpenSora等知名开源模型。

转载请注明出处。

[db:tag]

本站页面、图片和视频等资料部分由互联网编辑生成，版权归原创者所有，本网站只提供web页面服务，并不提供资源存储，若本站收录的页面无意侵犯了贵司版权，请联系我们

• 鸿蒙原生版微信正式上架与普通版微信功能基本	• 鸿蒙微信正式版发布！腾讯：不到一年走完微信14
• 焕新Model Y 26.35万元开启预售特斯拉[TSLA]：	• 曝多地茅台冰淇淋闭店停产库存产品三折清仓
• 日本芯片公司Rapidus将向博通提供2nm芯片样品：	• 2024年中国车企市值排行：小米力压比亚迪(BYD)
• B站大会员服务调整！首次增加使用限制：同一时	• 彻底告别刘海、药丸屏！iPhone 18 Pro系列变成
• 印度空间对接任务再推迟：卫星漂移超出预期	• 出差8天变9个月！美国滞留太空宇航员再发声：我

网友点评

0 条相关评论

精彩导读

热门资讯

关注我们

关注我们，随时了解精彩内容

星元科技