传媒互联网行业周报:国产多模态模型持续加速迭代

股票资讯 阅读:5 2025-05-19 10:00:58 评论:0

  报告摘要

  图像:腾讯发布混元图像2.0,Manus上线生图功能

  腾讯发布混元图像2.0模型,该模型显著提升生图速度,实现输入即输出的毫秒级响应。同时,基于实时生图的优势,模型推出实时绘画板功能,可根据创作者的绘图要求,实时生成预览效果,有效提升图像生成交互体验。此外,Manus上线图像生成功能。不同于文生图模型,Manus生图功能将生图过程嵌入Agent工作流,具备理解用户意图、制定解决方案、并调用包括生图在内的各种工具完成任务的能力。从测评结果来看,因引入思考和制定方案的过程,生图时间明显长于主流生图模型,且对于复杂任务可能出现无法生成的情况。

  音视频:MiniMax Speech02发布,豆包视觉理解模型更新音频模型方面:1)MiniMax全新文本转语音模型Speech02:该模型可完成32种语言、不同口音、不同音色、不同情绪的语音内容生成。在两项语音基准测评中,其得分均超越了语音生成领域龙头OpenAI和ElevenLabs,位列第一。2)豆包·音乐模型升级:该模型不仅支持英文歌曲创作,还可通过理解视频,自动适配纯音乐背景音。视频模型方面:1)豆包视频生成模型Seedance1.0lite:该模型为豆包视频生成模型系列的小参数量版本,实现了影视级的视频生成质量及视频生成速度的大幅提升。2)豆包1.5视觉深度思考模型:该模型具备视频理解能力,同时通过学习数万亿的多模态标记数据,视觉推理能力实现大幅提升。

  3D:阶跃星辰发布开源3D模型Step1X-3D

  阶跃星辰发布开源3D模型Step1X-3D,该模型基于200万高质量、标准化的训练样本库进行训练,采用3D原生两阶段架构,将3D内容生成分为几何生成和纹理生成两个阶段。具体来看:1)在3D几何生成阶段,生成模型结构完成且高度还原几何细节的3D模型:2)在纹理生成阶段,通过几何信息的引导,生成与3D几何结构表面精密贴合、质感逼真的表面纹理。根据自建的综合测试进行评测,Step1X-3D在多项关键维度表现出色,在目前已实现SOTA的主流3D模型中得分靠前。

  核心观点

  我们认为,近期AI文生图、文生音视频、3D生成模型持续迭代,不仅在生成质量上不断提升,生成速度亦有所突破。更高的生成质量及更快的生成速度,有望提升用户使用体验,推动AI生成在广告营销、游戏、影视等场景的应用,加快产业落地。建议关注:1)AI+营销:天娱数科;2)AI+游戏:恺英网络、巨人网络、电魂网络;3)AI+影视:博纳影业等。

  风险提示

  AI技术发展不及预期、政策监管、行业竞争加剧的风险。


太平洋 郑磊,李林卉
声明

本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。