传媒互联网行业周报：国产多模态模型持续加速迭代

股票资讯阅读：250 2025-05-19 10:00:58 评论：0

　　报告摘要

　　图像：腾讯发布混元图像2.0，Manus上线生图功能

　　腾讯发布混元图像2.0模型，该模型显著提升生图速度，实现输入即输出的毫秒级响应。同时，基于实时生图的优势，模型推出实时绘画板功能，可根据创作者的绘图要求，实时生成预览效果，有效提升图像生成交互体验。此外，Manus上线图像生成功能。不同于文生图模型，Manus生图功能将生图过程嵌入Agent工作流，具备理解用户意图、制定解决方案、并调用包括生图在内的各种工具完成任务的能力。从测评结果来看，因引入思考和制定方案的过程，生图时间明显长于主流生图模型，且对于复杂任务可能出现无法生成的情况。

　　音视频：MiniMax Speech02发布，豆包视觉理解模型更新音频模型方面：1）MiniMax全新文本转语音模型Speech02：该模型可完成32种语言、不同口音、不同音色、不同情绪的语音内容生成。在两项语音基准测评中，其得分均超越了语音生成领域龙头OpenAI和ElevenLabs，位列第一。2）豆包·音乐模型升级：该模型不仅支持英文歌曲创作，还可通过理解视频，自动适配纯音乐背景音。视频模型方面：1）豆包视频生成模型Seedance1.0lite：该模型为豆包视频生成模型系列的小参数量版本，实现了影视级的视频生成质量及视频生成速度的大幅提升。2）豆包1.5视觉深度思考模型：该模型具备视频理解能力，同时通过学习数万亿的多模态标记数据，视觉推理能力实现大幅提升。

　　3D：阶跃星辰发布开源3D模型Step1X-3D

　　阶跃星辰发布开源3D模型Step1X-3D，该模型基于200万高质量、标准化的训练样本库进行训练，采用3D原生两阶段架构，将3D内容生成分为几何生成和纹理生成两个阶段。具体来看：1）在3D几何生成阶段，生成模型结构完成且高度还原几何细节的3D模型：2）在纹理生成阶段，通过几何信息的引导，生成与3D几何结构表面精密贴合、质感逼真的表面纹理。根据自建的综合测试进行评测，Step1X-3D在多项关键维度表现出色，在目前已实现SOTA的主流3D模型中得分靠前。

　　核心观点

　　我们认为，近期AI文生图、文生音视频、3D生成模型持续迭代，不仅在生成质量上不断提升，生成速度亦有所突破。更高的生成质量及更快的生成速度，有望提升用户使用体验，推动AI生成在广告营销、游戏、影视等场景的应用，加快产业落地。建议关注：1）AI+营销：天娱数科；2）AI+游戏：恺英网络、巨人网络、电魂网络；3）AI+影视：博纳影业等。

　　风险提示

　　AI技术发展不及预期、政策监管、行业竞争加剧的风险。

太平洋郑磊,李林卉

声明

本站内容源自互联网，如有内容侵犯了您的权益，请联系删除相关内容。本站不提供任何金融服务，站内链接均来自开放网络，本站力求但不保证数据的完全准确，由此引起的一切法律责任均与本站无关，请自行识别判断，谨慎投资。