中国科技网

AI
手机 电脑 数码 智车 AI 苹果 直播
当前位置: 首页 > AI > 正文

智谱与华为联合开源GLM-Image 直面NanoBanana Pro竞争

2026-01-26 07:31:34 来源:IT之家 A+A-

智谱AI华为近日联合宣布开源多模态图像生成模型GLM-Image,该模型全程基于华为昇腾Atlas 800T A2服务器及昇思MindSpore框架训练,是首个在国产芯片上完成端到端训练并达到当前业界先进水平的多模态模型。据官方介绍,GLM-Image的定位是在新一代“认知型生成”技术方向上与以谷歌NanoBanana Pro为代表的技术范式展开竞争,被视为国产阵营在这一领域的重要突破。

据智谱与华为发布的消息,GLM-Image采用“自回归+扩散解码器”的混合架构。其中,9B参数的自回归模型承担全局构图与场景逻辑规划,负责理解复杂指令并制定生成策略;7B参数的DiT扩散解码器专注细节刻画,并配有字形编码器,以提升文字生成的准确性,解决AI绘画中常见的文字缺失或变形问题。在权威的CVTG-2K复杂视觉文本生成以及LongText-Bench长文本渲染评测中,GLM-Image在开源模型中位列第一,尤其在中文文字渲染方面表现突出,可满足海报、PPT、科普插画等需要精确文字呈现的场景需求。模型通过改进的Tokenizer策略,支持从1024×1024到2048×2048之间任意宽高比的图像生成,无需为不同分辨率单独训练。官方展示的生成样例涵盖科普插画、多格漫画、电商图、社交媒体封面、商业海报及写实摄影等类型,显示其在多种实际应用中的可用性。

在成本与生态方面,智谱提供API调用服务,生成单张图片的成本约为0.1元,显著低于海外同类闭源模型的价格区间,为企业和开发者降低使用门槛。模型采用MIT许可协议,允许免费商用,对国内中小企业及个人开发者较为友好。同时,其训练与部署依托昇腾芯片、MindSpore框架与GLM-Image模型的全栈国产化路径,增强了中国AI产业在核心技术环节的自主可控能力。与谷歌NanoBanana Pro相比,GLM-Image在中文及多语言文字渲染、复杂排版支持、低成本与开源生态方面具有优势,适合注重本土化与可二次编辑的应用场景;而NanoBanana Pro在综合推理能力、世界知识整合与超高清分辨率支持上仍保持领先,面向追求极致生成效果且不受地域限制的全球用户。

GLM-Image的发布与开源,标志着国产多模态生成模型在芯片自主训练与实用性能上的一次重要进展,也为应对国际先进模型竞争提供了可落地的技术方案。后续可关注该模型在实际业务中的稳定性与扩展性、行业二次开发案例的丰富程度,以及在国际评测与跨语种应用中的表现,这些将影响其作为国产SOTA模型在全球多模态生成领域的竞争力与生态影响力。

Tags:GLM-Image
(责任编辑:Diy92)

推荐阅读 相关文章

宇树科技发布人形机器人H2日常训练视频 飞踢、空翻样样精通

据宇树科技官方消息,近日该公司发布了其人形机器人H2的日常训练视频,视频中H2完成了飞踢、空翻等高难度动作,展...[详细]

2026-01-10 12:21:31

腾讯回应元宝AI辱骂用户 小概率下的模型异常输出 不存在人工回复

据腾讯官方消息,针对近日网络流传的"元宝AI辱骂用户"一事,腾讯作出回应,称该情况属于小概率下的模型异常输出,并...[详细]

2026-01-10 12:21:31

谷歌工程师盛赞ClaudeCode效能 一小时完成团队全年工作量引热议

据海外科技媒体报道,一位谷歌工程师日前在社交平台公开点赞Anthropic开发的编程辅助工具ClaudeCode,称其在一...[详细]

2026-01-10 12:21:31

D.O.N携全球首款腰带式传感可穿戴设备VITALBELT亮相CES2026

据海外科技展会前瞻消息,日本企业D.O.N宣布将在CES2026上发布全球首款腰带式传感可穿戴设备VITALBELT。该设...[详细]

2026-01-10 12:21:31

杨立昆离任后指Meta模型存在刷榜行为 涉竞赛排名争议

据海外科技媒体及社交平台消息,知名AI科学家杨立昆(Yann LeCun)在离开Meta相关职务后,公开指称Meta的某模型在基...[详细]

2026-01-10 12:21:31

智谱与华为联合开源GLM-Image 直面NanoBanana Pro竞争

智谱AI与华为近日联合宣布开源多模态图像生成模型GLM-Image,该模型全程基于华为昇腾Atlas 800T A2服务器及昇...[详细]

2026-01-26 07:31:34

联系方式

商务QQ:19667318