当前位置：首页 > AI > 正文

智谱与华为联合开源GLM-Image 直面NanoBanana Pro竞争

2026-01-26 07:31:34 来源：IT之家 A+A-

智谱AI与华为近日联合宣布开源多模态图像生成模型GLM-Image，该模型全程基于华为昇腾Atlas 800T A2服务器及昇思MindSpore框架训练，是首个在国产芯片上完成端到端训练并达到当前业界先进水平的多模态模型。据官方介绍，GLM-Image的定位是在新一代“认知型生成”技术方向上与以谷歌NanoBanana Pro为代表的技术范式展开竞争，被视为国产阵营在这一领域的重要突破。

据智谱与华为发布的消息，GLM-Image采用“自回归+扩散解码器”的混合架构。其中，9B参数的自回归模型承担全局构图与场景逻辑规划，负责理解复杂指令并制定生成策略；7B参数的DiT扩散解码器专注细节刻画，并配有字形编码器，以提升文字生成的准确性，解决AI绘画中常见的文字缺失或变形问题。在权威的CVTG-2K复杂视觉文本生成以及LongText-Bench长文本渲染评测中，GLM-Image在开源模型中位列第一，尤其在中文文字渲染方面表现突出，可满足海报、PPT、科普插画等需要精确文字呈现的场景需求。模型通过改进的Tokenizer策略，支持从1024×1024到2048×2048之间任意宽高比的图像生成，无需为不同分辨率单独训练。官方展示的生成样例涵盖科普插画、多格漫画、电商图、社交媒体封面、商业海报及写实摄影等类型，显示其在多种实际应用中的可用性。

在成本与生态方面，智谱提供API调用服务，生成单张图片的成本约为0.1元，显著低于海外同类闭源模型的价格区间，为企业和开发者降低使用门槛。模型采用MIT许可协议，允许免费商用，对国内中小企业及个人开发者较为友好。同时，其训练与部署依托昇腾芯片、MindSpore框架与GLM-Image模型的全栈国产化路径，增强了中国AI产业在核心技术环节的自主可控能力。与谷歌NanoBanana Pro相比，GLM-Image在中文及多语言文字渲染、复杂排版支持、低成本与开源生态方面具有优势，适合注重本土化与可二次编辑的应用场景；而NanoBanana Pro在综合推理能力、世界知识整合与超高清分辨率支持上仍保持领先，面向追求极致生成效果且不受地域限制的全球用户。

GLM-Image的发布与开源，标志着国产多模态生成模型在芯片自主训练与实用性能上的一次重要进展，也为应对国际先进模型竞争提供了可落地的技术方案。后续可关注该模型在实际业务中的稳定性与扩展性、行业二次开发案例的丰富程度，以及在国际评测与跨语种应用中的表现，这些将影响其作为国产SOTA模型在全球多模态生成领域的竞争力与生态影响力。

Tags：GLM-Image

(责任编辑：Diy92)

科技网

智谱与华为联合开源GLM-Image 直面NanoBanana Pro竞争

相关话题

今日专题

美国企业AI成本飙升 DeepSeek成为B2B市场新宠

热点聚焦

软银孙正义称OpenAI正用AI设计AI模型比人类聪明万倍的ASI两年内到来

2026世界杯扩大AI审核实时过滤超3万个关键词2秒隐藏不当评论

微软MAI系列AI模型训练数据曝光仅商业授权说法存在出入

OpenAI为ChatGPT个人用户开放锁定模式降低数据泄露风险

比亚迪澄清人形机器人尧舜禹等消息均不属实

OpenAI芯片团队元老Clive Chan出走跳槽至Anthropic

热点推荐

消息称OpenAI将对ChatGPT进行大升级打造为超级应用

卢伟冰晒小米Mimo大模型写的北京卷作文 2026高考语文落幕

英国警方被叫停使用AI撰写法庭陈述担忧虚假内容扰乱司法

美国全面推进AI军事应用特朗普要求90天内修订自主武器规则

疑似三星Galaxy Watch9与Watch Ultra 2通过3C认证充电速度仍为10W

微软警告Claude Code存在漏洞可能导致GitHub账号凭证泄露

今日话题

小岛秀夫谈AI艺术创作称有生之年恐无法见证

阿里千问对外开放“AI办事”能力首家接入东方航空支持查航班买机票

特斯拉Model S/X产线将为Optimus机器人让路最早7月启动投产

OpenAI发布ChatGPT团队工作流AI智能体 7*24小时自动化处理长周期任务

全国首个汕头完成“Token出海”全链路闭环验证打通跨境AI服务链路

OpenAI在美国推出ChatGPT临床医生版完成认证后可免费使用

今日热点