中国科技网

AI
手机 电脑 数码 智车 AI 苹果 直播
当前位置: 首页 > AI > 正文

谷歌 Veo 2升级可生成更具电影感视频,文本、音频AI同步升级

2025-04-11 07:44:56 来源:IT之家 A+A-

4 月 10 日消息,谷歌为其视频 AI 模型 Veo 2 推出新功能,旨在帮助用户更轻松地生成具有电影质感的画面以及编辑真实视频。这些新增的 Veo 2 功能目前可通过谷歌云的 Vertex AI 平台进行预览,与此同时,谷歌还对文本转图像生成器 Imagen 3 以及音频相关 AI 模型进行了更新。

据了解,Veo 2 的新功能包括修复功能(inpainting)和外扩功能(outpainting)。谷歌表示,修复功能可以自动移除视频中的“不想要的背景图像、标志或干扰元素”,而外扩功能则能够将原始视频的画面进行扩展,该工具会用 AI 生成的视频片段填充新增的空间,使其与原始片段自然融合,类似于 Adobe 为图像提供的生成式扩展功能。

此次更新还允许 Veo 2 用户在生成画面时,将电影拍摄技巧预设与文字描述一同选用,以便指导最终结果中的镜头构图、拍摄角度和节奏。例如,预设包括延时效果、无人机视角以及模拟不同方向的镜头平移等。

此外,Veo 2 新增了一种插值功能,能够为两个静态图像之间创建视频过渡,为开头和结尾序列填充新的帧。

Adobe 的竞争产品 Firefly 视频模型也具备一些类似的功能,其生成式 AI 视频扩展功能于上周在 Premiere Pro 中推出。谷歌还在其 AI 生成的输出中加入了 SynthID 数字归属水印,类似于 Adobe 的内容凭证系统。不过,Adobe 进一步承诺其工具完全可用于商业用途,因为它们是基于授权和公有领域内容进行训练的,而谷歌在训练其 AI 模型时大量抓取了网络上的内容,无法达到这一标准。

在文本转图像模型 Imagen 3 方面,谷歌对其编辑功能进行了更新,声称可以“显著”提升自动移除物体的效果,使移除干扰元素后的结果看起来更加自然。Veo 2 和 Imagen 3 已被包括欧莱雅和卡夫亨氏在内的公司用于营销内容制作。卡夫亨氏的数字体验负责人贾斯汀・托马斯表示,过去需要八周才能完成的任务,现在只需八小时。

在音频领域,谷歌推出了其文本转音乐模型 Lyria 的私人预览版,并为其合成语音模型 Chirp 3 推出了“即时定制语音”功能。谷歌称,Chirp 3 现在能够从 10 秒的音频输入中生成“逼真的定制语音”,并且正在推出一项新的转录功能预览,该功能可以识别并分离出多人对话中的各个说话者,从而为多参与者的谈话提供更清晰的转录。

这些更新只是谷歌今日宣布的一系列 AI 相关消息中的一部分。谷歌效率优化型 Flash 模型的最新版本 Gemini 2.5 Flash 即将登陆 Vertex AI。谷歌表示,Gemini 2.5 Flash 会根据任务的复杂程度“自动调整处理时间”,以便为简单请求提供更快的结果。

此外,谷歌本周还将更新其面向企业的 Agentic AI 工具,使 AI 代理能够在不同平台(如 PayPal 和 Salesforce)之间相互沟通并执行任务。同时,谷歌云市场将推出一个新板块,供企业浏览和购买由第三方谷歌合作伙伴构建的 AI 代理。

(责任编辑:Diy92)

推荐阅读 相关文章

传OpenAI拟扩员至8000人 年底从4500人增加

有消息称OpenAI计划在今年底前将员工规模从目前的约4500人扩充至8000人,扩员重点集中在模型安全、多模态研发...[详细]

2026-03-28 09:34:26

马斯克宣布Grok Computer智能体即将上线

马斯克日前在社交平台宣布,xAI开发的Grok Computer智能体即将上线,定位为具备自主任务执行与多工具调用能力的...[详细]

2026-03-28 09:34:26

MiniMax高峰期限流 MiniMax M2.7模型热度超预期

MiniMax官方确认,因M2.7模型在近期高峰时段用户请求量远超预期,已启动临时限流措施以保障服务稳定性。M2.7模...[详细]

2026-03-28 09:34:26

小米MiMo大模型联合多Agent框架 首周限免开放

小米发布MiMo大模型并与自研多Agent框架深度整合,首周面向开发者与特定用户限免开放。MiMo在多轮对话、跨模...[详细]

2026-03-28 09:34:26

美团开源LongCat大模型 Flash-Prover 刷新SOTA

美团近日宣布开源LongCat大模型及其配套Flash-Prover推理验证框架,LongCat在多项长文本理解与生成任务中刷新...[详细]

2026-03-28 09:34:26

月之暗面回应KimiK2.5 Cursor使用并感谢马斯克发声

月之暗面就KimiK2.5在Cursor编辑器的使用情况作出回应,确认该模型已支持在Cursor中调用并完成代码生成、补全...[详细]

2026-03-29 10:52:06

软银拟在美建AI数据中心 全球最大投660亿美元

软银集团宣布计划在美国建设全球规模最大的AI数据中心,总投资额约660亿美元,选址聚焦电力资源丰富且网络延迟...[详细]

2026-03-29 10:52:06

WordPress.com接入AI智能体 可代写及优化SEO

WordPress.com日前宣布接入AI智能体功能,支持为用户代写博客文章并自动优化搜索引擎排名要素。该智能体基于...[详细]

2026-03-29 10:52:06

彭博社称马斯克派xAI工程师争夺xAI OpenAI客户

彭博社报道,马斯克已派遣旗下xAI的工程师团队主动接触部分OpenAI的企业客户,试图以算力优惠与定制化模型服务...[详细]

2026-03-29 10:52:06

美国男子用AI诈骗写歌+机器人刷量骗千万美元版税被抓

美国执法部门日前逮捕一名男子,其利用生成式AI创作歌曲并借助机器人账号在流媒体平台大量刷播放量,以此骗取超...[详细]

2026-03-29 10:52:06

联系方式

商务QQ:19667318