谷歌母公司Alphabet(近日宣布,将其最新的人工智能工具Gemini开放给付费用户,正式推出“照片转视频”功能。这项功能自年初以来仅限于小范围测试,如今已全面上线,为用户提供了全新的创作体验。随着这一功能的推出,谷歌在AI视频生成领域的竞争力进一步增强,尤其是在与OpenAI、RunwayAI等同行的对比中,展现出其在市场中的活跃度和技术创新。
“照片转视频”功能允许用户仅凭单张照片和文本描述,生成带声音的8秒短视频,输出格式为720p的MP4视频。这一创新由谷歌最新一代视频生成模型Veo3驱动,显示了其在AI视频生成技术方面的深厚积累。与以往仅通过独立付费影视工具Flow使用的模式不同,Gemini的整合使得这一功能的使用门槛大幅降低,用户体验得以提升。通过将该功能直接集成至Gemini聊天界面,谷歌不仅拓宽了用户的应用场景,也增强了其生态系统的吸引力。
此外,谷歌还采取了一系列“重要后台措施”以确保视频生成的合规性,禁止使用公众人物的图像生成视频,并防止煽动危险行为或暴力内容的出现。这一政策在保证用户安全的同时,也为技术的健康发展奠定了基础。
在全球市场竞争中,谷歌并不是唯一在AI视频生成领域发力的公司。中国的阿里巴巴、AI初创企业Manus和快手科技等也在过去几个月发布了各自的升级版视频工具,显示出该领域的激烈竞争。与这些竞争对手相比,谷歌的“照片转视频”功能在技术成熟度和用户体验上,仍需持续优化和改进。
然而,媒体在Gemini网页版的测试中发现,虽然该功能能够实现简单的动画效果,如“植物随风摆动”或“静态猫片说话”,但在处理复杂指令时仍显得力不从心。例如,要求生成“照片人物跳霹雳舞”时,仅能输出人物挥手的画面。这反映出当前AI视频生成技术仍处于发展阶段,面临着诸多挑战。谷歌发言人对此回应称,AI模型并无修改人物外貌的设定指令,强调该技术的不断迭代与优化是未来的工作重点。
随着AI视频生成技术的不断进步,市场对这一领域的需求也在日益增长。未来,是否会有更多企业投入资源进行技术研发,成为推动行业变革的重要力量?同时,开发者生态的建设是否会成为影响AI工具使用的重要因素?这些问题值得行业内外的关注与思考。