ITBear旗下自媒体矩阵:

谷歌Gemini安卓测试版升级:双模态交互助力AI图像编辑迈向专业化

   时间:2026-03-18 17:07:36 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

谷歌近期在Gemini安卓应用的测试版本中,推出了一项针对生成式图像编辑的突破性功能升级。此次更新聚焦于解决AI图像二次创作中的两大难题:指令传达模糊与操作流程割裂,通过深度整合标记界面与实时文本输入框,显著提升了用户对生成内容(如示例中的“Nano Banana”图像)的局部调整能力。

新版本的核心创新在于交互模式的彻底重构。过去,用户需先在图像上简单涂鸦标记修改区域,再退出编辑界面通过对话形式向AI传达指令,流程繁琐且精度有限。如今,用户只需点击“铅笔”图标,即可直接在图像特定位置进行高精度标记,同时在下方新增的文本框中输入修改需求,实现“视觉定位+自然语言”的双通道指令输入。这种设计使模型对局部修改意图的理解准确率大幅提升,例如将“让香蕉弯曲度增加30%”或“调整背景色为暖色调”等复杂需求转化为可执行的参数。

技术层面,谷歌通过优化多模态感知算法,使标记工具与文本描述形成动态关联。当用户在图像上标记区域时,系统会自动分析该区域的色彩、形状等特征,并在文本框中生成建议性描述模板,降低用户输入门槛。测试版还预留了“调整大小”和“特效应用”等扩展功能接口,暗示未来可能集成裁剪、滤镜、光影调整等全流程编辑能力,推动Gemini从单一文生图工具向综合性数字创作平台进化。

行业分析师指出,这一升级反映了生成式AI领域的竞争焦点正从“内容生成”转向“精准控制”。谷歌选择在移动端原生应用中嵌入专业级标记工具,旨在抢占移动AI创作市场的制高点。通过降低精细化编辑的技术门槛,普通用户无需掌握专业软件即可实现接近设计师水平的图像调整,而专业创作者则能借助AI加速创意落地。

目前,该功能仍处于内部测试阶段,尚未对公众开放。但从代码分析来看,其“即标即改”的实时反馈机制已具备商业化潜力。例如,用户标记图像中的人物面部后,输入“消除皱纹并提亮肤色”,系统可在3秒内生成符合描述的修改版本。这种效率若能延续至正式版本,将极大缩短AI绘画从概念到成品的周期,推动其从娱乐应用向商业设计、内容生产等场景渗透。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version