微软发布文生图大模型「MAI-Image-2」

微软发布文生图大模型「MAI-Image-2」

MAI-Image-2 是微软(Microsoft AI / MAI 团队)于 2026 年 3 月 19 日 正式发布的第二代文本到图像(text-to-image)生成模型

这是微软自主研发的图像生成模型(并非依赖 OpenAI 的 DALL·E),标志着微软在图像生成领域从“合作方”转向“自研玩家”的重要一步。

主要特点与优势

  • 强真实感(Photorealism)导向:模型特别注重生成“像真实存在于世界中”的图像,包括自然光照、准确的肤色、更有生活感的场景和环境。官方强调,它能让创作者“减少后期修图时间,更多投入创作”。
  • 优秀的图像内文字渲染:能更可靠地生成清晰、可读的文字(如海报、幻灯片、图表中的标题、标注),这是很多图像模型的痛点。
  • 复杂场景与实用创作能力:擅长处理多物体、复杂构图,支持一致地生成信息图(infographics)、幻灯片、图表、设计稿等实用内容,减少从提示词到最终结果的偏差。
  • 架构:基于 diffusion(扩散模型) 架构,最高分辨率支持 1024x1024 像素。训练时间大致在 2026 年 1-3 月,使用公开数据(具体细节未完全公开)。

性能表现

Arena.ai(一个基于人类偏好投票的图像生成排行榜)上,MAI-Image-2 将微软 MAI 模型家族推至全球第 3 名(仅次于 Google 的 Gemini 3.1 Flash 和 OpenAI 的 GPT-Image 1.5)。这比其前代模型有明显进步,显示出在真实感、文字处理和整体可用性上的竞争力。

它被定位为“实用型”而非纯艺术型模型,适合摄影师、设计师、视觉故事讲述者和商业创作者使用。

访问方式

  • 立即可用MAI Playground(微软提供的在线试玩平台)。
  • 正在 rollout:集成到 CopilotBing Image Creator 中。
  • API:已向部分企业客户(如 WPP)开放,很快将在 Microsoft Azure AI Foundry(或类似平台)向更多开发者提供。
  • 目前主要通过微软产品和服务使用,输出分辨率等可能有一定限制(如初期以 1:1 比例为主)。

安全与限制

模型采用“防御纵深”策略,在数据阶段和部署阶段都加入了安全缓解措施,目标是减少生成有害、暴力、血腥或色情内容,即使提示词明确要求也会被限制。这符合微软一贯的负责任 AI 原则。

与其他模型的简单对比(2026 年初情况)

  • 优势:真实感、自然光影、肤色、文字渲染和实用工作流(如图表/幻灯片)较强,适合需要“拿来就能用”的场景。
  • 定位:更偏向“生产力工具”而非最前卫的艺术风格。
  • 与顶级对手(Google、OpenAI)相比,它已进入第一梯队,但尚未登顶;与开源模型(如 Flux 系列)或 xAI 的 Grok Imagine 相比,MAI-Image-2 在企业级集成和安全控制上更有微软生态优势。

总体来说,MAI-Image-2 是微软自研图像生成能力的里程碑,核心卖点是高可用性的真实感图像 + 强文字能力 + 减少后期工作。如果你是创作者或开发者,可以去 MAI Playground 试用一下,感受它在真实场景生成上的表现。

体验

我用一段提示词生成了如下图像,还行!

A dramatic post-apocalyptic wasteland scene featuring the large, bold text "GEEKSHARE" as the central subject, floating or standing prominently in the foreground. The text is rendered in a weathered, distressed futuristic font with cracked metallic surfaces, glowing faint neon blue and orange accents, rusted edges, holographic glitches, and subtle digital artifacts, maintaining high readability despite the decay.

Background is a desolate future wasteland: ruined cyberpunk city ruins under a blood-red and toxic orange sky, massive crumbling skyscrapers overgrown with vines and debris, abandoned flying vehicles half-buried in sand, broken holographic billboards, scattered broken robots and glowing residual energy cores, dust storms, distant lightning, radioactive glow, volumetric god rays piercing through dark clouds, cinematic composition, highly detailed, photorealistic 3D render, gritty texture, octane render style, dramatic lighting, ultra-realistic, 8k resolution.

微软发布文生图大模型「MAI-Image-2」

极客分享原创文章,转载请注明出处:https://geekshare.org/420/

(1)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注