跳转至

常见模型分类

模型归类

多模态生成领域的主要模型

mindmap
    root((多模态生成模型 
361way.com))
        (文本生成文本)
            [大语言模型]
                (GPT系列)
                    GPT-4
                    GPT-3.5
                    GPT-3
                (Claude系列)
                    Claude 3
                    Claude 2
                (LLaMA系列)
                    LLaMA 2
                    LLaMA
                (国产模型)
                    文心一言
                    通义千问
                    星火大模型
        (文本生成图像)
            [扩散模型]
                (Stable Diffusion系列)
                    SDXL
                    SD2.1
                    SD1.5
                (DALLE系列)
                    DALLE-3
                    DALLE-2
                (Midjourney系列)
                    MJ V6
                    MJ V5
            [其他架构]
                (Imagen)
                (Parti)
        (文本生成视频)
            [扩散模型]
                (Stable Video Diffusion)
                (Gen-2)
                (Pika Labs)
            [其他架构]
                (Runway Gen-1)
                (Meta Make-A-Video)
                (Google Imagen Video)
        (图像生成图像)
            [图像编辑]
                (ControlNet)
                (InstructPix2Pix)
                (DALL·E 3编辑)
            [图像变体]
                (SD的img2img)
                (MJ变体功能)
                (DALL·E变体)
        (图像生成视频)
            [视频生成]
                (AnimateDiff)
                (SVD)
                (EmotiVideo)
            [动画生成]
                (ModelScope)
                (D-ID)
                (HeyGen)
        (文本生成音乐)
            [音乐生成]
                (MusicGen)
                (AudioCraft)
                (Stable Audio)
            [声音克隆]
                (RVC)
                (So-VITS-SVC)
                (VALL-E)

该思维导图展示了主要的多模态生成模型,按照不同的生成任务进行分类。主要包括以下几个方面:

  1. 文本生成文本 (Text-to-Text)

    • 主要是各种大语言模型
    • 包括商业闭源和开源模型
  2. 文本生成图像 (Text-to-Image)

    • 主要以扩散模型为主
    • 包括主流的 SD、DALLE、Midjourney 等
  3. 文本生成视频 (Text-to-Video)

    • 新兴领域,多基于扩散模型
    • 包括 Stable Video Diffusion、Pika 等
  4. 图像生成图像 (Image-to-Image)

    • 包括图像编辑和变体生成
    • ControlNet 等控制技术
  5. 图像生成视频 (Image-to-Video)

    • 包括静态图片动画化
    • 人像动画等特定应用
  6. 文本生成音乐 (Text-to-Music/Audio)

    • 音乐生成模型
    • 语音克隆技术

场景与模型

不同生成场景下使用的核心模型架构。

classDiagram
    class 生成场景 {
        +文生文()
        +文生图()
        +文生视频()
        +图生图()
        +图生视频()
        +文生音乐()
    }

    class 文生文模型 {
        +Transformer架构
        +自注意力机制
        +Decoder-only
        +Encoder-Decoder
        +by 361way.com
    }

    class 文生图模型 {
        +扩散模型
        +Transformer架构
        +CLIP模型
        +VAE模型
        +自回归模型
    }

    class 文生视频模型 {
        +扩散模型
        +Transformer架构
        +时序建模
        +运动预测
        +帧插值模型
    }

    class 图生图模型 {
        +扩散模型
        +GAN架构
        +VAE模型
        +CNN架构
        +Transformer架构
    }

    class 图生视频模型 {
        +扩散模型
        +GAN架构
        +运动估计
        +时序预测
        +帧插值网络
    }

    class 文生音乐模型 {
        +Transformer架构
        +扩散模型
        +GAN架构
        +VAE模型
        +自回归模型
    }

    class 核心技术 {
        +注意力机制
        +扩散过程
        +对抗学习
        +变分推断
        +自回归生成
    }

    生成场景 <|-- 文生文模型
    生成场景 <|-- 文生图模型
    生成场景 <|-- 文生视频模型
    生成场景 <|-- 图生图模型
    生成场景 <|-- 图生视频模型
    生成场景 <|-- 文生音乐模型

    核心技术 --> 文生文模型
    核心技术 --> 文生图模型
    核心技术 --> 文生视频模型
    核心技术 --> 图生图模型
    核心技术 --> 图生视频模型
    核心技术 --> 文生音乐模型

各个生成场景使用的主要模型架构:

  1. 文生文 (Text-to-Text)

    • 主要模型架构:
      • Transformer (最主流)
      • 自注意力机制
      • Decoder-only (如GPT系列)
      • Encoder-Decoder (如T5)
    • 典型应用:
      • 语言模型
      • 机器翻译
      • 文本摘要
  2. 文生图 (Text-to-Image)

    • 主要模型架构:
      • 扩散模型 (Stable Diffusion)
      • CLIP做文本理解
      • VAE做图像编码解码
      • Transformer处理文本和潜空间
    • 典型应用:
      • Stable Diffusion
      • DALL·E
      • Midjourney
  3. 文生视频 (Text-to-Video)

    • 主要模型架构:
      • 扩散模型基础
      • 时序建模组件
      • 运动预测网络
      • Transformer处理长序列
    • 典型应用:
      • Stable Video Diffusion
      • Gen-2
      • Runway Gen-1
  4. 图生图 (Image-to-Image)

    • 主要模型架构:
      • 扩散模型
      • GAN
      • VAE
      • CNN
    • 典型应用:
      • ControlNet
      • Pix2Pix
      • Style Transfer
  5. 图生视频 (Image-to-Video)

    • 主要模型架构:
      • 扩散模型
      • 运动估计网络
      • 时序预测模型
      • 帧插值网络
    • 典型应用:
      • AnimateDiff
      • D-ID
      • HeyGen
  6. 文生音乐 (Text-to-Music)

    • 主要模型架构:
      • Transformer
      • 扩散模型
      • GAN
      • VAE
      • 自回归模型
    • 典型应用:
      • MusicGen
      • AudioCraft
      • VALL-E

核心技术特点:

  1. Transformer架构

    • 强大的序列建模能力
    • 适用于多种模态
    • 可扩展性好
  2. 扩散模型

    • 生成质量高
    • 训练稳定
    • 易于控制
  3. GAN架构

    • 生成细节丰富
    • 训练相对困难
    • 适合特定领域
  4. VAE架构

    • 良好的潜空间表示
    • 可控生成
    • 重建质量保证

这些模型架构经常会组合使用,以发挥各自优势。比如Stable Diffusion就结合了:

  • 扩散模型做生成
  • CLIP做文本理解
  • VAE做图像压缩
  • Transformer处理文本和潜空间

常见视觉模型

核心模型架构在视频和图像领域的应用。

classDiagram
    class 视觉模型架构 {
        +图像处理()
        +视频处理()
    }

    class Diffusion模型 {
        +图像生成
        +视频生成
        +图像编辑
        +超分辨率
        +图像修复
        +视频修复
    }

    class CLIP模型 {
        +图文对齐
        +零样本分类
        +图像检索
        +视频检索
        +跨模态理解
        +by 361way.com
    }

    class DIT模型 {
        +视觉特征提取
        +图像分类
        +目标检测
        +图像分割
        +视觉理解
    }

    class CNN模型 {
        +图像分类
        +目标检测
        +图像分割
        +人脸识别
        +视频帧分析
    }

    class GAN模型 {
        +图像生成
        +风格迁移
        +图像超分辨率
        +视频帧插值
        +图像编辑
    }

    class 图像应用 {
        +图像生成
        +图像编辑
        +图像增强
        +图像理解
        +图像分析
    }

    class 视频应用 {
        +视频生成
        +视频编辑
        +视频增强
        +视频理解
        +视频分析
    }

    视觉模型架构 <|-- Diffusion模型
    视觉模型架构 <|-- CLIP模型
    视觉模型架构 <|-- DIT模型
    视觉模型架构 <|-- CNN模型
    视觉模型架构 <|-- GAN模型

    Diffusion模型 ..> 图像应用
    Diffusion模型 ..> 视频应用
    CLIP模型 ..> 图像应用
    CLIP模型 ..> 视频应用
    DIT模型 ..> 图像应用
    DIT模型 ..> 视频应用
    CNN模型 ..> 图像应用
    CNN模型 ..> 视频应用
    GAN模型 ..> 图像应用
    GAN模型 ..> 视频应用

这些模型架构各有特点和优势:

  1. Diffusion模型

    • 目前最主流的生成模型架构
    • 在图像生成质量上表现优异
    • 支持图像编辑、超分辨率等多种任务
    • 已扩展到视频生成领域
  2. CLIP模型

    • 擅长图文对齐和跨模态理解
    • 为多个生成模型提供语义理解能力
    • 支持零样本分类和检索任务
    • 广泛应用于图文搜索系统
  3. DIT(Vision Transformer)模型

    • 基于Transformer架构的视觉模型
    • 在各种视觉任务上表现优异
    • 具有强大的特征提取能力
    • 可扩展性好,适合大规模预训练
  4. CNN模型

    • 计算机视觉的经典架构
    • 在图像分类、检测等任务上表现稳定
    • 计算效率高,应用广泛
    • 为许多视觉系统的基础架构
  5. GAN模型

    • 生成对抗网络架构
    • 在图像生成和编辑领域有重要应用
    • 特别擅长风格迁移任务
    • 在超分辨率等领域有良好表现

这些模型架构经常会组合使用,比如:

  • Stable Diffusion结合了Diffusion和CLIP
  • 现代视觉系统常常综合使用CNN和Transformer
  • 很多应用会将GAN和Diffusion的优势结合

捐赠本站(Donate)

weixin_pay
如您感觉文章有用,可扫码捐赠本站!(If the article useful, you can scan the QR code to donate))