常见模型分类
模型归类
多模态生成领域的主要模型
mindmap
root((多模态生成模型
361way.com))
(文本生成文本)
[大语言模型]
(GPT系列)
GPT-4
GPT-3.5
GPT-3
(Claude系列)
Claude 3
Claude 2
(LLaMA系列)
LLaMA 2
LLaMA
(国产模型)
文心一言
通义千问
星火大模型
(文本生成图像)
[扩散模型]
(Stable Diffusion系列)
SDXL
SD2.1
SD1.5
(DALLE系列)
DALLE-3
DALLE-2
(Midjourney系列)
MJ V6
MJ V5
[其他架构]
(Imagen)
(Parti)
(文本生成视频)
[扩散模型]
(Stable Video Diffusion)
(Gen-2)
(Pika Labs)
[其他架构]
(Runway Gen-1)
(Meta Make-A-Video)
(Google Imagen Video)
(图像生成图像)
[图像编辑]
(ControlNet)
(InstructPix2Pix)
(DALL·E 3编辑)
[图像变体]
(SD的img2img)
(MJ变体功能)
(DALL·E变体)
(图像生成视频)
[视频生成]
(AnimateDiff)
(SVD)
(EmotiVideo)
[动画生成]
(ModelScope)
(D-ID)
(HeyGen)
(文本生成音乐)
[音乐生成]
(MusicGen)
(AudioCraft)
(Stable Audio)
[声音克隆]
(RVC)
(So-VITS-SVC)
(VALL-E)
该思维导图展示了主要的多模态生成模型,按照不同的生成任务进行分类。主要包括以下几个方面:
-
文本生成文本 (Text-to-Text)
- 主要是各种大语言模型
- 包括商业闭源和开源模型
-
文本生成图像 (Text-to-Image)
- 主要以扩散模型为主
- 包括主流的 SD、DALLE、Midjourney 等
-
文本生成视频 (Text-to-Video)
- 新兴领域,多基于扩散模型
- 包括 Stable Video Diffusion、Pika 等
-
图像生成图像 (Image-to-Image)
- 包括图像编辑和变体生成
- ControlNet 等控制技术
-
图像生成视频 (Image-to-Video)
- 包括静态图片动画化
- 人像动画等特定应用
-
文本生成音乐 (Text-to-Music/Audio)
- 音乐生成模型
- 语音克隆技术
场景与模型
不同生成场景下使用的核心模型架构。
classDiagram
class 生成场景 {
+文生文()
+文生图()
+文生视频()
+图生图()
+图生视频()
+文生音乐()
}
class 文生文模型 {
+Transformer架构
+自注意力机制
+Decoder-only
+Encoder-Decoder
+by 361way.com
}
class 文生图模型 {
+扩散模型
+Transformer架构
+CLIP模型
+VAE模型
+自回归模型
}
class 文生视频模型 {
+扩散模型
+Transformer架构
+时序建模
+运动预测
+帧插值模型
}
class 图生图模型 {
+扩散模型
+GAN架构
+VAE模型
+CNN架构
+Transformer架构
}
class 图生视频模型 {
+扩散模型
+GAN架构
+运动估计
+时序预测
+帧插值网络
}
class 文生音乐模型 {
+Transformer架构
+扩散模型
+GAN架构
+VAE模型
+自回归模型
}
class 核心技术 {
+注意力机制
+扩散过程
+对抗学习
+变分推断
+自回归生成
}
生成场景 <|-- 文生文模型
生成场景 <|-- 文生图模型
生成场景 <|-- 文生视频模型
生成场景 <|-- 图生图模型
生成场景 <|-- 图生视频模型
生成场景 <|-- 文生音乐模型
核心技术 --> 文生文模型
核心技术 --> 文生图模型
核心技术 --> 文生视频模型
核心技术 --> 图生图模型
核心技术 --> 图生视频模型
核心技术 --> 文生音乐模型
各个生成场景使用的主要模型架构:
-
文生文 (Text-to-Text)
- 主要模型架构:
- Transformer (最主流)
- 自注意力机制
- Decoder-only (如GPT系列)
- Encoder-Decoder (如T5)
- 典型应用:
- 语言模型
- 机器翻译
- 文本摘要
- 主要模型架构:
-
文生图 (Text-to-Image)
- 主要模型架构:
- 扩散模型 (Stable Diffusion)
- CLIP做文本理解
- VAE做图像编码解码
- Transformer处理文本和潜空间
- 典型应用:
- Stable Diffusion
- DALL·E
- Midjourney
- 主要模型架构:
-
文生视频 (Text-to-Video)
- 主要模型架构:
- 扩散模型基础
- 时序建模组件
- 运动预测网络
- Transformer处理长序列
- 典型应用:
- Stable Video Diffusion
- Gen-2
- Runway Gen-1
- 主要模型架构:
-
图生图 (Image-to-Image)
- 主要模型架构:
- 扩散模型
- GAN
- VAE
- CNN
- 典型应用:
- ControlNet
- Pix2Pix
- Style Transfer
- 主要模型架构:
-
图生视频 (Image-to-Video)
- 主要模型架构:
- 扩散模型
- 运动估计网络
- 时序预测模型
- 帧插值网络
- 典型应用:
- AnimateDiff
- D-ID
- HeyGen
- 主要模型架构:
-
文生音乐 (Text-to-Music)
- 主要模型架构:
- Transformer
- 扩散模型
- GAN
- VAE
- 自回归模型
- 典型应用:
- MusicGen
- AudioCraft
- VALL-E
- 主要模型架构:
核心技术特点:
-
Transformer架构
- 强大的序列建模能力
- 适用于多种模态
- 可扩展性好
-
扩散模型
- 生成质量高
- 训练稳定
- 易于控制
-
GAN架构
- 生成细节丰富
- 训练相对困难
- 适合特定领域
-
VAE架构
- 良好的潜空间表示
- 可控生成
- 重建质量保证
这些模型架构经常会组合使用,以发挥各自优势。比如Stable Diffusion就结合了:
- 扩散模型做生成
- CLIP做文本理解
- VAE做图像压缩
- Transformer处理文本和潜空间
常见视觉模型
核心模型架构在视频和图像领域的应用。
classDiagram
class 视觉模型架构 {
+图像处理()
+视频处理()
}
class Diffusion模型 {
+图像生成
+视频生成
+图像编辑
+超分辨率
+图像修复
+视频修复
}
class CLIP模型 {
+图文对齐
+零样本分类
+图像检索
+视频检索
+跨模态理解
+by 361way.com
}
class DIT模型 {
+视觉特征提取
+图像分类
+目标检测
+图像分割
+视觉理解
}
class CNN模型 {
+图像分类
+目标检测
+图像分割
+人脸识别
+视频帧分析
}
class GAN模型 {
+图像生成
+风格迁移
+图像超分辨率
+视频帧插值
+图像编辑
}
class 图像应用 {
+图像生成
+图像编辑
+图像增强
+图像理解
+图像分析
}
class 视频应用 {
+视频生成
+视频编辑
+视频增强
+视频理解
+视频分析
}
视觉模型架构 <|-- Diffusion模型
视觉模型架构 <|-- CLIP模型
视觉模型架构 <|-- DIT模型
视觉模型架构 <|-- CNN模型
视觉模型架构 <|-- GAN模型
Diffusion模型 ..> 图像应用
Diffusion模型 ..> 视频应用
CLIP模型 ..> 图像应用
CLIP模型 ..> 视频应用
DIT模型 ..> 图像应用
DIT模型 ..> 视频应用
CNN模型 ..> 图像应用
CNN模型 ..> 视频应用
GAN模型 ..> 图像应用
GAN模型 ..> 视频应用
这些模型架构各有特点和优势:
-
Diffusion模型
- 目前最主流的生成模型架构
- 在图像生成质量上表现优异
- 支持图像编辑、超分辨率等多种任务
- 已扩展到视频生成领域
-
CLIP模型
- 擅长图文对齐和跨模态理解
- 为多个生成模型提供语义理解能力
- 支持零样本分类和检索任务
- 广泛应用于图文搜索系统
-
DIT(Vision Transformer)模型
- 基于Transformer架构的视觉模型
- 在各种视觉任务上表现优异
- 具有强大的特征提取能力
- 可扩展性好,适合大规模预训练
-
CNN模型
- 计算机视觉的经典架构
- 在图像分类、检测等任务上表现稳定
- 计算效率高,应用广泛
- 为许多视觉系统的基础架构
-
GAN模型
- 生成对抗网络架构
- 在图像生成和编辑领域有重要应用
- 特别擅长风格迁移任务
- 在超分辨率等领域有良好表现
这些模型架构经常会组合使用,比如:
- Stable Diffusion结合了Diffusion和CLIP
- 现代视觉系统常常综合使用CNN和Transformer
- 很多应用会将GAN和Diffusion的优势结合
捐赠本站(Donate)
如您感觉文章有用,可扫码捐赠本站!(If the article useful, you can scan the QR code to donate))