跳转至

AIGC应用分类介绍

AIGC(AI Generated Content),即人工智能生成内容,是指利用人工智能技术自动生成文本、图像、音频、视频等内容的技术和应用。AIGC技术近年来发展迅速,已在多个领域得到应用,并取得了显著成果。

AIGC技术分类

AIGC技术可以根据生成内容的类型进行分类,主要包括以下几类:

  • 文本生成:利用AIGC技术可以自动生成文本内容,如新闻、文章、诗歌、剧本等。
  • 图像生成:利用AIGC技术可以自动生成图像内容,如照片、绘画、设计图等。
  • 音频生成:利用AIGC技术可以自动生成音频内容,如音乐、配音、音效等。
  • 视频生成:利用AIGC技术可以自动生成视频内容,如电影、短视频、直播等。
  • 多模态生成:利用AIGC技术可以生成包含多种模态的内容,如文本、图像、音频、视频等。

Hugging Face

HuggingFace 起初是一家总部位于纽约的聊天机器人初创服务商,他们本来打算创业做聊天机器人,然后在github上开源了一个Transformers库,虽然聊天机器人业务没搞起来,但是他们的这个库在机器学习社区迅速大火起来。目前已经共享了超100,000个预训练模型,10,000个数据集,变成了机器学习界的github。

HuggingFace网站目前主要提供的内容有:

  • Models:各个预训练模型
  • Datasets:数据集,以及数据集的下载地址
  • Spaces:可以在线运行模型的空间
  • Docs:文档

官网: https://huggingface.co/

文本生成

SuperCLUE总排行榜

海外

  1. ChatGPT (演示)
  2. Bard(Gemini) (演示)
  3. Grok
  4. claude
  5. Meta

国内

  1. 百度文心一言 (演示)
  2. 阿里巴巴通义千问
  3. 腾讯云智语
  4. 华为昇腾云问天
  5. 华为盘古大模型
  6. 字节跳动万象大模型
  7. 商汤智子

开源

  1. Meta Llama
  2. 微软Phi模型 (演示)
  3. grok
  4. Mistral (混合开源商业模式,小模型开源吸引用户并建立社区,同时提供优化和定制的商业版本以获取收益)
  5. Gemma

Alpaca (Stanford)

斯坦福Alpaca:一种指令遵从型 LLaMA 模型。Stanford Alpaca(斯坦福 Alpaca)是一个指令调优的 LLaMA 模型,从 Meta 的大语言模型 LLaMA 7B 微调而来。Stanford Alpaca 让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循(instruction-following)样本,以此作为 Alpaca 的训练数据。研究团队已将训练数据、生成训练数据的代码和超参数开源,后续还将发布模型权重和训练代码。

官网: https://crfm.stanford.edu/2023/03/13/alpaca.html

源码: https://github.com/tatsu-lab/stanford_alpaca

BLOOM (BigScience)

BLOOM (BigScience)模型具有 1760 亿个参数,由人工智能初创公司 Hugging Face Inc.(最近融资了 1 亿美元)与法国研究机构 CNRS 和 GENCI 合作,他们共同成立了一个名为 BigScience 的研究小组来领导 Bloom 的开发。该项目汇集了 70 多个国家 / 地区、250 多个机构、1000 多名研究人员参与开发。

Bloom 目前支持 46 种语言(包括中文)和 13 种编程语言,可以用来回答问题、翻译文本、从文件中提取信息片段,还能像 GitHub Copilot 一样用于生成代码。

官网: https://huggingface.co/bigscience/bloom

源码: https://huggingface.co/bigscience/bloom

OpenFlamingo

OpenFlamingo 的核心是一个支持大型多模态模型 (LMM) 训练和评估的框架,DeepMind 的 Flamingo 模型的开源复制品。

主要包含如下内容:

  • 一个用于训练 Flamingo 风格 LMM 的 Python 框架(基于 Lucidrains 的 flamingo 实现和 David Hansmair 的 flamingo-mini 存储库)。
  • 具有交错图像和文本序列的大规模多模态数据集。
  • 视觉语言任务的上下文学习评估基准。

官网: https://github.com/mlfoundations/open_flamingo

源码: https://github.com/mlfoundations/open_flamingo

GLM-130B

GLM-130B是一个开放的双语(英汉)双向密集模型,拥有1300亿个参数,使用通用语言模型(GLM)的算法进行预训练。 它旨在在单台A100(40G 8)或V100(32G 8)服务器上用具有130B参数模型进行推理任务。 通过 INT4 量化,硬件要求可以进一步降低到具有 4 * RTX 3090(24G)的单个服务器,而性能几乎没有下降。 截至 2022 年 7 月 3 日,GLM-130B 已经接受了超过 4000 亿个文本标记的训练(中文和英文各 200B)。

官网: https://github.com/THUDM/GLM-130B

源码: https://github.com/THUDM/GLM-130B

ChatGLM-6B

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

官网: https://chatglm.cn/

源码: https://github.com/THUDM/ChatGLM-6B

GPT-J (EleutherAI)

GPT-J 是 EleutherAI 开发的开源人工智能语言模型。GPT-J 在各种零样本下游任务上的表现与 OpenAI 的 GPT-3 非常相似,甚至在代码生成任务上的表现优于它。

最新版本 GPT-J-6B 是一种基于名为 The Pile 的数据集的语言模型。The Pile 是一个开源的 825 GB 语言建模数据集,分为 22 个较小的数据集。GPT-J 在能力上与 ChatGPT 类似,虽然它不具有聊天机器人的功能,仅作为文本预测器。

官网: https://huggingface.co/EleutherAI/gpt-j-6b/tree/main

源码: https://github.com/kingoflolz/mesh-transformer-jax/#gpt-j-6b

Dolly (Databricks)

Dolly 是一个低成本的 LLM,Dolly 采用 EleutherAI 现有的 60 亿参数的开源模型,并对其进行细微的修改,以激发指令跟随能力。

Dolly 1.0 使用了斯坦福大学 Alpaca 团队使用 OpenAI API 创建的数据集进行训练;该数据集包含 ChatGPT 的输出,而其服务条款试图阻止任何人创建与 OpenAI 竞争的模型。因此,Dolly 1.0 并不能用于商业用途。且据已知信息,目前所有现有的知名指令跟随模型 (Alpaca, Koala, GPT4All, Vicuna) 都受到此限制,禁止商业使用。为了解决这个难题,Databricks 于是决定创建一个没有商业用途限制的新数据集。

Dolly 2.0 是一个基于 EleutherAI pythia 模型系列的 12B 参数语言模型,并在透明且免费提供的数据集上进行了微调;该数据集称为 databricks-dolly-15k,也已开源发布。Databricks 表示,他们正在开源整个 Dolly 2.0,包括训练代码、数据集和模型权重,所有这些都适合商业使用。这意味着任何组织都可以创建、拥有和定制强大的 LLM,这些 LLM 可以与人们交谈,而无需支付 API 访问费用或与第三方共享数据。

官网: https://www.databricks.com/blog/2023/03/24/hello-dolly-democratizing-magic-chatgpt-open-models.html

源码: https://huggingface.co/databricks

Cerebras-GPT (Cerebras)

Cerebras GPT 是由 Cerebras 公司开源的自然语言处理领域的预训练大模型,其模型参数规模最小 1.11 亿,最大 130 亿,共 7 个模型。

与业界的模型相比,Cerebras-GPT 几乎是各个方面完全公开,没有任何限制。不管是模型架构,还是预训练结果都是公开的。

官网: https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/

源码: https://huggingface.co/cerebras

HuggingGPT

HuggingGPT由领先的人工智能(AI)技术提供商Hugging Face推出。该模型承诺将所有不同的大型语言模型和机器学习模型集成到由AI控制的一个巨大的工具集中,使人类更接近于实现人工通用智能(AGI)的目标。

Hugging GPT充当中央大脑,拥有大量的大型语言模型和机器学习模型工具集,可用于用户的不同任务。例如,如果用户想要总结一份PDF文件,Hugging GPT将需要从PDF中提取数据、图像和文本,这可能是一个多步骤的过程。Hugging GPT将完成所有这些步骤,并将预期的结果返回给用户,使用户的工作流程更简单。

Hugging Face已经集成了数百个模型,涵盖了24个任务,如文本分类、物体检测、语义分割、图像生成、问答、文本到语音和文本到视频等。Hugging GPT使用大型语言模型作为接口,将用户请求路由到专家模型。Hugging GPT不仅限于视觉异常任务,还可以处理任何模态或领域的任务。Hugging GPT采用更开放和连续的方法,根据模型描述分配和组织任务。这种方法非常棒,因为它允许Hugging Face中的Chachi PT(Hugging GPT的大脑)根据人们在Hugging Face中对其模型的描述来决定使用哪个模型来执行哪个任务。

官网: https://huggingface.co/spaces/microsoft/HuggingGPT

源码: https://github.com/microsoft/JARVIS

baichuan-7B

baichuan-7B 是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约1.2万亿 tokens 上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威 benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。

官网: https://huggingface.co/baichuan-inc/baichuan-7B

源码: https://github.com/baichuan-inc/baichuan-7B

AIGC图片生成模型库

C站(Civitai)

CivitAI(也被称为C站)是一个专注Stable Diffusion的AIGC图片生成社区,用户可以上传和分享他们用自己的数据训练的自定义模型,或者浏览和下载其他用户创建的模型。 这些模型可以和AI艺术软件一起使用,生成独特的艺术作品。C站也是目前图像生成方面模型最丰富的网站之一。

官网: https://civitai.com/

百度飞桨

百度飞桨模型库,包含计算机视觉、自然语言处理、智能语音、文心大模型、科学计算、量子计算等任务方向算法,覆盖智慧金融、智慧安防、智慧工业/能源、智慧城市、智慧交通等多行业场景范例

官网: https://aistudio.baidu.com/aistudio/modelsoverview

LiblibAI•哩布哩布AI

LiblibAI是由南京仓颉文化创意有限公司提供的AI绘画探索网站。LiblibAI致力于激发原创AI模型、素材的创作,在这里,该网站提供最新、最热门的模型素材。

官网: https://www.liblibai.com

AIGC音频生成模型

AudioGPT

AudioGPT 是一个借助大语言模型 (LLM) 处理音频的工具。AudioGPT 在收到用户请求时使用 ChatGPT 进行任务分析,根据语音基础模型中可用的功能描述选择模型,用选定的语音基础模型执行用户指令,并根据执行结果汇总响应。借助 ChatGPT 强大的语言能力和众多的语音基础模型,AudioGPT 能够完成几乎所有语音领域的任务。

源码: https://github.com/AIGC-Audio/AudioGPT

Tacotron2

Tacotron2是在对WaveNet和Tacotron结合的基础上,由声谱预测网络和声码器构成的端到端语音合成模型。其中,序列到序列的预测网络将文本特征提取输入模型,将预测值叠加到梅尔频谱上,声码器根据预测的序列生成时域波形。

Tacotron2引入注意力机制替换传统语音合成的时长模型,通过神经网络提取结构特征,学习文本和声学特征之间的对应关系。Tacotron2的优点是通过对注意力机制的改进优化了梯度消失问题,语音生成的音质较好,并且对输入的文本数据具有较好的鲁棒性。但缺点是使用RNN结构的自回归模型的合成速度慢,对复杂单词的发音困难,生成的语音缺乏感情色彩,并且对于大数据集的训练时间和成本较高,模型缺乏可控性。

源码: https://github.com/NVIDIA/tacotron2

Transformer-TTS

Transformer-TTS是将Transformer结构进行结合应用到TTS系统中的端到端语音生成模型。具体而言,Transformer-TTS通过引入多头注意力机制构造编码器-解码器结构来提高训练效率,使用音素序列作为输入生成梅尔频谱,并通过WaveNet声码器输出波形。

Transformer结构的语音模型能够加快训练速度,解决了Tacotron2中存在的训练速度低下和难以建立长依赖性模型的问题,Transformer基于对语义和关系的理解,也使声音合成的效果更自然。但自回归模型仍然存在推理较慢和自回归误差累积带来的模型偏差的问题。

源码: https://github.com/as-ideas/TransformerTTS

Whisper(OpenAI)

Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。OpenAI 开放模型和推理代码,希望开发者可以将 Whisper 作为建立有用的应用程序和进一步研究语音处理技术的基础。

源码: https://github.com/openai/whisper

WavLM

微软亚洲研究院与微软 Azure 语音组的研究员们在判别式自监督预训练方法的基础上,沿用研究院自然语言计算组在自然语言预训练的 Transformer 模型架构,提出了全新的 Denoising Masked Speech Modeling 框架。通过94,000小时的英语语音进行预训练,通用语音预训练模型 WavLM 在 SUPERB 所有13项语音任务测评中超过先前所有模型,排名第一,并在其它4个不同的语音经典测评数据集上都取得了很好效果。

源码: https://github.com/microsoft/unilm/tree/master/wavlm

FastSpeech2

FastSpeech作为一个non-autogressive TTS模型已经取得了比auto-regressive模型如Tacotron更快的生成速度和类似的语音质量,但是FastSpeech仍然存在一些缺点,比如(1)使用一个auto-regressive的TTS模型作为teacher训练模型非常耗费时间;(2)使用知识蒸馏的方式来训练模型会导致信息损失,从而对合成出的语音的音质造成影响。

FastSpeech2对这些问题进行了改进,首先摒弃了知识蒸馏的teacher-student训练,采用了直接在ground-truth上训练的方式。其次在模型中引入了更多的可以控制语音的输入,其中既包括phoneme duration,也包括energy、pitch等新的量。实验结果证明FastSpeech2的训练速度比FastSpeech加快了3倍。在音质方面,FastSpeech2超过了之前auto-regressive模型。

源码: https://github.com/ming024/FastSpeech2

AIGC视频生成模型

CogVideo

CogVideo是第一个成功利用训练有素的文本-图像模型进行文本-视频生成而不影响其图像生成能力的模型,与现有模型相比,其成功生成的视频更加自然它代表了视频生成研究的一个新方向,因为与现有模型相比,它成功地生成了更自然的视频。

源码: https://github.com/THUDM/CogVideo

捐赠本站(Donate)

weixin_pay
如您感觉文章有用,可扫码捐赠本站!(If the article useful, you can scan the QR code to donate))