跳转至

OpenAI Whisper使用

OpenAI Whisper 简介

Whisper 是一款由 OpenAI 开发的大型语言模型,用于自动语音识别 (ASR) 和语音翻译。它于 2022 年 9 月首次发布,并迅速成为最先进的 ASR (automatic speech recognition)模型之一。Whisper 的工作原理是将音频信号编码为文本表示,然后使用解码器将文本表示解码为文本。该模型使用 Transformer 架构,这是一种用于自然语言处理的强大神经网络架构。

Whisper 在 680,000 小时的多语言和多任务监督数据上进行训练,使其能够转录英语和其他多种语言的语音,并将多种非英语语言翻译成英语。与以前的方法相比,Whisper 在识别口音、背景噪音和行话方面具有显着优势。

Whisper 的主要功能

whisper architecture

  • 语音识别: 将语音转换为文本。Whisper 可以识别多种语言,包括英语、法语、西班牙语、德语、中文等。
  • 语音翻译: 将一种语言的语音翻译成另一种语言。Whisper 可以翻译多种语言组合,包括英语与其他语言之间的互译。
  • 字幕生成: 为视频生成自动字幕。Whisper 可以自动生成视频的字幕,并支持多种语言。

注意:whisper是不支持TTS的,TTS需要通过其他开源项目实现。

Whisper 还可以用于其他任务,例如:

  • 会议记录: 自动记录会议内容。
  • 问答: 从音频中提取答案。
  • 内容创作: 生成基于语音的文本内容。

Whisper的使用

openai whisper 可以通过 Python 语言调用,也可以直接在命令行下运行,不过在此之前需要先安装ffmpeg,因为需要该软件对音频文件进行截断分割,这个在OpenAI页面上有说明,其会split成30秒的多个块。

Install ffmpeg on centos

由于我没有使用文档中提到的 Ubuntu 、Arch 、Windows 等系统,我使用的centos,centos下安装ffmpeg的操作命令如下:

1
2
3
yum install epel-release
yum localinstall --nogpgcheck https://download1.rpmfusion.org/free/el/rpmfusion-free-release-7.noarch.rpm
yum install ffmpeg ffmpeg-devel

安装whisper库

1
pip install git+https://github.com/openai/whisper.git 

可用的模型有以下5种,不过前四种都是只支持英文的,只有large模型是支持多语言的。

Size Parameters English-only model Multilingual model Required VRAM Relative speed
tiny 39 M tiny.en tiny ~1 GB ~32x
base 74 M base.en base ~1 GB ~16x
small 244 M small.en small ~2 GB ~6x
medium 769 M medium.en medium ~5 GB ~2x
large 1550 M N/A large ~10 GB 1x

音频文件测试

这里使用python语言调用,结果如下:

1
2
3
4
5
import whisper

model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

运行结果如下:

python whisper

当然也可以直接通过命令行的方式运行,运行结果如下:

openai whisper

Whisper 的优势

Whisper 的主要优势包括:

  • 准确性高: Whisper 的语音识别准确率在业界领先。
  • 支持多种语言: Whisper 可以识别和翻译多种语言。
  • 鲁棒性强: Whisper 能够处理各种口音、背景噪音和专业术语。
  • 易于使用: Whisper 提供了易于使用的 API 和命令行工具。

注:鲁棒性是robustness的音译,,指事物可以抵御外部应力和影响并维持原有状态的自身性质,与汉语中的“稳健性”或“坚韧性”同义。是指一个计算机系统在执行过程中处理错误,以及算法在遭遇输入、运算等异常时维持正常运行的能力。

以下是一些有关 Whisper 的额外信息:

其他

Whisper 目前已经开源,支持本地部署免费使用。它有两个衍生项目 Buzz(GUI 版 whisper)和 Whisper-webui(WebUI 版 whisper),这两款工具拥有便捷的用户操作界面,所以比本体更适合普通用户使用。

  • Buzz 的 Github 主页: https://github.com/chidiwilliams/buzz
  • Whisper-webui 项目地址: https://huggingface.co/spaces/aadnk/whisper-webui

捐赠本站(Donate)

weixin_pay
如您感觉文章有用,可扫码捐赠本站!(If the article useful, you can scan the QR code to donate))