OpenAI 又放大招了!这次不是什么神秘的 AI 模型,而是直接开源了他们的语音识别系统——Whisper。这意味着,以前只有大佬才能玩转的语音转文字技术,现在普通开发者也能轻松上手了!是不是有点小激动?
一、Whisper 项目介绍
Whisper 是一个通用的语音识别模型,由 OpenAI 精心打造。它经过海量、多样化的音频数据训练,身兼多职,不仅能进行多语种语音识别,还能进行语音翻译和语种识别。简单来说,有了 Whisper,你就能轻松搞定各种语音处理任务,再也不用为听不懂外语视频而烦恼了!
1. 模型架构
Whisper 采用的是 Transformer 序列到序列模型。它将多语种语音识别、语音翻译、语种识别和语音活动检测等多种语音处理任务整合到一个模型中进行联合训练。这种方式将传统的复杂语音处理流程简化为一个单一模型,效率大大提升。
上图展示了 Whisper 的大致工作原理,是不是感觉有点高大上?其实用起来很简单!
二、Whisper 的基本功能
Whisper 的功能非常强大,主要包括:
- 多语种语音识别: 支持多种语言的语音识别,让你轻松听懂世界的声音。
- 语音翻译: 将一种语言的语音翻译成另一种语言,跨语言交流不再是难题。
- 语种识别: 自动识别语音的语种,省去了手动设置的麻烦。
- 语音活动检测: 检测语音中的有效部分,过滤掉噪音和静音。
三、Whisper 的部署方式
部署 Whisper 也非常简单,只需要几个简单的步骤:
1. 环境准备
首先,你需要准备好以下环境:
- Python 3.8-3.11
- PyTorch (1.10.1 或更高版本)
- OpenAI 的 tiktoken
- ffmpeg (用于音频处理)
2. 安装 Whisper
使用 pip 命令即可轻松安装 Whisper:
pip install -U openai-whisper或者,直接从 GitHub 仓库安装:
pip install git+https://github.com/openai/whisper.git如果想更新到最新版本,可以使用以下命令:
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git3. 安装 ffmpeg
ffmpeg 是一个强大的音视频处理工具,Whisper 需要它来处理音频文件。具体的安装方法可以参考 Whisper 的官方文档,这里就不赘述了。
4. 安装 Rust (可选)
如果 tiktoken 没有为你提供预构建的 wheel,可能需要安装 Rust。具体的安装方法也可以参考 Whisper 的官方文档。
四、Whisper 的使用方式
Whisper 的使用方式非常灵活,既可以通过命令行使用,也可以在 Python 代码中使用。
1. 命令行使用
使用命令行转录音频非常简单:
whisper audio.flac audio.mp3 audio.wav --model turbo指定语言:
whisper japanese.wav --language Japanese翻译成英语:
whisper japanese.wav --language Japanese --task translate查看所有选项:
whisper --help2. Python 代码中使用
在 Python 代码中使用 Whisper 也很方便:
import whispermodel = whisper.load_model("turbo")result = model.transcribe("audio.mp3")print(result["text"])3. 模型选择
Whisper 提供了多种模型尺寸,包括 tiny, base, small, medium, large 和 turbo。不同的模型在速度和准确率之间有所权衡。
Size
| Parameters
| English-only model
| Multilingual model
| Required VRAM
| Relative speed
| tiny
| 39 M
| tiny.en
| tiny
| ~1 GB
| ~10x
| base
| 74 M
| base.en
| base
| ~1 GB
| ~7x
| small
| 244 M
| small.en
| small
| ~2 GB
| ~4x
| medium
| 769 M
| medium.en
| medium
| ~5 GB
| ~2x
| large
| 1550 M
| N/A
| large
| ~10 GB
| 1x
| turbo
| 809 M
| N/A
| turbo
| ~6 GB
| ~8x
|
一般来说,.en 模型在英语语音识别方面表现更好。turbo 是 large-v3 的优化版本,速度更快。
4. 性能表现
Whisper 在不同语言上的表现有所差异。
总的来说,Whisper 是一个非常强大的语音识别工具,无论是开发者还是普通用户,都可以从中受益。快来试试吧! |