开源的语音识别和翻译转文本转字幕神器-Mac电脑本地部署Whisper
- 2024-05-23 20:38:00
- pjd
- 原创 179
开源地址: https://github.com/openai/whisper
视频教学链接: 【MACOS本地部署whisper ai, 一键生成中英文视频字幕】
OpenAI Whisper是Whisper 是一种通用语音识别模型。 它是在各种音频的大型数据集上进行训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别.这款模型的开源使得研究人员、开发者和企业可以使用它来构建各种语音应用,如语音助手、转录服务或自动化工具等。
Transformer 序列到序列模型针对各种语音处理任务进行训练,包括多语言语音识别、语音翻译、口语识别和语音活动检测。 这些任务联合表示为由解码器预测的标记序列,允许单个模型取代传统语音处理管道的许多阶段。 多任务训练格式使用一组特殊标记作为任务说明符或分类目标。
一、本地安装
1、安装homebrew
2、安装python
3、安装pytorch
4、安装ffmpeg
# on Ubuntu or Debian sudo apt update && sudo apt install ffmpeg # on Arch Linux sudo pacman -S ffmpeg # on MacOS using Homebrew (https://brew.sh/) brew install ffmpeg # on Windows using Chocolatey (https://chocolatey.org/) choco install ffmpeg # on Windows using Scoop (https://scoop.sh/) scoop install ffmpeg
5、安装whisper
pip install -U openai-whisper
以下命令将使用以下命令转录音频文件中的语音 medium 模型:
whisper audio.flac audio.mp3 audio.wav --model medium
默认设置(选择 small 模型)非常适合转录英语。 要转录包含非英语语音的音频文件,您可以使用 --language 选项:
whisper japanese.wav --language Japanese
添加 --task translate 将把演讲翻译成英语:
whisper japanese.wav --language Japanese --task translate
运行以下命令查看所有可用选项:
whisper --help