【场景应用2】speech_recognition: 微调语音模型
本笔记演示如何对多语言预训练语音模型进行微调,以用于自动语音识别任务。
本笔记设计用于在 TIMIT 数据集上运行,支持使用 Model Hub 中任何带有 Connectionist Temporal Classification (CTC) 头的语音模型检查点。根据所选模型和使用的 GPU 配置,可能需要调整 batch size 以避免内存溢出错误。设置这两个参数后,笔记其余部分应能顺利运行:
model_checkpoint = "facebook/wav2vec2-base" # 指定Model Hub中的预训练模型检查点(facebook的wav2vec2-base模型)
batch_size = 32 # 设置批处理大小(根据GPU显存调整,避免OOM内存溢出错误)
在开始之前,我们需要安装最新版的datasets和transformers库。此外,还需安装librosa包用于加载音频文件