业界良知OpenAI开源的Whisper模型[1]是开源语音转文字范畴的执牛耳者,白璧微瑕之处在于无法经过苹果M芯片优化转录功率,Whisper.cpp 则是 Whisper 模型的 C/C++ 移植版别,它具有无依靠项、内存运用量低一级特色,重要的是添加了 Core ML 支撑,完美适配苹果M系列芯片。
Whisper.cpp的张量运算符针对苹果M芯片的 CPU 进行了很多优化,依据核算巨细,运用 Arm Neon SIMD instrisics 或 CBLAS Accelerate 结构例程,后者关于更大的尺度特别有用,由于 Accelerate 结构能够正常的运用苹果M系列芯片中供给的专用 AMX 协处理器。
项目默许的根底模型不支撑中文,这儿引荐运用medium模型,经过shell脚本进行下载:
下载完成后,会在项目的models目录保存ggml-medium.bin模型文件,巨细为1.53GB:
这行指令的意义是经过方才下载ggml-medium.bin模型来对项目中的samples/jfk.wav语音文件进行辨认,这段语音是遇刺的美国总统肯尼迪的闻名讲演,程序回来:
现在咱们来换成中文语音,能够随意录制一段语音,必需要分外留意的是,Whisper.cpp只支撑wav格局的语音文件,这儿先经过ffmpeg将mp3文件转换为wav:
当然,精确度还有待进步,进步精确度能够再一次进行挑选large模型,但转录时刻会相应添加。
根据苹果Mac体系的用户有福了,Whisper.cpp能够终究靠Core ML在Apple Neural Engine (ANE)上履行编码器推理,这能够比仅运用CPU履行快出三倍以上。
Whisper.cpp是Whisper[2]的精力复刻与肉体重生,完美秉承了Whisper的一切功用,在此之上,进步了语音转录文字的速度和功率以及跨渠道移植性,百尺竿头更进一步,开源技能的快速地开展让咱们理解了一件事,那就是高品质技能的传达远比技能自身愈加名贵。