我曾經有寫過一篇關於「剪映辨識字幕」的教學文。但其實我很早就不再使用剪映來辨識字幕了,原因也很簡單:它變成收費軟體了。雖然剪輯軟體轉向收費是可以理解的趨勢,但我只需要「自動字幕轉錄」這一個功能,並不會用到其他剪輯功能,實在不太想為此付費。
既然不想花錢,那就得從免費的開源軟體著手,也就是本文要介紹的《WhisperDesktop》。這款桌面軟體是其他開發者基於 OpenAI 的《Whisper》語音辨識模型所開發的圖形化介面版本。完全免費,而且安裝後只需用滑鼠操作,不必懂程式碼,對一般使用者非常友善。

( 圖片來源 : ChatGPT 生成 )
WhisperDesktop 下載教學
如果你會使用 Python 跟命令提示字元來執行 OpenAI Whisper 模型,可至 OpenAI Whisper 的網站下載。
如果不會,可至上方下載網址下載 WhisperDesktop,點擊圖片中紅圈處即可進下載頁面。

下載這個 WhisperDesktop.zip,該軟體僅支援 64 位元的 Windows,版本必須是 Windows 8.1 或更高版本上運行。

下載模型
下載完應用程式之後,必須下載模型才能讓程式運行。點擊上方網址進行下載,就可以看到紅圈處有許多模型。
總共有五種模型,提供不同的運行速度與準確性
- Tiny(最快速,精度最低)
- Base
- Small
- Medium
- Large(最精準但最慢)

挑選好模型後,按下 download 進行下載,這邊我使用最大的模型 ggml-large-v3 為範例。
另外,這個作者也有提到,他主要是用這個 ml-medium.bin 模型測試軟體,你也可以直接參考他的方式來進行。

下載完之後,所有檔案約為 2.88GB,掃描也沒發現病毒。

WhisperDesktop 安裝與操作步驟
作者已經撰寫好一個 exe 檔,如此一來就能大幅地減少瑣碎的複雜執行過程。雙擊 WhisperDesktop.exe 即可運行該程式。

進入 WhisperDesktop 之後,會要求你載入一個模型,這邊點選紅圈處。

載入我們剛剛下載的模型,這邊先以 ggml-large-v3 為範例。
在 Advanced GPU Settings 選項裡,因為我 CPU 跟 GPU 非 AMD 硬體,所以你可以將細項改成跟我一樣的設定,顯卡則是用你目前電腦上的型號。

設定完成後按下 OK。

接著會跳到另一個介面,這個介面就準備來辨識文字了。
因為要辨識的影片大多都是講中文,所以在 Language 選項裡,選擇 Chinese。

再來準備好你要轉錄的影片或音檔,這邊我以微疼的鬼故事來當範例。

在 Transcribe File 選項中點選這個紅框處。
找到你要轉錄的影片或是音檔並開啟。

讀入完後,點開 Output Format 的下拉式選單,這邊有好幾個選項。如果只是要影片&音檔裡的文字內容,選擇 Text file 即可;如果要有時間軸的 CC 字幕,則是選擇 Subrip subtitles ( SRT )。

選擇完後,在此圖的紅圈處可以選擇要輸出字幕的位置。
隨便選個你喜歡的目錄放置即可,記得輸入檔案名稱。

全部設置好之後,點擊 Transcribe 就可以開始轉錄影片或音檔了。

底下會有條進度條,跑完表示轉錄成功。

模型實測:ggml-large-v3 vs v2 差異比較
剛也說過,越大的模型除了檔案較大外,它的精準度也會比較好,但花費時間會更長。微疼這部影片總長 21 分鐘,下圖是掛 ggml-large-v2 所花費的時間,用了 6 分 36 秒才搞定,當然時間這部分會取決你顯卡的算力而定。

ggml-large-v3 就更誇張了,耗時 1 小時 37 分,非常不建議用這模型搞自己,花費的時間太可怕了。

ggml-large-v3與v2轉錄結果
而且最好笑的是,ggml-large-v3 即便花了大量的時間轉錄,卻得到完全空白的資料 ( 右圖 )。而 ggml-large-v2 則是很安全的轉錄成功 ( 左圖 ),所以你的電腦如果還不錯的話,ggml-large-v2 是可以用的。

WhisperDesktop 字幕辨識效果與問題
來看看 WhisperDesktop 轉錄字幕的效果為何,其實整體的準確度大概有 95% 以上,甚至連英文都能輕鬆辨識,辨識的準確度是可以放心的。
雖然說辨識準確度很高,但是以 SRT 字幕來講,它卻是有點狀況的。以下圖來說,轉錄的 SRT 字幕並沒有很精準的在時間軸上,就需要使用者自己微調,這點剪映就比較厲害些。

再來,如果你的影片有一段時間沒有講話或是那邊呻吟,它會將後面辨識到的文字拉長,去填補前面字幕的空缺。也就是說,WhisperDesktop 轉錄的字幕基本上是沒有間隙的,遇到這情況你就必須花時間去調整字幕的位置。

字幕沒有間隙這問題對我來講是可以接受的,但 WhisperDesktop 最大的問題就是會出現這種全部相同字幕的情況。
會遇到這種狀況的主要原因就是,你轉錄的影片或音檔素材,裏頭有 1~3 分鐘無講話的片段 ( 或是純音樂 ),它就會給你上這種奇怪的詞或是重複最後一句話去填滿後續的詞,非常討厭。

如何修正重複字幕問題?
遇到這問題其實也不是沒有解,以 Premiere 為範例。首先你先將重複的字幕清空,接著從出錯誤的地方刪掉不必要的聲音,或是直接從下一句講話的地方設為首幀,尾幀則是拉到該素材範圍。

然後輸出成檔案較小的 MP3 檔再丟回到 WhisperDesktop 重新轉錄一次,如果遇到相同錯誤就再執行一次上述的方式。如此一來就能解決它轉錄錯誤的問題。
WhisperDesktop 使用心得
以使用 WhisperDesktop 到現在來講,除了上述的問題外,基本上它還是滿可靠的。在文字轉錄的成功率相當高,而且即便是中英混雜的素材,它也都能清楚地轉錄,這點就比剪映聰明許多。
但剪映還是有它方便的地方,像是它的 SRT 字幕時間軸就比較正確,也不會有像 WhisperDesktop 上述的奇怪錯誤。不過剪映很喜歡將口語的「啊」、「喔」…等給辨識進去,這點反倒是沒有 Whisper 聰明。
評論
歡迎一起點擊星號參與評論唷!
[註]文章內容由網站mikewudiary授權提供(原文連結)
敗家是天性 拍照是隨興 開箱是興趣 合作請→mikewu1204@gmail.com
- 電子郵件:mikewu1204@gmail.com
- 網站網址:https://mikewudiary.tw
- 投稿文章:72篇