WhisperDesktop 轉錄文字教學｜取代剪映辨識字幕的免費開源方案 (支援繁中) @嘿!部落!

我曾經有寫過一篇關於「剪映辨識字幕」的教學文。但其實我很早就不再使用剪映來辨識字幕了，原因也很簡單：它變成收費軟體了。雖然剪輯軟體轉向收費是可以理解的趨勢，但我只需要「自動字幕轉錄」這一個功能，並不會用到其他剪輯功能，實在不太想為此付費。

既然不想花錢，那就得從免費的開源軟體著手，也就是本文要介紹的《WhisperDesktop》。這款桌面軟體是其他開發者基於 OpenAI 的《Whisper》語音辨識模型所開發的圖形化介面版本。完全免費，而且安裝後只需用滑鼠操作，不必懂程式碼，對一般使用者非常友善。

( 圖片來源 : ChatGPT 生成 )

章節快速瀏覽

WhisperDesktop 下載教學

下載模型

WhisperDesktop 安裝與操作步驟
模型實測：ggml-large-v3 vs v2 差異比較

ggml-large-v3與v2轉錄結果

WhisperDesktop 字幕辨識效果與問題

如何修正重複字幕問題？

WhisperDesktop 使用心得

索引目錄

WhisperDesktop 下載教學
WhisperDesktop 安裝與操作步驟
模型實測：ggml-large-v3 vs v2 差異比較
WhisperDesktop 字幕辨識效果與問題
WhisperDesktop 使用心得

WhisperDesktop 下載教學

下載網址

如果你會使用 Python 跟命令提示字元來執行 OpenAI Whisper 模型，可至 OpenAI Whisper 的網站下載。

如果不會，可至上方下載網址下載 WhisperDesktop，點擊圖片中紅圈處即可進下載頁面。
WhisperDesktop 下載教學

下載這個 WhisperDesktop.zip，該軟體僅支援 64 位元的 Windows，版本必須是 Windows 8.1 或更高版本上運行。
WhisperDesktop 轉錄文字教學｜取代剪映辨識字幕的免費開源方案 (支援繁中)

下載模型

下載網址

下載完應用程式之後，必須下載模型才能讓程式運行。點擊上方網址進行下載，就可以看到紅圈處有許多模型。

總共有五種模型，提供不同的運行速度與準確性

Tiny（最快速，精度最低）
Base
Small
Medium
Large（最精準但最慢）

WhisperDesktop 下載教學

挑選好模型後，按下 download 進行下載，這邊我使用最大的模型 ggml-large-v3 為範例。

另外，這個作者也有提到，他主要是用這個 ml-medium.bin 模型測試軟體，你也可以直接參考他的方式來進行。
WhisperDesktop 下載教學

下載完之後，所有檔案約為 2.88GB，掃描也沒發現病毒。
WhisperDesktop軟體

WhisperDesktop 安裝與操作步驟

作者已經撰寫好一個 exe 檔，如此一來就能大幅地減少瑣碎的複雜執行過程。雙擊 WhisperDesktop.exe 即可運行該程式。
WhisperDesktop 安裝與操作步驟

進入 WhisperDesktop 之後，會要求你載入一個模型，這邊點選紅圈處。
WhisperDesktop 安裝與操作步驟

載入我們剛剛下載的模型，這邊先以 ggml-large-v3 為範例。
WhisperDesktop 安裝與操作步驟

在 Advanced GPU Settings 選項裡，因為我 CPU 跟 GPU 非 AMD 硬體，所以你可以將細項改成跟我一樣的設定，顯卡則是用你目前電腦上的型號。
WhisperDesktop 安裝與操作步驟

設定完成後按下 OK。
WhisperDesktop 安裝與操作步驟

接著會跳到另一個介面，這個介面就準備來辨識文字了。
WhisperDesktop 安裝與操作步驟

因為要辨識的影片大多都是講中文，所以在 Language 選項裡，選擇 Chinese。
WhisperDesktop 安裝與操作步驟

再來準備好你要轉錄的影片或音檔，這邊我以微疼的鬼故事來當範例。
WhisperDesktop 安裝與操作步驟

在 Transcribe File 選項中點選這個紅框處。
WhisperDesktop 安裝與操作步驟

找到你要轉錄的影片或是音檔並開啟。
WhisperDesktop 安裝與操作步驟

讀入完後，點開 Output Format 的下拉式選單，這邊有好幾個選項。如果只是要影片&音檔裡的文字內容，選擇 Text file 即可；如果要有時間軸的 CC 字幕，則是選擇 Subrip subtitles ( SRT )。
WhisperDesktop 安裝與操作步驟

選擇完後，在此圖的紅圈處可以選擇要輸出字幕的位置。
WhisperDesktop 安裝與操作步驟

隨便選個你喜歡的目錄放置即可，記得輸入檔案名稱。
WhisperDesktop 安裝與操作步驟

全部設置好之後，點擊 Transcribe 就可以開始轉錄影片或音檔了。
WhisperDesktop 安裝與操作步驟

底下會有條進度條，跑完表示轉錄成功。
WhisperDesktop 安裝與操作步驟

模型實測：ggml-large-v3 vs v2 差異比較

剛也說過，越大的模型除了檔案較大外，它的精準度也會比較好，但花費時間會更長。微疼這部影片總長 21 分鐘，下圖是掛 ggml-large-v2 所花費的時間，用了 6 分 36 秒才搞定，當然時間這部分會取決你顯卡的算力而定。
模型實測：v2 vs v3 差異比較

ggml-large-v3 就更誇張了，耗時 1 小時 37 分，非常不建議用這模型搞自己，花費的時間太可怕了。
模型實測：v2 vs v3 差異比較

ggml-large-v3與v2轉錄結果

而且最好笑的是，ggml-large-v3 即便花了大量的時間轉錄，卻得到完全空白的資料 ( 右圖 )。而 ggml-large-v2 則是很安全的轉錄成功 ( 左圖 )，所以你的電腦如果還不錯的話，ggml-large-v2 是可以用的。
ggml-large-v3與v2轉錄結果

WhisperDesktop 字幕辨識效果與問題

來看看 WhisperDesktop 轉錄字幕的效果為何，其實整體的準確度大概有 95% 以上，甚至連英文都能輕鬆辨識，辨識的準確度是可以放心的。
WhisperDesktop 字幕辨識效果與問題

雖然說辨識準確度很高，但是以 SRT 字幕來講，它卻是有點狀況的。以下圖來說，轉錄的 SRT 字幕並沒有很精準的在時間軸上，就需要使用者自己微調，這點剪映就比較厲害些。
WhisperDesktop 字幕辨識效果與問題

再來，如果你的影片有一段時間沒有講話或是那邊呻吟，它會將後面辨識到的文字拉長，去填補前面字幕的空缺。也就是說，WhisperDesktop 轉錄的字幕基本上是沒有間隙的，遇到這情況你就必須花時間去調整字幕的位置。
WhisperDesktop 字幕辨識效果與問題

字幕沒有間隙這問題對我來講是可以接受的，但 WhisperDesktop 最大的問題就是會出現這種全部相同字幕的情況。

會遇到這種狀況的主要原因就是，你轉錄的影片或音檔素材，裏頭有 1~3 分鐘無講話的片段 ( 或是純音樂 )，它就會給你上這種奇怪的詞或是重複最後一句話去填滿後續的詞，非常討厭。
WhisperDesktop 字幕辨識效果與問題

如何修正重複字幕問題？

遇到這問題其實也不是沒有解，以 Premiere 為範例。首先你先將重複的字幕清空，接著從出錯誤的地方刪掉不必要的聲音，或是直接從下一句講話的地方設為首幀，尾幀則是拉到該素材範圍。
WhisperDesktop 修正問題

然後輸出成檔案較小的 MP3 檔再丟回到 WhisperDesktop 重新轉錄一次，如果遇到相同錯誤就再執行一次上述的方式。如此一來就能解決它轉錄錯誤的問題。
WhisperDesktop 修正問題

WhisperDesktop 使用心得

以使用 WhisperDesktop 到現在來講，除了上述的問題外，基本上它還是滿可靠的。在文字轉錄的成功率相當高，而且即便是中英混雜的素材，它也都能清楚地轉錄，這點就比剪映聰明許多。

但剪映還是有它方便的地方，像是它的 SRT 字幕時間軸就比較正確，也不會有像 WhisperDesktop 上述的奇怪錯誤。不過剪映很喜歡將口語的「啊」、「喔」…等給辨識進去，這點反倒是沒有 Whisper 聰明。

WhisperDesktop 下載教學

下載模型

WhisperDesktop 安裝與操作步驟

模型實測：ggml-large-v3 vs v2 差異比較

ggml-large-v3與v2轉錄結果

WhisperDesktop 字幕辨識效果與問題

如何修正重複字幕問題？

WhisperDesktop 使用心得

評論