這套字幕系統的可靠性建立在一個多層級的「結構鎖定(Structure-Locked)」架構上,其核心理念是:讓 ASR(Whisper)負責「物理時間」,讓人工/LLM 負責「語義真相」,並透過多道閘門強制兩者對齊。
整個管線並不是一次到位的,而是分層逐步收斂誤差:
工具:srt_llm_corrector.py
作用:將 Whisper 聽寫的 SRT 與原始劇本 (use_version.md) 進行比對。
關鍵機制:
WCCC (New Semantic Vocab Threshold):這是個「防暴走」機制。如果 LLM 在校對時引入了太多原始劇本裡沒有的新詞彙(例如開始自我創作),系統會檢測到「語義漂移」並直接報錯重試。
任務定義:它被要求只能做「最小幅度修改」,禁止合併、拆分或重組句子,確保 SRT 的段落結構與 Whisper 的輸出保持一致。
工具:word_timestamps_proofreader.py
作用:這是最關鍵的一步。它拿著「校正後的 SRT(真相)」去強行覆蓋「原始 Word 時間戳(骨架)」上的文字。
關鍵機制:
語音安全正規化 (Speech-Safe Normalizer):在 fetch_srt_word_indices.py 中,先用 LLM 把 $5,000 轉成 five thousand dollars,解決了「文字 vs 聲音」的格式落差,讓對齊成功率大增。
空字串規則 (Empty Word Rule):允許將多餘的 ASR 雜訊標記為 ""(靜音),而不是刪除條目,從而保證陣列長度不變。