HLN 字幕管線技術分析

這套字幕系統的可靠性建立在一個多層級的「結構鎖定（Structure-Locked）」架構上，其核心理念是：讓 ASR（Whisper）負責「物理時間」，讓人工/LLM 負責「語義真相」，並透過多道閘門強制兩者對齊。

1. 核心流程：三階段對齊

整個管線並不是一次到位的，而是分層逐步收斂誤差：

第一層：生成物理骨架 (Physical Skeleton)

工具：generate_word_timestamps.py (Whisper)
作用：產出原始的 SRT 分段與 Word-level 時間戳。
特點：這是不可變的「物理事實」。系統假設 Whisper 對「什麼時候有聲音」的判斷是絕對權威的，後續所有步驟都嚴禁修改時間軸。

第二層：校正語義真相 (Semantic Truth)

工具：srt_llm_corrector.py
作用：將 Whisper 聽寫的 SRT 與原始劇本 (use_version.md) 進行比對。
關鍵機制：
- WCCC (New Semantic Vocab Threshold)：這是個「防暴走」機制。如果 LLM 在校對時引入了太多原始劇本裡沒有的新詞彙（例如開始自我創作），系統會檢測到「語義漂移」並直接報錯重試。
- 任務定義：它被要求只能做「最小幅度修改」，禁止合併、拆分或重組句子，確保 SRT 的段落結構與 Whisper 的輸出保持一致。

第三層：注入靈魂 (Injection)

工具：word_timestamps_proofreader.py
作用：這是最關鍵的一步。它拿著「校正後的 SRT（真相）」去強行覆蓋「原始 Word 時間戳（骨架）」上的文字。
關鍵機制：
- 語音安全正規化 (Speech-Safe Normalizer)：在 fetch_srt_word_indices.py 中，先用 LLM 把 $5,000 轉成 five thousand dollars，解決了「文字 vs 聲音」的格式落差，讓對齊成功率大增。
- 空字串規則 (Empty Word Rule)：允許將多餘的 ASR 雜訊標記為 ""（靜音），而不是刪除條目，從而保證陣列長度不變。