0521 report | Notion

keyword: kvcache, encoder, decoder, netron, relax runtime, virtual machine

🧠 Whisper Tiny x TVM 報告摘要（近期進度）

🔑 關鍵詞：`kv cache`, `encoder`, `decoder`, `Netron`, `Relax runtime`, `VirtualMachine`

✅ 1. KV Cache（Key-Value Cache）管理改進

初始使用 init_zero_past_kv() 建立 16 個 KV 張量（4 層 × 每層 4 個）。

使用 Netron 確認 decoder 模型輸入順序為：

past_key_values.N.decoder.{key,value}
past_key_values.N.encoder.{key,value}

發現 decoder 僅在使用到某層時回傳對應的 KV，因此我們調整策略：
- 使用前一輪的 decoder_kvs 作為 fallback
- 只更新回傳的前 N 組 KV
- 保證所有 KV 的 shape 一致，避免 VM 報錯 match_cast error

✅ 2. Encoder 模型

Encoder 輸入為 (1, 80, 3000) 的 mel spectrogram，必須為 float32。
初期誤將輸入轉為 float16，導致 VM 報錯，後已修正。
Encoder 輸出為一個上下文向量（作為 decoder 的輸入），無 KV cache。

✅ 3. Decoder 模型

decoder 每輪推理接收：
- input_ids: 最新 token
- encoder_out: 固定輸出
- past_key_values: 上一輪的快取
decoder VM 輸出為 ADT 結構：
- out[0]: logits
- out[1:]: 更新後的 decoder KV（不保證回傳所有 8 組）
我們實作 fallback 機制確保 decoder_kv 長度恆為 8，形狀一致。

✅ 4. 使用 Netron 確認 ONNX 模型結構