文獻摘要 | Notion

這篇文獻主要探討如何透過 SIMD 向量化技術來提升 TVM VTA 模擬器的執行效能，以下從背景、方法、實驗結果及結論四個層面進行詳細分析與解釋。

1. 研究背景

VTA 模擬器

VTA（Versatile Tensor Accelerator）是 TVM 針對自訂深度學習加速器所設計的一個模組。VTA 提供了一個軟體模擬器，方便使用者在沒有專用硬體的情況下了解 VTA 架構與執行流程，進而探索潛在的效能優化機會。
SIMD 向量化技術

SIMD（Single Instruction Multiple Data）是一種並行處理技術，可以同時對多筆數據執行相同的操作。現代處理器（例如 ARM Neon、ARM SVE、x86 SSE/AVX）皆提供 SIMD 指令，以加速迴圈內的計算。文獻指出，尤其是針對深度學習中常見的矩陣乘法（GEMM）運算，利用 SIMD 向量化能夠顯著降低運算時間，從而提升模擬器的整體效能。

2. 方法與實現

性能瓶頸分析

作者首先對 TVM VTA 模擬器進行程式分析，發現整個執行流程中，GEMM 計算部分（主要用於卷積運算）是效能瓶頸。這一部分主要負責從輸入與權重緩衝區中讀取 8 位元資料，經過矩陣乘加累加後將結果存入 32 位元累加器中。

SIMD 向量化實作策略

為了解決瓶頸問題，文獻中針對 GEMM 與 ALU（算術邏輯單元）部分分別採用 SIMD 向量化進行優化：
- 向量化重點在 GEMM 運算：
  1. 程式碼改寫：重構包含多層迴圈的原始 GEMM 運算程式碼，使之更適合 SIMD 指令的執行。
  2. 採用兩種技術：
    - 使用 SIMD 內建函數（intrinsic functions）來調用 Neon 與 SVE 指令。
    - 使用 inline assembly 直接嵌入組合語言，進一步微調與優化運算流程。
  3. 專用指令應用：例如，利用 ARM 的 sdot（點積）與 smmla 指令，這些指令專門設計來處理 8 位元資料的矩陣乘加運算，能夠大幅度加速計算。
- 針對 ALU 部分：同樣對該部分進行向量化處理，雖然相對計算密集度不如 GEMM，但仍透過 SIMD 優化減少計算迴圈的開銷。
SIMD 向量化實作策略

為了解決瓶頸問題，文獻中針對 GEMM 與 ALU（算術邏輯單元）部分分別採用 SIMD 向量化進行優化：
- 向量化重點在 GEMM 運算：
  1. 程式碼改寫：重構包含多層迴圈的原始 GEMM 運算程式碼，使之更適合 SIMD 指令的執行。
  2. 採用兩種技術：
    - 使用 SIMD 內建函數（intrinsic functions）來調用 Neon 與 SVE 指令。
    - 使用 inline assembly 直接嵌入組合語言，進一步微調與優化運算流程。
  3. 專用指令應用：例如，利用 ARM 的 sdot（點積）與 smmla 指令，這些指令專門設計來處理 8 位元資料的矩陣乘加運算，能夠大幅度加速計算。
- 針對 ALU 部分：同樣對該部分進行向量化處理，雖然相對計算密集度不如 GEMM，但仍透過 SIMD 優化減少計算迴圈的開銷。
實作環境

實驗在兩個平台上進行：
- AWS c7g 平台：使用 Graviton3 處理器，支援 ARM Neon 與 SVE 指令。
- Khadas VIM3 Pro 平台：使用 Cortex-A 系列處理器，僅支援 ARM Neon 指令。
實驗中對比了不同實作版本（如 Neon intrinsic、Neon inline assembly、Neon sdot、SVE 版本等），以評估各自的效能提升效果。

3. 實驗結果

效能提升數據
- 在 AWS c7g 平台上，利用 Neon sdot 指令版本在 Compute 模組中實現了最高約 3.65 倍的速度提升，而整個程式的執行時間提升達到 2.27 倍。
- 在 VIM3 Pro 平台上，由於只支援 Neon，實驗顯示各種 Neon 優化版本之間的效能表現相近，但均能獲得顯著的提升。
觀察與分析 雖然 ARM SVE 提供比 Neon 更長的向量長度（最大可達 256 位元），但由於在數據排列與結果取回過程中增加了額外的開銷，SVE 的效能提升並未明顯超越 Neon。這也說明了在 SIMD 優化中，除瞭硬體指令長度外，數據搬移與排布的開銷也是一個關鍵因素。

4. 結論與展望

研究結論

文獻證明了透過 SIMD 向量化技術能夠有效提升 TVM VTA 模擬器中 Compute 模組的運算效能，尤其是在 GEMM 運算部分。不同的優化策略（intrinsic 與 inline assembly）的實作均顯示出不同程度的性能改善，其中 Neon sdot 版本表現最佳。
未來工作方向

文獻指出未來將考慮引入多執行緒技術，以進一步探討如何在多核通用處理器上利用 SIMD 指令高效執行 VTA 模擬器，進一步提升整體效能。

總結來說，這篇文獻針對 TVM VTA 模擬器的性能瓶頸，提出了利用 SIMD 向量化進行程式碼重構與優化的方案，並透過實驗驗證了該方法在不同平台上的效能提升效果。此研究不僅展示了如何利用現有的 SIMD 指令（如 ARM Neon 與 SVE）來加速深度學習計算，亦為未來在多核環境下進一步擴展與優化 VTA 模擬器提供了寶貴的參考依據。