針對 RISC-V 處理器的 BLAS 演算法 | Notion

近期有研究針對 RISC-V 處理器的 BLAS 演算法進行了專門的優化，利用了 RISC-V 的向量擴展（RVV 指令集）來大幅提升運算效能。下面詳細說明這項研究的核心內容及其在軟體層面上所需的調整與開發工作：

1. BLAS 演算法與性能瓶頸

2. 利用 RVV 指令集進行優化

優化策略

研究中，開發者對 BLAS 演算法中的關鍵計算迴圈進行了重構，採用 RVV 內建函數（intrinsics）或 inline assembly 的方式，將矩陣乘加、向量累加等操作轉換為 RVV 指令來實現。具體策略包括：
- 向量化計算迴圈：重寫內部計算迴圈，使得數據能夠按照 RVV 向量長度同時加載、處理和累加。
- 向量寄存器分組：利用 RVV 支援的向量寄存器分組技術，進一步提升向量操作的並行度，從而達到更高的計算效率。
- 內存佈局與對齊優化：調整數據結構和內存存取模式，確保數據能夠有效地利用 RVV 的向量讀寫指令，減少資料搬移開銷。

3. 軟體層面的開發與調整

自訂函式庫優化

優化工作通常不僅僅是修改應用程式代碼，而是需要在 BLAS 函式庫（例如 OpenBLAS）層面上進行修改。這包括重寫部分核心函式，使之能夠識別並調用 RVV 指令集來執行計算。

4. 性能提升的效果

根據該研究，通過上述的 RVV 向量化優化策略，實驗在 Lichee Pi 4A 和 Banana Pi BPI-F3 等設備上測試後，部分 BLAS 演算法的運算速度可達到 OpenBLAS 基線版本的 1.5 倍到 10 倍不等。這表明：

利用 RVV 指令進行數據並行處理能夠顯著降低計算迴圈內的延遲。
針對性調整軟體實現在充分利用硬體特性方面起到了關鍵作用。

結論

這類優化研究強調了在 RISC-V 平台上，僅僅依賴傳統的編譯器優化不足以發揮硬體的全部潛力，需要在軟體層面上進行深入的專用開發。開發者需要：

針對計算密集型模組重構代碼，利用 RVV 指令集來實現數據並行化；
根據硬體特性調整內存佈局和向量寄存器使用策略；
結合內建函數與 inline assembly 等技術，實現針對性極強的性能調優。