近期有研究針對 RISC-V 處理器的 BLAS 演算法進行了專門的優化,利用了 RISC-V 的向量擴展(RVV 指令集)來大幅提升運算效能。下面詳細說明這項研究的核心內容及其在軟體層面上所需的調整與開發工作:
優化策略
研究中,開發者對 BLAS 演算法中的關鍵計算迴圈進行了重構,採用 RVV 內建函數(intrinsics)或 inline assembly 的方式,將矩陣乘加、向量累加等操作轉換為 RVV 指令來實現。具體策略包括:
自訂函式庫優化
優化工作通常不僅僅是修改應用程式代碼,而是需要在 BLAS 函式庫(例如 OpenBLAS)層面上進行修改。這包括重寫部分核心函式,使之能夠識別並調用 RVV 指令集來執行計算。
根據該研究,通過上述的 RVV 向量化優化策略,實驗在 Lichee Pi 4A 和 Banana Pi BPI-F3 等設備上測試後,部分 BLAS 演算法的運算速度可達到 OpenBLAS 基線版本的 1.5 倍到 10 倍不等。這表明:
這類優化研究強調了在 RISC-V 平台上,僅僅依賴傳統的編譯器優化不足以發揮硬體的全部潛力,需要在軟體層面上進行深入的專用開發。開發者需要: