Operator_Fusion_Scheduling_Optimization_for_TVM_Deep_Learning_Compilers.pdf
文獻摘要
此文獻發現對 memory-intensive operators 做優化,在GPU和DCU(海光 AI 加速卡)上效果顯著,對CPU沒什麼提升。
主要探討 TVM 內部調度優化