一種快速驗證PCI‑E槽位穩定性的方法與流程
2023-08-08 10:52:56
本發明涉及穩定性測試技術,尤其涉及一種快速驗證pci-e槽位穩定性的方法。
背景技術:
隨著「大數據時代」的到來,伺服器搭配gpu等協處理器的應用受到廣大用戶的關注。與此同時,伺服器pcie設備的穩定性是否能滿足高端gpu卡的使用要求也越來越受到關注,現有的pcie的穩定性測試工具nvqual使用起來十分不方便,原因是英偉達的測試工具受制因素較多:第一,在安裝完系統後,必須先卸載系統自帶驅動(nouveau),此過程操作繁瑣耗時,並且需要非常專業的技能才能操作;第二,該測試受限於os中某些功能參數的設置,比如intel_iommu等;第三,該測試受制bios中某些功能的設置,比如4gdecoding等。
技術實現要素:
為了解決以上技術問題,本發明提出了一種快速驗證pci-e槽位穩定性的方法。通過linux腳本實現自動化執行nvqual測試前的所有準備工作,而不再需要手動輸入大量的系統命令和其他操作。
利用linux下的shell腳本自動實現利用nvqual進行pcie穩定性測試之前的一切準備工作,免去人機互動過程。自動準備軟體測試環境,識別gpu型號、數量,並實現自動調用測試工具。
主要包括如下步驟:
1)開始運行
2)卸載系統自帶nouveau驅動
3)強制打開bios下4gdecoding選項
4)自動獲取gpu型號、核心數等信息,並列印出來;根據待測gpu型號,自動調用對應測試工具,安裝後,將其設為開機自動運行
5)提示用戶需要重啟以生效設置,輸入「y」自動重啟
6)再次啟動後自動運行nvqual工具
其中,
(2)卸載系統自帶nouveau驅動
實現方法如下:
sed-i'/root=/s|$|rdblacklist=nouveauvga=791|'/boot/grub/grub.conf
echo"blacklistnouveau">>/etc/modprobe.d/blacklist.conf
mv/boot/initramfs-$(uname-r).img/boot/initramfs-$(uname-r)-nouveau.img
dracut/boot/initramfs-$(uname-r).img$(uname-r)
echon>yumremovexorg-x11-drv-nouveau
(3)關閉與nvqual衝突的服務
sed-i's/intel_iommu=on/intel_iommu=off/'/boot/grub/grub.conf
(4)強制打開bios下「4gdecoding」選項
./scelnx_64/o/snvram.txt
sed-i's/4gdecoding=*off/4gdecoding=off/'nvram.txt
sed-i's/4gdecoding=on/4gdecoding=*on/'nvram.txt
./scelnx_64/i/snvram.txt
(5)獲取所測gpu型號、核心數等信息,並顯示出來;根據待測gpu型號,自動調用對應測試工具,安裝後,將其設為開機自動運行
lspci|grepnv|awk-f'''{print$7}'>>/tmp/model.txt
m=`tail-n1/tmp/model.txt`
n=`lspci|grep-c″nvidiacorporation″`
echo″yourgpumodelis$m,numberofcoresis$n″
echo″cd/home/$m;chmod777*-r;shnvqual″>>/etc/rc.1ocal
(6)提示用戶需要重啟以生效設置,輸入「y」自動重啟,開始測試
echo″systemneedreboottotakeeffect,rebootnow?yorn″
reada
if[$a==y];then
rebootelseexit
fi。
本發明的有益效果是
使用方便,操作簡單,無需掌握專業知識也可完成操作。該工具應用在伺服器pcie槽位的穩定性測試方面,可以節省人力和時間,快速提高工作效率。
附圖說明
圖1是腳本流程示意圖。
具體實施方式
下面對本發明的內容進行更加詳細的闡述:
(1)卸載系統自帶nouveau驅動
實現方法如下:
sed-i′/root=/s|$|rdblacklist=nouveauvga=791|′/boot/grub/grub.conf
echo″blacklistnouveau″>>/etc/modprobe.d/blacklist.conf
mv/boot/initramfs-$(uname-r).img/boot/initramfs-$(uname-r)-nouveau.img
dracut/boot/initramfs-$(uname-r).img$(uname-r)
echon>yumremovexorg-x11-drv-nouveau
(2)關閉與nvqual衝突的服務
sed-i′s/intel_iommu=on/intel_iommu=off/′/boot/grub/grub.conf
(3)強制打開bios下″4gdecoding″選項
./scelnx_64/o/snvram.txt
sed-i′s/4gdecoding=*off/4gdecoding=off/′nvram.txt
sed-i′s/4gdecoding=on/4gdecoding=*on/′nvram.txt
./scelnx_64/i/snvram.txt
(4)獲取所測gpu型號、核心數等信息,並顯示出來;根據待測gpu型號,自動調用對應測試工具,安裝後,將其設為開機自動運行
lspci|grepnv|awk-f″′{print$7}′>>/tmp/model.txt
m=`tail-n1/tmp/model.txt`
n=`lspci|grep-c″nvidiacorporation″`
echo″yourgpumodelis$m,numberofcoresis$n″
echo″cd/home/$m;chmod777*-r;shnvqual″>>/etc/rc.local
(5)提示用戶需要重啟以生效設置,輸入″y″自動重啟,開始測試
echo″systemneedreboottotakeeffect,rebootnow?yorn″
reada
if[$a==y];then
rebootelseexit
fi
本發明利用linux下的shell腳本全自動地實現配置nvqual測試之前的設置步驟,簡化了操作流程,提高了測試的易用性,使用此工具在驗證伺服器pcie設備的穩定性時,可降低人力資源成本,同時提高工作效率。