首頁 考試吧論壇 Exam8視線 考試商城 網絡課程 模擬考試 考友錄 實用文檔 求職招聘 論文下載 | ||
![]() |
2011中考 | 2011高考 | 2012考研 | 考研培訓 | 在職研 | 自學考試 | 成人高考 | 法律碩士 | MBA考試 MPA考試 | 中科院 |
|
![]() |
四六級 | 職稱英語 | 商務英語 | 公共英語 | 托福 | 雅思 | 專四專八 | 口譯筆譯 | 博思 | GRE GMAT 新概念英語 | 成人英語三級 | 申碩英語 | 攻碩英語 | 職稱日語 | 日語學習 | 法語 | 德語 | 韓語 |
|
![]() |
計算機等級考試 | 軟件水平考試 | 職稱計算機 | 微軟認證 | 思科認證 | Oracle認證 | Linux認證 華為認證 | Java認證 |
|
![]() |
公務員 | 報關員 | 銀行從業資格 | 證券從業資格 | 期貨從業資格 | 司法考試 | 法律顧問 | 導游資格 報檢員 | 教師資格 | 社會工作者 | 外銷員 | 國際商務師 | 跟單員 | 單證員 | 物流師 | 價格鑒證師 人力資源 | 管理咨詢師考試 | 秘書資格 | 心理咨詢師考試 | 出版專業資格 | 廣告師職業水平 駕駛員 | 網絡編輯 |
|
![]() |
衛生資格 | 執業醫師 | 執業藥師 | 執業護士 | |
![]() |
會計從業資格考試(會計證) | 經濟師 | 會計職稱 | 注冊會計師 | 審計師 | 注冊稅務師 注冊資產評估師 | 高級會計師 | ACCA | 統計師 | 精算師 | 理財規劃師 | 國際內審師 |
|
![]() |
一級建造師 | 二級建造師 | 造價工程師 | 造價員 | 咨詢工程師 | 監理工程師 | 安全工程師 質量工程師 | 物業管理師 | 招標師 | 結構工程師 | 建筑師 | 房地產估價師 | 土地估價師 | 巖土師 設備監理師 | 房地產經紀人 | 投資項目管理師 | 土地登記代理人 | 環境影響評價師 | 環保工程師 城市規劃師 | 公路監理師 | 公路造價師 | 安全評價師 | 電氣工程師 | 注冊測繪師 | 注冊計量師 |
|
![]() |
繽紛校園 | 實用文檔 | 英語學習 | 作文大全 | 求職招聘 | 論文下載 | 訪談 | 游戲 |
自動向量化的匯編器選項
您可以使用以下的幾個選項來匯編程序:
-qhot -qnostrict (for Fortran)
-qhot -qnostrict –qignerrno (for C/C++)
-qhot -O3
-O4
-O5
當您在使用這些選項集中的一個時,通過調用等價 MASS 向量函數(除了對以下函數的訪問除外:vatan2、vsatan2、 vdnint、 vdint、 vcosisin、vscosisin、vqdrt、vsqdrt、vrqdrt、vsrqdrt、vpopcnt4、vpopcnt8、vexp2、 vexp2m1、vsexp2、 vsexp2m1、vlog2、 vlog21p、 vslog2 和 vslog21p),匯編器會自動嘗試對系統數學函數的訪問向量化。如果匯編器不能對程序進行向量化,它會自動試著調用等價 MASS 標量函數。對于自動化的標量或者向量,匯編器會使用匯編器庫 libxlopt.a 中包含的 MASS 函數的版本。您不需要向代碼中的 MASS 函數添加任何特意的調用,或者鏈接 xlopt 庫。
除了一系列的選項之外,當 -qipa 選項處于可用狀態時,如果匯編器不能進行向量化,那么它會試著在決定調用它們之前去內聯 MASS 標量函數。
如果您想要取消自動向量化的激活,那么您可以添加選項 –qhot=novector。
用例研究
接下來的部分是一個實際程序的范例 — 一個離散的 Fourier 轉變(DFT) — 顯示了在匯編不同匯編器選項時的改善結果。程序已經足夠簡單以方便演示,然后又足夠的復雜以提供非瑣細的優化機會。
兩個程序的計時都是在附錄 3 中給出的驅動器程序完成的,運行的環境是在 4.704 GHz 下運行的 POWER6 電腦。
附錄 1 顯示了 Fortran DFT 源程序。它包含了一個嵌套的循環,該循環會調用 exp()、cos() 以及 sin(),接下來是一個調用 sin() 和 sqrt() 的循環。程序會使用 -O3(它并不能進行自動向量化) 并使用 –O4 (它能使用自動向量化)。
注意自動向量化帶來的好處會隨著問題規模的增加而增加,最終當問題的規模達到 2000 時加速的程度會達到 8.94x 。
附錄 2 顯示了附錄 1 中 Fortran DFT 程序的 C 版本(它包含了一個虛 consume() 路徑,這樣匯編器的內部程序化分析[IPA]就不能看到,計算的結果實際上在演示范例中并沒有用得上,并因此可以改善整個的程序)。
程序將會使用 -O3(它并不會提供自動向量化) ,使用 -O4 (它提供自動向量化),使用 –O5 (它提供自動向量化并提供 IPA)。
正如在 Fortran 范例中演示的那樣,自動向量化帶來的好處隨著問題規模的增加而增加,最后當 n=2000 的時候達到了。另外,IPA 在 -O5 處提供的活化能夠提供一個額外的 1.22x 加速,因為它可以決定輸入與輸出沒有別名(這就是說,它沒有在內存中重疊),允許它去向量化進行極坐標的轉變。-O5 在 –O3 的基礎上加速的程度是 7.33x 。
北京 | 天津 | 上海 | 江蘇 | 山東 |
安徽 | 浙江 | 江西 | 福建 | 深圳 |
廣東 | 河北 | 湖南 | 廣西 | 河南 |
海南 | 湖北 | 四川 | 重慶 | 云南 |
貴州 | 西藏 | 新疆 | 陜西 | 山西 |
寧夏 | 甘肅 | 青海 | 遼寧 | 吉林 |
黑龍江 | 內蒙古 |