1.初期解析
処理時間のおよそ8割を占めるホットスポットを見つける!!

2.依存チェック
ホットスポット部分のループ依存、タスク依存を変数参照によってチェック

3.カーネル分割設計
データサイズ、転送量からカーネル分割

4.並列コード作成
アルゴリズム再考、ループ結合でGPUのための並列化コード作成
⇒ 成果予測提示
5.実装⇔チューニング
プロファイラ等でチェックしながら、さらなる最適化を実施
放射伝達コード計算
- 特徴
- 26,000ステップのフルGPU化
- 言語
- CUDA Fortran
- 成果
- TesraC2050で6倍 ※
モンテカルロ法線量計算
- 特徴
- 乱数による計算のため分岐が多い
- 言語
- CUDA C
- 成果
- TesraC2050で60倍 ※
画質評価アルゴリズム
- 特徴
- Full Referense型画質評価アプリ「MP-1000QC」
- 言語
- CUDA C
- 成果
- TesraC2050で32倍 ※
※Intel Core™ i7と比較
