

## 計算機アーキテクチャ 第二 (0)

データ値予測、データフロー実行モデル

1



命令発行機構: Tomasuloのアプローチ

- IBM 360/91 の浮動小数点ユニットでは、アウトオブナー  
The IBM 360/91

- 命令発行機構: Tomasuloのアプローチ 1967

- IBM 360/91 の浮動小数点ユニットでは、アウトオブオーダ実行のための洗練された方式が採用されていた。
  - Robert Tomasulo によって発明されたこの手法では
    - (1) レジスタリネーミングを導入してWAWハザードとWARハザード(偽のデータ依存)を排除
    - (2) 命令が必要とするオペランドがいつ利用できるかを探知し、RAW(Read after Write)ハザードを最少化
  - 近年のプロセッサでは、この手法のさまざまなバリエーションが採用されているが、これら2つの重要な概念は共通の特徴

4

ハザード (hazard)

- 構造ハザード (structural hazard)
    - オーバラップ 実行する命令の組み合わせをハードウェアがサポートしていない場合。
      - 資源不足により生じる。
  - データ・ハザード (data hazard)
    - データの受け渡しの制約によって生じるハザード。命令iの後に命令jが実行される場合。
      - RAW (read after write) 命令iが書き込み前に、命令jがそれを読みだそうとする。
      - WAW (write after write) 命令iが書き込む前に、命令jが書き込もうとする。
      - WAR (write after read) 命令iが読む前に、命令jがそこに書こうとする。
  - 制御ハザード (control hazard)
    - 分岐命令、ジャンプ命令によって生じるハザード

5

## マルチレベル・ストライ値予測機構による命令レベル並列性の向上 (JSPP 1999)

6

## 研究の背景

- 真のデータ依存関係が命令レベル並列性を制限
- 生産者から消費者へのデータの流れを解消する技術として値予測

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

7

## 研究の背景

- 真のデータ依存関係が命令レベル並列性を制限
- 生産者から消費者へのデータの流れを解消する技術として値予測



8

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

## 関連研究: 値生成のアルゴリズム

- Last-value予測
  - 最も近い過去に得られた値を予測値
- ストライド値予測
  - 最も近い過去に得られた2回の値の差分 Stride と、Last-value の和を予測値
- 2レベル値予測
  - 過去のn個の履歴の中からひとつを選択
- ハイブリッド値予測
  - 複数のアルゴリズムから選択

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

9

## ストライド値予測機構

$$\text{Predicted Value} = \text{Last-value} + \text{Stride}$$



10

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

## ストライド値予測機構 (cont.)



Stateフィールドの推移と予測アルゴリズム

11

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

## ストライド値予測機構 (cont.)

### 1～5の値を繰り返す下の例

|         |    |    |    |   |   |    |    |    |   |   |    |
|---------|----|----|----|---|---|----|----|----|---|---|----|
| Value : | 1  | 2  | 3  | 4 | 5 | 1  | 2  | 3  | 4 | 5 | .. |
| Stride: | 1  | 1  | 1  | 1 | 1 | -4 | 1  | 1  | 1 | 1 | .. |
| Result: | NP | NP | NP | H | H | M  | NP | NP | H | H | .. |
| State : | I  | T  | S  | S | S | T  | T  | S  | S | S | .. |

NP=No Predict, H=Hit, M=Miss  
I=Initial, T=Transient, S=Steady

短い間隔でストライドが変化する場合に予測精度が低下、予測成功 rate 40%

12

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005



### 値予測ミスの回数とミス率

| Program  | Last-value   | Stride       | 2-level Str. |
|----------|--------------|--------------|--------------|
| cc1      | 10734(0.05%) | 33591(7.77%) | 13287(6.68%) |
| compress | 2679(0.02%)  | 3094(0.05%)  | 1489(0.01%)  |
| go       | 1934(0.01%)  | 4827(3.77%)  | 593(1.11%)   |
| m88ksim  | 16262(0.04%) | 43832(2.0%)  | 29041(5.3%)  |
| perl     | 1245(0.01%)  | 1544(0.11%)  | 2950(0.01%)  |
| xlisp    | 1904(0.02%)  | 2950(0.24%)  | 9(0.05%)     |

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

14



15



16



17



18

## 配線遅延の克服

- クロックサイクルの間に信号が伝わるチップ内の範囲
  - 8 FO4 を1クロック
  - 20 x 20mm のチップ
- 35nm のテクノロジ
  - 1クロックで信号を伝達可能な範囲は全体の1%
  - 距離の離れた2点間では、数十サイクルの遅延
- 配線遅延を考慮して方式を検討

[1] S.W. Keckler, Dnug Burger, C.R. Moore, R. Nagarajan, K. Sankaralingam, V. Agarwal, M.S. Hrishikesh, N. Ranganathan, and P. Shivakumar, A Wire-Delay Scalable Microprocessor Architecture for High Performance Systems, International Solid-State Circuits Conference (ISSCC), pp.1068-1069, February 2003.

Lecture Slide, Kenji KISE TokyoTech

## タイルアーキテクチャとは

- 小さいサイズの機能ブロック(タイル)を規則的に敷きつめることで高速なプロセッサを構成する方式
  - タイルのサイズを小さくすることで、タイルの内部で発生する配線遅延の問題を軽減
  - 近くに配置されているタイル間でのみデータの送受信をおこなうことで、タイル間の通信遅延を軽減
  - 同じ構成のタイルを複数して、設計と検証の作業の簡略化

スーパースカラのPentium 4プロセッサと、タイルアーキテクチャのRawプロセッサ

Lecture Slide, Kenji KISE TokyoTech

## タイル

- 「壁または床などに張る小片状の薄板。陶磁器が一般的」  
広辞苑
- 「Tiles are flat, square pieces of baked clay, carpet, cork, or other substance, which are fixed as a covering onto a floor or wall.」 Collins COBUILD English Dictionary

Lecture Slide, Kenji KISE TokyoTech

## TRIPSプロセッサ

GOAL: ONE TRILLION CALCULATIONS PER SECOND BY 2012

Lecture Slide, Kenji KISE TokyoTech

## Explicit Dataflow Graph Execution (EDGE)

### Explicit Data Graph Execution

- Defined by two key features

- Program graph is broken into sequences of *blocks*
  - Basic blocks, hyperblocks, or something else
  - Blocks commit atomically or not at all - a block never partially executes
- Within a block, ISA support for direct producer-to-consumer communication
  - No shared named registers within a block (point-to-point dataflow edges only)
  - The block's dataflow graph (DFG) is explicit in the architecture
  - Caveat: memory is still a shared namespace (bane of prior dataflow machines)

Lecture note for CS352 Computer Systems Architecture by Prof. S.W. Keckler

## Block Compilation

Intermediate Code → Dataflow Graph → Mapping → TRIPS Code

Intermediate Code

i1) add r1, r2, r3  
i2) add r7, r2, r1  
i3) ld r4, (r1)  
i4) add r5, r4, #1  
i5) beqz r5, 0xdeac

Data flow graph

Compiler Transforms

(1) Inputs (r2, r3)  
(2) Temporaries (r1, r4, r5)  
(3) Outputs (r7)

Lecture note for CS352 Computer Systems Architecture by Prof. S.W. Keckler





## Processor Performance

| Name   | TRIPS Speedup | Alpha IPC | TRIPS IPC | TRIPS Inst/Block | Description                                  |
|--------|---------------|-----------|-----------|------------------|----------------------------------------------|
| a2time | 5.05          | 0.81      | 4.05      | 77               | Control, integer math                        |
| bezier | 3.30          | 1.05      | 3.20      | 76               | Bezier curve, fixed-point math               |
| dct8x8 | 2.66          | 1.70      | 4.70      | 90               | 2D discrete cosine transform                 |
| matrix | 3.30          | 1.68      | 4.05      | 72               | Matrix multiply                              |
| sha    | 0.92          | 2.28      | 2.10      | 80               | Secure hash (mostly sequential algorithm)    |
| vadd   | 1.92          | 3.04      | 6.51      | 74               | Vector add (limited by load/store bandwidth) |

Simulated on TRIPS and Alpha 21264 cycle simulators  
Alpha compilation with GEM compiler and maximum opts (O4 and tuned for 21264)  
TRIPS compilation with in-development compiler plus some hand-tuning  
Speedup measured by comparing Alpha cycles to TRIPS cycles

Lecture note for CS352 Computer Systems Architecture by Prof. S.W. Keckler 34



## アナウンス

- 講義スライド, 講義スケジュール
  - [www.arch.cs.titech.ac.jp](http://www.arch.cs.titech.ac.jp)

Adapted from *Computer Organization and Design*, Patterson & Hennessy, © 2005

36