

2010年 後学期

## 計算機アーキテクチャ 第二 (O)

### 9. アウトオブオーダ実行プロセッサ バックエンド

1



## アウトオブオーダ実行プロセッサの構成

- 発行 (issue, fire) : 命令ウィンドウから、データ依存が解消された命令を機能ユニットに送り出す動作
  - この時に、レジスタファイルの値を読み出すことがある。



Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

7

## アウトオブオーダ実行プロセッサの命令パイプライン



The Alpha 21264 Microprocessor Architecture

R. E. Kessler, E. J. McLellan, and D. A. Webb, Compaq Computer Corporation

8

## 命令発行機構: Tomasuloのアプローチ

- IBM 360/91 の浮動小数点ユニットでは、アウトオブオーダ実行のための洗練された方式が採用されていた。
- Robert Tomasulo によって発明されたこの手法では
  - (1) レジスタリネーミングを導入してWAWハザードとWARハザード(偽のデータ依存)を排除
  - (2) 命令が必要とするオペランドがいつ利用できるかを探知し、RAWハザードを最小化
- 近年のプロセッサでは、この手法のさまざまなバリエーションが採用されているが、これら2つの重要な概念は共通の特徴

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

9

## 命令発行機構: Tomasuloのアプローチ

- IBM 360/91 の浮動小数点ユニットでは、アウトオブオーダ実行



Installation of the IBM 360/91 in the Columbia Computer Center machine room in February or March 1969. Photo: AEC archive

10

## Tomasuloのアプローチ

- (1) レジスタリネーミングを導入してWAWハザードとWARハザードを回避
- S と T という2つの一時レジスタが利用できると仮定

|                     |                    |
|---------------------|--------------------|
| DIV. D F0, F2, F4   | DIV. D F0, F2, F4  |
| ADD. D F6, F0, F8   | ADD. D S, F0, F8   |
| S. D F6, 0(R1)      | S. D S, 0(R1)      |
| SUB. D F8, F10, F14 | SUB. D T, F10, F14 |
| MUL. D F6, F10, F8  | MUL. D F6, F10, T  |



Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

11

## Tomasuloのアプローチ



Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

12

## Tomasuloのアプローチ

- それぞれの演算器(FP加算器, FP乗算器など)は、そこで実行される命令のみを蓄える。分散化された命令ウインドウを持つ。これをリザベーションステーションと呼ぶ。
    - オペランドの値をリザベーションステーションに格納することで、レジスタファイルを経由しないオペランドの受け渡しを実現。
    - 保留中の命令は、それらの入力を提供するリザベーションステーションを指定する。
    - 命令がディスパッチされる時、保留中のオペランド用のレジスタ指示子をリザベーションステーションの名前にリネームする。
    - 複数の同じレジスタへの書き込みが生じる場合には最後のデータのみをレジスタに書き込む。

Adapted from *Computer Organization and Design*, Patterson & Hennessy, © 2005

13

- ## Tomasuloのアプローチ

- 集中化されたレジスタファイルではなく、リザベーションステーションを使用することによる2つの重要な利点
  - (1)ハザード検出および実行制御の分散化
    - 各機能ユニットはリザベーションステーションに保持された情報によって、そのユニットで命令がいつ実行を始めるかが決める。
  - (2)実行結果がレジスタを経由するオーバヘッドを隠蔽
    - 実行結果(オペランド)が格納されているリザベーションステーションから機能ユニットに直接渡され、レジスタを経由する必要がない。
    - 実行結果は、共通の結果バスでバイパスされ、オペランドを待つ全てのリザベーションステーションが同時に値を取得する。
    - このバスは、IBM 360/91 で**共通データバス**(CDB: common data bus)と呼ばれる。
    - 複数の実行ユニットを備えたパイプラインでは2つ以上のバスが必要

Adapted from *Computer Organization and Design*, Patterson & Hennessy, © 2005

14

## Tomasuloのアプローチ

- ロードバッファの3つの機能
    - 計算されるまでの間、実効アドレスの要素を保持
    - メモリからデータが到着するのを待っている処理中のロード命令を探知
    - 完了してCDBの利用を待っているロードの結果を保持
  - ストアバッファの3つの機能
    - 計算されるまでの間、実効アドレスの要素を保持
    - データ値がストアされるのを待っている処理中のストア命令の書き込み先メモリアドレスを保持
    - メモリユニットが利用可能になるまで格納するアドレスおよび値を保持
  - 浮動小数点機能ユニットとロードユニットの結果はすべてCDBを経由して、浮動小数点レジスタファイルやリザベーションステーションやストアバッファに送られる。

Adapted from *Computer Organization and Design*, Patterson & Hennessy, © 2005

15



Adapted from *Computer Organization and Design*, Patterson & Hennessy, © 2005

16

## Tomasuloのアプローチ

#### ■ 1. リザベーションステーションへの命令格納

- 命金キュー(正確なデータフローを保証するためにFIFOで命金を格納している)のヘッド(先頭)から命金を取り出す。  
適切な(当該命金を処理する演算器の)リザベーションステーションに空きがある場合は、そこに命金を送る。
  - レジスタにオペランド値がある場合は、その値も同時にリザベーションステーションに送られる。  
空のリザベーションステーションがない場合、構造ハザードとなり、リザベーションステーションやバッファが解放されるまでストール。
  - オペランド値がレジスタにない場合(その値はまだ生成されていない)は、オペランド値を生成する命金が格納されているリザベーションステーションを検出す。  
このステップがレジスタリネーミングに対応し、WARとWAWハザードを除去する。

Adapted from *Computer Organization and Design*, Patterson & Hennessy, © 2005

17

## Tomasuloのアプローチ

## ■ 2. 喰姫実行の開始と実行(execute)

- オペレーティングシステムがよって利用できない場合は、誰が送っているのを待つながら共通データベースを監視する。オペレーティングが利用可能になった時に、それを待つリザベーションステーションに格納する。すべてのオペレーティングが利用可能になった時に、そのオペレーションは対応する機能ユニットで実行できる。
  - オペレーティングが利用可能になるまで命令の実行を遅らせることによって、RAWハザードを回避する。
  - 同じ機能ユニットを利用する複数の命令が同一のクロックサイクルにおいて実行可能となるかもしれない点に注意する。同じクロックサイクルにおいて、個々の機能ユニットは異なる命令の実行を開始することができるが、1つの機能ユニットに対して2つ以上の命令が実行可能であれば、ユニットはそれらの中から1つを選択する。
  - 整数演算、浮動小数点演算のリザベーションステーションについては、この選択は任意の方式で行うことができる。ロードとストアの場合には制約を考慮する必要がある。

Adapted from *Computer Organization and Design*, Patterson & Hennessy, © 2005

18

## Tomasuloのアプローチ

### 2. 実行(execute)の続き

- ロードとストアは2段階の実行過程を必要とする。第1段階では、ベースレジスタが利用可能な場合に実効アドレスを計算する。また、得られた実効アドレスをロード・ストアバッファに格納する。
- 第2段階では、メモリユニットが利用可能になるとすぐに、ロードバッファのロード命令を実行する。
- ストアバッファのストア命令は、メモリユニットに送られる前に、ストアすべき値を待たなければならぬ。ロードとストアは実効アドレス計算を通じてプログラム順序を維持する。それによって、メモリを経由するハザードに対処できる。
- 例外の振る舞いを維持するために、命令は、プログラム順序において先行する分岐がすべて完了するまで実行を始めてはいけない。この制約により、実行中に例外を引き起こす命令が実際に実行を完了するということが保証される。
- 分岐予測を利用するプロセッサ(動的スケジューリングのすべてのプロセッサがそうであるが)では、分岐に続く命令の実行を始める前に、分岐予測が正しいことをプロセッサが知らなければならないことを意味する。

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

19

## Tomasuloのアプローチ

### 3. 結果書き込み(Write Result)

- 結果が利用可能になったら、CDBに結果を流し、そこからレジスター、およびこの結果を待っているすべてのリザベーションステーション(ストアバッファを含む)に書き込む。
- ストアされる値およびストアするメモリのアドレスの両方が利用可能になるまで、ストア命令はストアバッファの中に保存され、メモリユニットが利用可能になるとすぐに結果が格納される。

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

20

## Tomasuloのアプローチ

- リザベーションステーションが保有する7つのフィールド
  - Op**: ソースオペランドS1 およびS2 に対して行うオペレーション
  - Qj, Qk**: 対応するソースオペランド値を生成するリザベーションステーションの番号。値が0の場合は、ソースオペランドがVj またはVKとしてすでに利用可能であるか、不需要であることを示す。
  - Vj, VK**: ソースオペランドの値。各オペランドについては、VフィールドあるいはQフィールドのどちらかが常に有効となる。ロード命令については、VKフィールドはオフセットフィールドを保持するために利用される。
  - A**: ロードあるいはストア命令がメモリアドレス計算の情報を保持するために利用する。最初に、命令の即値のフィールドがここに格納される。アドレス計算の後には、実効アドレスが格納される。
  - Busy**: 当該リザベーションステーション、および、対応する機能ユニットが占有されていることを示す。

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

21

## Tomasuloのアプローチ

- レジスタファイルの各エントリにはQi フィールドを追加
  - Qi**: その実行結果をレジスタへ格納する操作を含んでいるリザベーションステーションの番号。
  - Qi の値がブランク(すなわち0)の場合は、現在、このレジスタに格納すべき結果を計算する命令が実行中でない。このため、このレジスタに格納されている内容がその値となる。

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

22

## Tomasuloのアプローチ



Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

23

## 動的スケジューリングの例題

- 最初のロードだけが完了してその結果が書き戻されている時、次の命令列に対する状態テーブルはどのようにになっているか？

- |           |             |
|-----------|-------------|
| 1. L. D   | F6, 32 (R2) |
| 2. L. D   | F2, 44 (R3) |
| 3. MUL. D | F0, F2, F4  |
| 4. SUB. D | F8, F2, F6  |
| 5. DIV. D | F10, F0, F6 |
| 6. ADD. D | F6, F8, F2  |

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

24

| 命令                 | 命令状態 |    |        |
|--------------------|------|----|--------|
|                    | 発行   | 実行 | 結果書き込み |
| 1. L.D F6,32(R2)   | ✓    | ✓  | ✓      |
| 2. L.D F2,44(R3)   | ✓    | ✓  |        |
| 3. MUL.D F0,F2,F4  |      | ✓  |        |
| 4. SUB.D F8,F2,F6  |      | ✓  |        |
| 5. DIV.D F10,F0,F6 |      | ✓  |        |
| 6. ADD.D F6,F8,F2  |      | ✓  |        |

  

| 名前       | リザベーションステーション |      |                   |       |       |    |   |
|----------|---------------|------|-------------------|-------|-------|----|---|
|          | Busy          | Op   | Vj                | Vk    | Qj    | Ok | A |
| 1. Load1 | no            |      |                   |       |       |    |   |
| 2. Load2 | yes           | Load |                   |       |       |    |   |
| 4. Add1  | yes           | SUB  | Mem[32 + Reg[R2]] | Load1 |       |    |   |
| 6. Add2  | yes           | ADD  |                   | Add1  | Load2 |    |   |
| Add3     | no            |      |                   |       |       |    |   |
| 3. Mult1 | yes           | MUL  | Reg[F4]           |       | Load2 |    |   |
| 5. Mult2 | yes           | DIV  | Mem[32 + Reg[R2]] |       | Mult1 |    |   |

  

| 名前 | レジスタ状態 |       |    |      |      |       |     |
|----|--------|-------|----|------|------|-------|-----|
|    | F0     | F2    | F4 | F6   | F8   | F10   | F12 |
| Qj | Mult1  | Load2 |    | Add2 | Add1 | Mult2 |     |
| Qi |        |       |    |      |      |       | F30 |

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

25

## 動的スケジューリングの例題

- 例題2.5と同じコードセグメントを利用して、MUL.D がその結果を書く準備ができている場合、状態テーブルがどのようにになっているかを示せ。

1. L.D F6, 32 (R2)
2. L.D F2, 44 (R3)
3. MUL.D F0, F2, F4
4. SUB.D F8, F2, F6
5. DIV.D F10, F0, F6
6. ADD.D F6, F8, F2

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

26

| 命令              | 命令状態 |    |        |
|-----------------|------|----|--------|
|                 | 発行   | 実行 | 結果書き込み |
| L.D F6,32(R2)   | ✓    | ✓  | ✓      |
| L.D F2,44(R3)   | ✓    | ✓  | ✓      |
| MUL.D F0,F2,F4  | ✓    | ✓  | █      |
| SUB.D F8,F2,F6  | ✓    | ✓  | ✓      |
| DIV.D F10,F0,F6 | ✓    |    |        |
| ADD.D F6,F8,F2  | ✓    | ✓  | ✓      |

  

| 名前    | リザベーションステーション |     |                 |         |       |    |   |
|-------|---------------|-----|-----------------|---------|-------|----|---|
|       | Busy          | Op  | Vj              | Vk      | Qj    | Ok | A |
| Load1 | no            |     |                 |         |       |    |   |
| Load2 | no            |     |                 |         |       |    |   |
| Add1  | no            |     |                 |         |       |    |   |
| Add2  | no            |     |                 |         |       |    |   |
| Add3  | no            |     |                 |         |       |    |   |
| Mult1 | yes           | MUL | Mem[44+Reg[R3]] | Reg[F4] |       |    |   |
| Mult2 | yes           | DIV | Mem[34+Reg[R2]] |         | Mult1 |    |   |

  

| 名前 | レジスタ状態 |    |    |    |    |     |     |
|----|--------|----|----|----|----|-----|-----|
|    | F0     | F2 | F4 | F6 | F8 | F10 | F12 |
| Qj | Mult1  |    |    |    |    |     | F30 |
| Qi |        |    |    |    |    |     |     |

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

27

## アウトオブオーダ実行プロセッサの構成



Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

28

## アナウンス

- 講義スライド、講義スケジュール
- [www.arch.cs.titech.ac.jp](http://www.arch.cs.titech.ac.jp)

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

29