

2011年 後学期

## 計算機アーキテクチャ 第二 (O)

### 9. スーパースカラプロセッサ

大学院情報理工学研究科 計算工学専攻  
吉瀬謙二 kise\_at\_cs.titech.ac.jp  
S321講義室 月曜日 5, 6時限 13:20-14:50

1

## プロセッサのマイクロアーキテクチャ

- マルチサイクルプロセッサ
- シングルサイクルプロセッサ
- パイプライン
  - スカラープロセッサ
  - スーパースカラプロセッサ (インオーダ)
  - スーパースカラプロセッサ(アウトオブオーダ)

2

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005



## スーパースカラプロセッサにおける動的スケジューリング（アウトオブオーダ実行）

- (1) DIV.D F0, F2, F4
- (2) ADD.D F10, F0, F8
- (3) SUB.D F12, F8, F14

- DIV.D とADD.D の依存がパイプラインをストールさせ、SUB.D 命令の実行を阻害
- SUB.D はパイプラインのどの命令にもデータ依存しない
- プログラム順序に従って命令を実行するという制約を取り除くことで、この制限を解消

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

7

## アウトオブオーダ実行プロセッサの構成



Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

8

## アウトオブオーダ実行プロセッサの命令パイプライン



The Alpha 21264 Microprocessor Architecture  
R. E. Kessler, E. J. McLellan, and D. A. Webb, Compaq Computer Corporation

9

2011年後学期

## 計算機アーキテクチャ 第二 (O)

### アウトオブオーダ実行プロセッサとフロントエンド

10

## 高いバンド幅の命令フェッチ

- パイプラインにバブルを生じさせないためには、条件分岐命令をフェッチした時に、次の3つを予測しなければならない。
  - フェッチしている命令が分岐かどうか
  - 分岐方向
  - 分岐先アドレス

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

11

## 命令キャッシュの実装

- ラインサイズ 4ワード (16 Byte)



Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

12

## 命令キャッシュの実装

```

struct icache_line {
    mem_t m;
    int valid;
    int tag;
    int data[4];
};

class Icache {
    main_memory *mem;
    icache_line *buf;
public:
    int size;
    Icache(int, main_memory*);
    int fetch(data_t, data_t*) const;
};

int Icache::fetch(data_t pc, data_t *ir) {
    int index = (pc >> 4) % size;
    data_t tag = (pc >> 4);
    if(buf[index].valid && buf[index].tag==tag) { /* hit */
        for(int i=0; i<4; i++) ir[i]=buf[index].data[i];
        return 1;
    } else { /* cache miss */
        buf[index].valid = 1;
        buf[index].tag = tag;
        for(int i=0; i<4; i++) {
            data_t ir_t;
            mem->ld_4byte((pc+4*i), &ir_t);
            buf[index].data[i] = ir_t;
        }
        return 0;
    }
}

```

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

13

## Branch Target Buffer (BTB)の実装

- 分岐成立の場合にのみ、分岐先アドレスを登録する。
- Validビットは利用しなくてよい。



Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

14

## Branch Target Buffer (BTB)の実装

```

struct btb_line {
    int tag;
    int data;
};

class BTB {
    btb_line *buf;
public:
    int size;
    BTB(int);
    void fetch(data_t, data_t*) const;
    void regist(data_t, data_t target);
};

void BTB::regist(data_t pc, data_t target) {
    int index = (pc >> 2) % size;
    data_t tag = (pc >> 2);
    buf[index].tag = tag;
    buf[index].data = target;
}

```

Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

15

## 命令フェッчуニットの例



Adapted from Computer Organization and Design, Patterson & Hennessy, © 2005

16

## Branch Target Buffer (BTB)の改良

- キャッシュラインに1つの分岐のみを許す



17

## 命令キャッシュにおけるミスマッチメント

- 分岐命令S5の飛び先をT1とする。

|    |    |    |    |                |
|----|----|----|----|----------------|
| -  | S1 | S2 | S3 | ソースのキャッシュブロック1 |
| S4 | S5 | -  | -  | ソースのキャッシュブロック2 |

分岐

|    |    |    |    |                  |
|----|----|----|----|------------------|
| -  | T1 | T2 | T3 | ターゲットのキャッシュブロック1 |
| T4 | -  | -  | -  | ターゲットのキャッシュブロック2 |



マイク・ジョンソン, スーパースカラプロセッサ

18



19



20



21



22



23



24



25



26