

2011年 後学期

## 計算機アーキテクチャ 第二 (O)

### 6. コンピュータの性能

大学院情報理工学研究科 計算工学専攻  
吉瀬謙二 kise\_at\_cs.titech.ac.jp  
S321講義室 月曜日 5, 6時限 13:20-14:50

1

## 計算機アーキテクチャへの要求

- 速度(実行時間), スループット
- 消費電力, エネルギー
- 熱
- 音
- 價格
- 安定性, など

2

### Which is faster?

| Plane            | DC to Paris | Speed               | Passengers | Throughput (p x mph) |
|------------------|-------------|---------------------|------------|----------------------|
| Boeing 747       | 6.5 hours   | 610 mph (1130km/h)  | 470        | 286,700 (470 x 610)  |
| BAE/Sud Concorde | 3 hours     | 1350 mph (2500km/h) | 132        | 178,200 (132 x 1350) |

- Time to run the task (ExTime)
  - Execution time, response time, latency
- Tasks per day, hour, week, sec, ns ... (Performance)
  - Throughput, bandwidth

MPH (Mile Per Hour)      From the lecture slide of David E Culler      3

### Defining (Speed) Performance

- Normally interested in reducing
  - Response time (execution time) – the time between the start and the completion of a task
    - Important to individual users
  - Thus, to maximize performance, need to minimize execution time
 
$$\text{performance}_X = 1 / \text{execution\_time}_X$$
- If X is n times faster than Y, then
 
$$\frac{\text{performance}_X}{\text{performance}_Y} = \frac{\text{execution\_time}_Y}{\text{execution\_time}_X} = n$$
- Throughput – the total amount of work done in a given time
  - Important to data center managers
  - Decreasing response time almost always improves throughput

4

### Performance Factors

- Want to distinguish elapsed time and the time spent on our task
- CPU execution time (CPU time) : time the CPU spends working on a task
  - Does not include time waiting for I/O or running other programs

$$\text{CPU execution time for a program} = \frac{\# \text{CPU clock cycles for a program}}{\text{clock rate}} \times \text{clock cycle time}$$

or

$$\text{CPU execution time for a program} = \frac{\# \text{CPU clock cycles for a program}}{\text{clock rate}}$$

- Can improve performance by reducing either the length of the clock cycle or the number of clock cycles required for a program

5

### Remind: Machine Clock Rate

- Clock rate (MHz, GHz) is inverse of clock cycle time (clock period)
 
$$\text{Clock rate} = 1 / \text{Clock period}$$

- 10 nsec clock cycle => 100 MHz clock rate  
 5 nsec clock cycle => 200 MHz clock rate  
 2 nsec clock cycle => 500 MHz clock rate  
 1 nsec clock cycle => 1 GHz clock rate  
 500 psec clock cycle => 2 GHz clock rate  
 250 psec clock cycle => 4 GHz clock rate  
 200 psec clock cycle => 5 GHz clock rate

6

## MIPS (Million Instructions Per Second)

- 1秒当たりに実行された命令の数(単位はMillion)
  - 原始MIPS (native MIPS)
- 注意
  - プロセッサーアーキテクチャのMIPSとは関係ない
- MIPSの問題点とは?
  - 命令セットに強く依存する尺度
  - 異なる命令セット, NOP, コンパイラ, 性能?

7

## MFLOPS, GFLOPS

- MFLOPS (Million Floating-point Operations Per Second)
- GFLOPS (Giga Floating-point Operations Per Second)
- MIPSとGFLOPSとの相違は?
  - 命令セット, 浮動小数点演算

8

## 先端マイクロプロセッサ Cell Broadband Engine

- ヘテロジニアス チップマルチプロセッサ
  - PowerPC Processor Element (PPE) 1個
  - Synergistic Processor Element (SPE) 8個



PlayStation3 の写真は PlayStation.com (Japan) から



Diagram created by IBM to promote the CBE, ©2005 WIKIPEDIAより



9

## Cell/B.E. Element Interconnect Bus



Figure 2. Element interconnect bus (EIB).

IEEE Micro, Cell Multiprocessor Communication Network: Built for Speed

## Cell Broadband Engine (GFLOPSの例)

- ピーク性能
  - 1サイクルで積和演算を1回実行できる演算器 (2 FLOP/cycle)
  - 1命令で4つの演算を並列処理(SIMD, Single Instruction Multiple Data構成)で、SPEあたりの並列性 4
  - チップ内のSPEの数 8
  - 動作周波数 4GHz
- $2 \times 4 \times 8 \times 4 = 256 \text{ GFLOPS}$
- 積和演算 × SIMD化 × マルチコア × 動作周波数
  - ベンチマークは 8GFLOPS 程度 (256/8 = 32)
- 性能を引き出す鍵は
  - DMA転送とローカルストアの使い方, SIMD化, 並列化 . . .

11

## 相対性能, ベンチマーク

- 合成ベンチマーク (Synthetic Benchmark)
  - Whetstone
  - Dhrystone
  - Livermore loops
  - SPEC CPUベンチマーク
    - SPEC89, SPEC92, SPEC95, SPEC2000, SPEC2006
  - Intelの新しいベンチマーク
    - Recognition, Mining, and Synthesis
  - 行列積, LU分解
  - 画像処理 (FPS, frame per second)
- 合成ベンチマークの問題点は?
  - 実アプリ, チート, 誰がどうやって?

12

## SPEC CINT2000 Summary example

| 164. gzip        | 1400 | 565  | 248* |
|------------------|------|------|------|
| 175. vpr         | 1400 | 655  | 214* |
| 176. gcc         | 1100 | 376  | 292* |
| 181. mcf         | 1800 | 1193 | 151* |
| 186. crafty      | 1000 | 236  | 424* |
| 197. parser      | 1800 | 1023 | 176* |
| 252. eon         | 1300 | 357  | 365* |
| 253. per lbmk    | 1800 | 685  | 263* |
| 254. gap         | 1100 | 525  | 210* |
| 255. vortex      | 1900 | 758  | 251* |
| 256. bzip2       | 1500 | 534  | 281* |
| 300. twolf       | 3000 | 1285 | 234* |
| SPECint_base2000 |      |      | 249  |
| SPECint2000      |      |      |      |
| ---              |      |      |      |

13

## 落とし穴

- コンピュータのある面を改善することによって、その改善度に等しい性能向上を期待すること.
- Amdahl's Law** states that the performance improvement to be gained from using some faster mode of execution is limited by the fraction of the time the faster mode can be used.

14

## 落とし穴

- 性能の尺度に性能方程式の一部を使用すること.

$$\text{CPU execution time} = \frac{\text{\# CPU clock cycles for a program}}{\text{clock cycle time}}$$

15

## 補足:コンピュータの性能

- 性能を議論するためには尺度が必要
  - 尺度の達成が目的化することは危険.
  - テクノロジが進化するとき、尺度も大きく変化する.
  - 時に、適切な尺度を定義することが重要.
  - これにより、飛躍的に進歩することがある.

16

## アナウンス

- 講義スライド、講義スケジュール
  - [www.arch.cs.titech.ac.jp](http://www.arch.cs.titech.ac.jp)

17

Adapted from *Computer Organization and Design*, Patterson & Hennessy, © 2005