# **JAIST Repository**

https://dspace.jaist.ac.jp/

| Title        | 動的リコンフィギャラブルプロセッサにおける入出と<br>演算のオーバーラップを用いたループネストの高速化<br>に関する研究 |
|--------------|----------------------------------------------------------------|
| Author(s)    | 荒木,光一                                                          |
| Citation     |                                                                |
| Issue Date   | 2008-03                                                        |
| Туре         | Thesis or Dissertation                                         |
| Text version | author                                                         |
| URL          | http://hdl.handle.net/10119/4295                               |
| Rights       |                                                                |
| Description  | <br> Supervisor:井口 寧,情報科学研究科,修士                                |



Japan Advanced Institute of Science and Technology

# 修士論文

# 動的リコンフィギャラブルプロセッサにおける 入出力と演算のオーバーラップを用いた ループネストの高速化に関する研究

北陸先端科学技術大学院大学 情報科学研究科情報システム学専攻

荒木 光一

2008年3月

# 修士論文

# 動的リコンフィギャラブルプロセッサにおける 入出力と演算のオーバーラップを用いた ループネストの高速化に関する研究

### 指導教官 井口 寧 准教授

| 審査委員主査 | 井口寧 准教授                                                                                                         |
|--------|-----------------------------------------------------------------------------------------------------------------|
|        | the second se |

- 審查委員 松澤照男 教授
  - 審查委員 田中清史 助教授

北陸先端科学技術大学院大学 情報科学研究科情報システム学専攻

# 610004 荒木 光一

提出年月: 2008年2月

Copyright © 2008 by Araki Koichi

概 要

リコンフィギャラブルデバイスは、任意の回路を何度でも構成することができるデバ イスである。近年のリコンフィギャラブルデバイスは、集積度の向上により大規模な回路 や多数の回路を実現することが可能となった。これにより、従来の CPU ではボトルネッ クとなるループネストの処理をリコンフィギャラブルデバイスで並列処理することによっ て高速に処理を行うことが可能となった。しかし、リコンフィギャラブルデバイスの I/O ビット幅は小さいので、並列処理を行うために必要なデータを1クロックで入力すること は不可能である。従って、リコンフィギャラブルデバイスで並列処理するためには、演算 で必要なデータを複数クロックで入力しなければならない。出力に関してもデータ入力 と同じように複数クロックでデータを出力する必要がある。この結果、入出力データが多 い処理をリコンフィギャラブルデバイスで行った場合、全実行時間においてデータ入力時 間がボトルネックとなる可能性がある。そこで、本研究ではリコンフィギャラブルデバイ スの一種である動的リコンフィギャラブルプロセッサを用いてデータ入出力と演算処理を オーバーラップさせる手法を提案する。

本研究では、マルチコンテキスト型動的リコンフィギャラブルプロセッサである NEC エレクトロニクス社の Dynamically Reconfigurable Proseccer(DRP)を対象デバイスとす る。DRP は回路情報であるコンテキストを16 個保存することが可能である。しかし、あ る処理が要求するコンテキスト数が16 個を超えた場合、実行中にホストメモリから保存 できなかったコンテキストをダウンロードする必要がある。この結果、ダウンロード時間 がボトルネックとなり高速に処理することができない可能性がある。本研究では、コンテ キストを削減するために、データ駆動方式によるコンテキストの削減を提案する。

画像処理のラプラシアン・フィルタ処理で実験を行った。その結果、本研究の提案手法の実行クロック数は、リコンフィギャラブルデバイスによる従来手法と比較して最大55%に削減することができた。実行時間では、Pentium4 2.80GHz と比較して実行時間を150%向上させたが、本研究の提案手法では、最大230%向上させることができた。コンテキスト数の削減に関しては、従来手法の50%のコンテキスト数に削減することができた。

# 目 次

| 第1章                                    | 序論                                                                                                                                                                                                                                                                                   | 1                                                                                                                                                          |
|----------------------------------------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1.1                                    | 研究背景                                                                                                                                                                                                                                                                                 | 1                                                                                                                                                          |
| 1.2                                    | 研究目的                                                                                                                                                                                                                                                                                 | 4                                                                                                                                                          |
| 1.3                                    | 本論文の構成                                                                                                                                                                                                                                                                               | 6                                                                                                                                                          |
| 第2章                                    | リコンフィギャラブルデバイスの利用                                                                                                                                                                                                                                                                    | 7                                                                                                                                                          |
| 2.1                                    | はじめに                                                                                                                                                                                                                                                                                 | 7                                                                                                                                                          |
| 2.2                                    | リコンフィギャラブルデバイス                                                                                                                                                                                                                                                                       | 7                                                                                                                                                          |
|                                        | 2.2.1 Feild Programmable Gate Array (FPGA)                                                                                                                                                                                                                                           | 7                                                                                                                                                          |
|                                        | 2.2.2 FPGAの問題点                                                                                                                                                                                                                                                                       | 8                                                                                                                                                          |
|                                        | 2.2.3 動的部分再構成                                                                                                                                                                                                                                                                        | 10                                                                                                                                                         |
|                                        | 2.2.4 マルチコンテキスト方式                                                                                                                                                                                                                                                                    | 10                                                                                                                                                         |
|                                        | 2.2.5 動的リコンフィギャラブルプロセッサ                                                                                                                                                                                                                                                              | 11                                                                                                                                                         |
| 2.3                                    | 関連研究....................................                                                                                                                                                                                                                                             | 12                                                                                                                                                         |
| 2.4                                    | まとめ                                                                                                                                                                                                                                                                                  | 13                                                                                                                                                         |
|                                        |                                                                                                                                                                                                                                                                                      |                                                                                                                                                            |
|                                        |                                                                                                                                                                                                                                                                                      |                                                                                                                                                            |
| 第3章                                    | 動的リコンフィギャラブルプロセッサを利用した提案手法                                                                                                                                                                                                                                                           | 15                                                                                                                                                         |
| <b>第3章</b><br>3.1                      | <b>動的リコンフィギャラブルプロセッサを利用した提案手法</b><br>はじめに                                                                                                                                                                                                                                            | <b>15</b><br>15                                                                                                                                            |
| <b>第3章</b><br>3.1<br>3.2               | <b>動的リコンフィギャラブルプロセッサを利用した提案手法</b><br>はじめに                                                                                                                                                                                                                                            | <b>15</b><br>15<br>15                                                                                                                                      |
| <b>第3章</b><br>3.1<br>3.2               | <b>動的リコンフィギャラブルプロセッサを利用した提案手法</b><br>はじめに                                                                                                                                                                                                                                            | <b>15</b><br>15<br>15<br>15                                                                                                                                |
| 第3章<br>3.1<br>3.2                      | 動的リコンフィギャラブルプロセッサを利用した提案手法         はじめに         Dynamically Riconfigurable Processor (DRP)         3.2.1 DRPの概要         3.2.2 Tile アーキテクチャ                                                                                                                                           | <b>15</b><br>15<br>15<br>15<br>16                                                                                                                          |
| 第3章<br>3.1<br>3.2                      | 動的リコンフィギャラブルプロセッサを利用した提案手法         はじめに         Dynamically Riconfigurable Processor (DRP)         3.2.1       DRPの概要         3.2.2       Tile アーキテクチャ         3.2.3       Processing Element アーキテクチャ                                                                                | <ol> <li>15</li> <li>15</li> <li>15</li> <li>16</li> <li>18</li> </ol>                                                                                     |
| 第3章<br>3.1<br>3.2                      | 動的リコンフィギャラブルプロセッサを利用した提案手法         はじめに                                                                                                                                                                                                                                              | <ol> <li>15</li> <li>15</li> <li>15</li> <li>16</li> <li>18</li> <li>19</li> </ol>                                                                         |
| 第3章<br>3.1<br>3.2                      | 動的リコンフィギャラブルプロセッサを利用した提案手法はじめにDynamically Riconfigurable Processor (DRP)3.2.1DRPの概要3.2.2Tile アーキテクチャ3.2.3Processing Element アーキテクチャ3.2.4DRP-1 アーキテクチャ3.2.5DRP コンパイラ                                                                                                                  | <ol> <li>15</li> <li>15</li> <li>15</li> <li>16</li> <li>18</li> <li>19</li> <li>19</li> </ol>                                                             |
| <b>第3章</b><br>3.1<br>3.2<br>3.3        | 動的リコンフィギャラブルプロセッサを利用した提案手法         はじめに         Dynamically Riconfigurable Processor (DRP)         3.2.1       DRPの概要         3.2.2       Tile アーキテクチャ         3.2.3       Processing Element アーキテクチャ         3.2.4       DRP-1 アーキテクチャ         3.2.5       DRP コンパイラ         問題点の整理 | <ol> <li>15</li> <li>15</li> <li>15</li> <li>16</li> <li>18</li> <li>19</li> <li>21</li> </ol>                                                             |
| 第3章<br>3.1<br>3.2<br>3.3<br>3.3<br>3.4 | 動的リコンフィギャラブルプロセッサを利用した提案手法はじめにDynamically Riconfigurable Processor (DRP)3.2.1DRP の概要3.2.2Tile アーキテクチャ3.2.3Processing Element アーキテクチャ3.2.4DRP-1 アーキテクチャ3.2.5DRP コンパイラ問題点の整理提案手法                                                                                                       | <ol> <li>15</li> <li>15</li> <li>15</li> <li>16</li> <li>18</li> <li>19</li> <li>19</li> <li>21</li> <li>22</li> </ol>                                     |
| 第3章<br>3.1<br>3.2<br>3.3<br>3.4        | 動的リコンフィギャラブルプロセッサを利用した提案手法はじめにDynamically Riconfigurable Processor (DRP)3.2.1 DRPの概要3.2.2 Tile アーキテクチャ3.2.3 Processing Element アーキテクチャ3.2.4 DRP-1 アーキテクチャ3.2.5 DRP コンパイラ問題点の整理提案手法3.4.1 はじめに                                                                                         | <ol> <li>15</li> <li>15</li> <li>15</li> <li>16</li> <li>18</li> <li>19</li> <li>21</li> <li>22</li> <li>22</li> </ol>                                     |
| 第3章<br>3.1<br>3.2<br>3.3<br>3.4        | 動的リコンフィギャラブルプロセッサを利用した提案手法はじめにDynamically Riconfigurable Processor (DRP)3.2.1 DRPの概要3.2.2 Tile アーキテクチャ3.2.3 Processing Element アーキテクチャ3.2.4 DRP-1 アーキテクチャ3.2.5 DRP コンパイラ問題点の整理よ.1 はじめに3.4.1 はじめに3.4.2 DRPによるデータ入出力と演算処理のオーバーラップ処理法                                                   | <ol> <li>15</li> <li>15</li> <li>15</li> <li>16</li> <li>18</li> <li>19</li> <li>21</li> <li>22</li> <li>22</li> <li>23</li> </ol>                         |
| 第3章<br>3.1<br>3.2<br>3.3<br>3.4        | 動的リコンフィギャラブルプロセッサを利用した提案手法はじめにDynamically Riconfigurable Processor (DRP)3.2.1 DRPの概要3.2.2 Tile アーキテクチャ3.2.3 Processing Element アーキテクチャ3.2.4 DRP-1 アーキテクチャ3.2.5 DRP コンパイラ問題点の整理よ4.1 はじめに3.4.2 DRP によるデータ入出力と演算処理のオーバーラップ処理法3.4.3 データ駆動型方式によるコンテキストの削減方法                               | <ol> <li>15</li> <li>15</li> <li>15</li> <li>16</li> <li>18</li> <li>19</li> <li>19</li> <li>21</li> <li>22</li> <li>23</li> <li>33</li> </ol>             |
| 第3章<br>3.1<br>3.2<br>3.3<br>3.4<br>第4章 | 動的リコンフィギャラブルプロセッサを利用した提案手法はじめにDynamically Riconfigurable Processor (DRP)3.2.1 DRPの概要3.2.2 Tile アーキテクチャ3.2.3 Processing Element アーキテクチャ3.2.4 DRP-1 アーキテクチャ3.2.5 DRP コンパイラ問題点の整理4.1 はじめに3.4.1 はじめに3.4.3 データ駆動型方式によるコンテキストの削減方法                                                         | <ol> <li>15</li> <li>15</li> <li>15</li> <li>16</li> <li>18</li> <li>19</li> <li>19</li> <li>21</li> <li>22</li> <li>23</li> <li>33</li> <li>40</li> </ol> |

| 4.2         | 実装環境                 | 40 |
|-------------|----------------------|----|
| 4.3         | 実験                   | 40 |
|             | 4.3.1 実験環境           | 41 |
|             | 4.3.2 実験プログラムと実装     | 42 |
| 4.4         | 評価                   | 46 |
|             | 4.4.1 入出力と演算のオーバーラップ | 46 |
|             | 4.4.2 実行速度の比較        | 52 |
|             | 4.4.3 コンテキスト数の比較     | 54 |
| 4.5         | 考察                   | 54 |
| 4.6         | まとめ                  | 55 |
| 笠ょ咅         | <b>キ</b> トめ          | 56 |
| <b>おり</b> 早 | 5 C Ø)               | 00 |
| 5.1         | 本研究の目的               | 56 |
| 5.2         | 提案手法                 | 56 |
| 5.3         | 実験結果                 | 57 |
| 5.4         | 本研究の貢献               | 57 |
| 5.5         | 今後の課題                | 58 |

# 図目次

| 1.1  | リコンフィギャラブルデバイスによるコプロセッサ         | 2  |
|------|---------------------------------|----|
| 1.2  | プログラムのループ部のハードウェア化              | 3  |
| 1.3  | リコンフィギャラブルデバイスと CPU の実行法の比較     | 3  |
| 1.4  | 入力と処理のオーバーラップによる処理法             | 5  |
| 1.5  | DRP のコンフィギュレーションデータ生成法          | 5  |
| 2.1  | Vertex-2 の構造 [9]                | 8  |
| 2.2  | Vertex-2 CLB の構造 [9]            | 9  |
| 2.3  | Virtex-2 スライスの構成 [9]            | 9  |
| 2.4  | 全体再構成と動的部分再構成                   | 10 |
| 2.5  | FPGA のマルチコンテキスト方式 [14]          | 11 |
| 2.6  | 動的リコンフィギャラブルプロセッサのマルチコンテキスト方式   | 12 |
| 3.1  | マルチプロセス処理                       | 16 |
| 3.2  | Tileの構造 [2]                     | 17 |
| 3.3  | Processing Element(PE) の構成 [14] | 18 |
| 3.4  | DRP-1の構造 [2]                    | 20 |
| 3.5  | DRP コンパイラのコンパイルフロー              | 21 |
| 3.6  | 提案手法のフェーズ                       | 22 |
| 3.7  | Tile 単位の処理法                     | 23 |
| 3.8  | 全 PT へ同時に入力 (パターン 1)            | 24 |
| 3.9  | 各 PT ヘタイミングをずらして入力 (パターン 2)     | 24 |
| 3.10 | いくつかの PT へ同時に入力 (パターン 3)        | 25 |
| 3.11 | 2PT の構成                         | 27 |
| 3.12 | 2PT の DRP-1 上の構成                | 27 |
| 3.13 | 3PT の構成                         | 28 |
| 3.14 | 3PTのDRP-1上の構成                   | 28 |
| 3.15 | 4PT の構成                         | 29 |
| 3.16 | 4PTのDRP-1上の構成                   | 30 |
| 3.17 | 5PT の構成                         | 31 |
| 3.18 | 5PT の DRP-1 上の構成                | 31 |
| 3.19 | DRP におけるデータ駆動型の処理法              | 34 |

| コンテキスト削減アルゴリズムの概要                      | 34                                                                                                                                                                                                                                     |
|----------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| コンテキスト削減アルゴリズム                         | 37                                                                                                                                                                                                                                     |
| Priority 関数の例                          | 37                                                                                                                                                                                                                                     |
| CreateContext 関数のアルゴリズム                | 39                                                                                                                                                                                                                                     |
| 実験環境                                   | 42                                                                                                                                                                                                                                     |
| 実験環境の概要............................... | 43                                                                                                                                                                                                                                     |
| 従来手法のデータの取り込み                          | 44                                                                                                                                                                                                                                     |
| 提案手法のデータの取り込み                          | 45                                                                                                                                                                                                                                     |
| 従来手法のデータ入力                             | 47                                                                                                                                                                                                                                     |
| 従来手法の演算処理                              | 47                                                                                                                                                                                                                                     |
| 従来手法のデータ出力                             | 48                                                                                                                                                                                                                                     |
| 2PT の動作                                | 48                                                                                                                                                                                                                                     |
| 3PT の動作                                | 49                                                                                                                                                                                                                                     |
| 4PT の動作                                | 50                                                                                                                                                                                                                                     |
| クロック削減率                                | 51                                                                                                                                                                                                                                     |
| ラプラシアン・フィルタの実行時間の比較                    | 53                                                                                                                                                                                                                                     |
| ラプラシアン・フィルタにおける従来手法と提案手法の動作周波数の比較.     | 53                                                                                                                                                                                                                                     |
|                                        | コンテキスト削減アルゴリズムの概要<br>コンテキスト削減アルゴリズム<br>Priority 関数の例<br>CreateContext 関数のアルゴリズム<br>実験環境<br>定案<br>等線環境の概要<br>従来手法のデータの取り込み<br>提案手法のデータの取り込み<br>従来手法のデータの取り込み<br>従来手法のデータ入力<br>従来手法のデータ入力<br>従来手法のデータ出力<br>2PT の動作<br>2PT の動作<br>2PT の動作 |

# 表目次

| 3.1 | DRP-1の詳細                               | 16 |
|-----|----------------------------------------|----|
| 3.2 | 1PT の Tile 数                           | 26 |
| 3.3 | 2PT のマルチプロセスによる VMEM 使用箇所...........   | 27 |
| 3.4 | 3PT のマルチプロセスによる VMEM 使用箇所              | 29 |
| 3.5 | 4PT のマルチプロセスによる VMEM 使用箇所              | 30 |
| 3.6 | 5PT のマルチプロセスによる VMEM 使用箇所              | 32 |
| 3.7 | 演算器コスト                                 | 35 |
| 3.8 | 演算の実行優先度.............................. | 36 |
| 3.9 | 各 PT 数の 1PT における PE 数                  | 38 |
| 4.1 | 実装環境                                   | 41 |
| 4.2 | 動作検証ツール                                | 41 |
| 4.3 | 実験で利用したソフトウェア                          | 44 |
| 4.4 | 従来手法の実行クロックの内訳                         | 46 |
| 4.5 | 入出力と演算のオーバーラップによるクロックの削減率              | 51 |
| 4.6 | 実行時間の比較                                | 52 |
| 4.7 | コンテキスト数の比較                             | 54 |
|     |                                        |    |

# 第1章 序論

#### 1.1 研究背景

リコンフィギャラブルデバイスは、プログラムで任意の回路を構成することができるデ バイスである。また、1度回路を構成したら回路を変更することが不可能な Application Specific Integrated Circuit(ASIC)とは異なり、何度でも回路を再構成することが可能で ある。現在のリコンフィギャラブルデバイスは、VLSIの集積率向上により大規模化して いるので、様々なアプリケーションをハードウェア化することが可能となっている。この 様な背景からリコンフィギャラブルデバイスは、画像・音声処理[1][2]、暗号処理[3][4][5]、 組み込みシステム[6] など様々な分野で注目されている。

再構成可能という特長を活かしてリコンフィギャラブルデバイスを図1.1のようなコプ ロセッサとすれば、CPUでボトルネックとなる処理をリコンフィギャラブルデバイスで ハードウェア化するによって高速化できる可能性がある。プログラム中の for 命令や while 命令のようなループ命令は、CPU による処理ではボトルネックとなる。ループ命令がプ ログラム中でたかだか数行であっても、ループカウントが莫大な回数であれば、その部分 の実行時間がプログラム全体の実行時間の大部分を占めてしまう。従って、図1.2のよう にループの部分をリコンフィギャラブルデバイスで処理することで高速化できる可能性が ある。図1.3で示すようにループ部分を CPU で処理する場合、ループ内の命令文をルー プカウント数だけ実行するので、実行時間が増加してしまう。一方、リコンフィギャラブ ルデバイス上にループカウント数分の演算器を並列に構成した場合、動作周波数は CPU に比べて非常に低いが、1クロックで実行することができるので、CPU よりも高速に実行 できる可能性がある。従って、ボトルネックとなるループ内の命令文は、リコンフィギャ ラブルデバイスでハードウェア化して処理を行い、逐次的な命令文は、CPU で処理を行 うハイブリッドなシステムを構成したのならば、実行時間の短縮を望むことができる。

しかし、リコンフィギャラブルデバイスで並列処理を行うには、問題点がある。リコン フィギャラブルデバイスの大規模化により多数の演算回路をハードウェア化することが可 能となったが、リコンフィギャラブルデバイスのデータ入出力するI/Oピン数は、それに ともなって増加しているわけではない。この結果、リコンフィギャラブルデバイス上に多 数の演算器を実現したものの、データの入出力を1クロックで行うことができず、全ての 演算器を利用することができない。この問題を解決するために入力データを内部のメモリ に一度保存してからデータを全演算器に転送することが考えられる。しかし、入出力デー タが多い処理をこの手法で実行した場合、入出力時間がボトルネックとなる可能性があ



図 1.1: リコンフィギャラブルデバイスによるコプロセッサ

る。従って、リコンフィギャラブルデバイスで並列処理を行うには、データ入出力時間を 考慮する必要がある。

本研究では、近年登場したリコンフィギャラブルデバイスであるマルチコンテキスト型 動的リコンフィギャラブルプロセッサを対象デバイスとする。Feild Programmable Gate Array(FPGA)のような従来のリコンフィギャラブルデバイスは、再構成するために回路 情報であるコンフィギュレーションデータをホストメモリからデバイス内にダウンロード しなければならないという問題を抱えている。そして、近年のリコンフィギャラブルデバ イスは、大規模化に伴ってコンフィギュレーションデータのサイズも増大しているため、 ダウンロード時間が非常に長い。本研究の対象デバイスは、デバイス内にコンフィギュ レーションデータを複数保存することが可能なので、再構成を瞬時に行うことができる。 また、従来のリコンフィギャラブルデバイスのコンフィギュレーションデータよりデータ サイズが小さいので、ホストメモリからのダウンロード時間も短縮することできる。[7] しかし、デバイス内に保存可能なコンフィギュレーションデータ数は限られているので、 最近の動画処理などのようにタスクの処理が複雑化しているアプリケーションで要求され るコンフィギュレーションデータ数をDRPに全て保存できないことが考えられる。[8] こ の結果、実行中にコンフィギュレーションデータのダウンロードが発生し、本来の能力を 発揮できない可能性がある。また、内部のコンフィギュレーションデータ数を削減するこ とで、複数のアプリケーションのコンフィギュレーションデータを保存することが可能と なる。従って、マルチコンテキスト型動的リコンフィギャラブルデバイスにおいて内部に 保存するコンフィギュレーションデータ数を削減することは、大きな課題である。



図 1.2: プログラムのループ部のハードウェア化



図 1.3: リコンフィギャラブルデバイスと CPU の実行法の比較

### 1.2 研究目的

本研究では、以下の目的を対象として2つの手法を提案する。

- 動的リコンフィギャラブルプロセッサにおけるデータ入出力を考慮したループ処理
- コンテキスト型リコンフィギャラブルプロセッサ内に保存するコンフィギュレーションデータ数の削減

そして、対象とするコンテキスト型動的リコンフィギャラブルプロセッサは、NECエレクトロニクス社の Dynamically Reconfigurable Proseccer (DRP)とする。DRP は、再構成を行う基本セル Processing Element(PE)が8ビットの Arithmetic and Logic Unit(ALU)で構成されているため、ストリーム処理のようなデジタル演算処理に適している。PE は、コンテキストと呼ばれるコンフィギュレーションデータを16個保存できるため再構成を瞬時に実行できる。これにより、その面積以上の回路を実現する回路の仮想化が可能である。また、DRP にはTileと呼ばれるコアが複数あり、各 Tile は、他の Tile に依存することなく独自に再構成を行う動的部分再構成が可能である。回路を生成するためのプログラミング言語は、DRP 専用に拡張した C 言語であるので、Register Transfer Level(RTL)言語に比べて簡単にアルゴリズムを回路にすることができる。

1つ目の提案は、各 Tile にループ内の処理を行う回路を生成し、各 Tile のデータ入力 のタイミングをずらすことでデータ入出力と演算処理をオーバーラップさせる手法であ る。これにより、全実行クロック数を削減する。DRPの入力・出力ビット幅は各 64 ビッ トと非常に小さいので、入出力データ数が多い処理やループカウント数が大きい場合、全 実行時間においてデータ入出力時間を無視することができない。DRP は、Tile 単位で動 的部分再構成が可能なので、回路の仮想化を利用する場合や1つのコンフィギュレーショ ンデータで複数クロックで処理を行う場合では、図 1.4 のように Tile1 が処理を行ってい る間に Tile2 のデータ入力を行うことでデータ入出力を隠蔽することが可能である。

2つ目の提案は、演算処理を行う Tile に1クロックで入力可能なデータからデータ駆動 型のコンテキストを生成することである。DRP 専用のコンパイラは、図1.5 のように高 級言語コンパイラから生成される Control Data-Flow Graph(CDFG)を分割することで複 数のコンテキストを生成する。従って、CDFG を細かくするれば、コンテキスト数は増 加するが、クリティカルパスを減少させて動作周波数を向上させることができる。逆に、 CDFG を粗く分割すれば、コンテキスト数を削減できるが、動作周波数が低下してしま う。データ駆動方式は、演算に必要なデータがそろうと演算を開始することが可能であ り、CDFG のデータ並列性を引き出す可能性がある。本研究では1クロックで入力された データで実行可能な演算子を CDFG 中から発見し、それらを1つのコンテキストでハー ドウェア化する。ここの結果、粗く CDFG を分割するため、DRP 内に保存するコンテキ スト数を削減することができる。コンテキストを削減することで動作周波数の低下が考え られるが、1つ目の提案で実行クロック数を削減できるので、高速に処理を行うことが可 能だと考えられる。



図 1.4: 入力と処理のオーバーラップによる処理法



図 1.5: DRP のコンフィギュレーションデータ生成法

## **1.3**本論文の構成

本論文は、全5章で構成されており各章は以下のようになっている。

第1章:

研究背景と本研究の目的について述べる。

第2章:

既存のリコンフィギャラブルデバイスの種類と特徴を述べる。また、リコンフィギャ ラブルデバイスを用いた関連研究についても述べる。

● 第3章:

本研究で対象デバイスとなる DRP の詳細について述べ、DRP でのデータ入出力と 演算のオーバーラップ処理法と DRP 内に保存するコンフィギュレーションデータ 削減法の2つの手法について述べる。

● 第4章:

第3章で述べた提案手法の実装法・実験・評価・考察を述べる。

● 第5章:

本研究のまとめを述べる。

# 第2章 リコンフィギャラブルデバイスの 利用

# 2.1 はじめに

現在、Feild Programmable Gate Array (FPGA) や動的リコンフィギャラブルプロセッ サなど様々なリコンフィギャラブルデバイスが既存している。そして、それらを利点を活 かして、様々なアプリケーションや CPU ではボトルネックとなる処理をリコンフィギャ ラブルデバイスで高速処理する研究が多くある。

本章では、FPGAの構成・特徴と問題点を述べ、System-onChip(SoC)でFPGAを利用 する際の問題点を解決するために開発された動的リコンフィギャラブルプロセッサについ て述べる。リコンフィギャラブルデバイスを用いた並列処理やダウンロード時間の短縮に 関する関連研究についても述べる。

# 2.2 リコンフィギャラブルデバイス

#### 2.2.1 Feild Programmable Gate Array (FPGA)

1970年代にフューズ方式でプログラム可能なリコンフィギャラブルデバイスが初めて 開発された。1980年代には、SRAMベースのLook-Up Table(LUT)に基づく FPGA や複 数の AND-OR アレイ構造を組み合わせた Complex Programmable Logic Device(CPLD) が登場しことで、リコンフィギャラブルデバイスは、注目されるようになった。その後の 1990年代後半に FPGA の集積度や性能が向上したため、現在のリコンフィギャラブルデ バイスは、FPGA が中心となっている。

FPGAは、LUTを利用して論理回路を構成するため、ビットレベルで細かな論理回路 を生成することができる。従って、演算回路や制御回路など様々な種類の論理回路を無駄 なく生成することが可能である。図 2.1 は、代表的な FPGA である Xilinx 社 Virtex-2 の 構成を示している。FPGAは、再構成可能な基本セル Configurable Logic Block (CLB)が アレイ状に並べられており、これらをどのように構成するのかをプログラムで明記するこ とで目的の論理回路を生成することが可能である。CLBは、図 2.2 で示したようにスイッ チマトリックスと4つのスライス構成されている。スイッチマトリックスは、CLB 間の 配線接続を司っているので、ある CLB のデータ入出力は、この部分の構成で決定される。



図 2.1: Vertex-2の構造 [9]

図 2.3 は、CLB 中のスライスの構成を示しており、2 つの 4 入力 LUT や 2 つのレジスタ などで構成されている。スライス中の LUT に真理値表を保持することで、意図する論理 回路を実現する。

#### 2.2.2 FPGAの問題点

FPGAには、いくつかの問題がある。1.1でも述べたように論理回路を生成ためのダウ ンロード時間が非常に長いということである。FPGAの再構成は、スイッチマトリック スとスライス中のLUTのSRAMを全て書き換えるので、リコンフィギャラブルデバイス が大規模になればコンフィギュレーションデータのサイズも大きくなり、ダウンロード時 間が長くなる。この問題に対して、ベンダは、1ビット毎コンフィギュレーションデータ を FPGA にダウンロードする JTAG ダウンロード方式以外に [10] のように複数ビット毎 ダウンロードする新しい方式を開発している。また、2.2.3 で後述する動的部分再構成が 可能な FPGA を発表している。しかし、FPGA での動的部分再構成を設計・実行は、設 計者に相応の知識と技術がないと実行することが困難である。[11] ダウンロード時間を短 縮する研究としては、Zhiyuanら [12] のようにコンフィギュレーションデータを圧縮する 方法や Krishnaら [13] のように論理的にコンフィギュレーションデータを解析しデータサ イズを最小化する方法など様々な手法で研究が行われている。

他の問題点として、メディア処理などで利用される演算器を FPGA で実現した場合、 Digital Signal Processor(DSP)のような特定のアプリケーションに特化したハードウェア と比べて数倍の面積を要求してしまうことである。そして、面積を広く要求するために、 動作速度も低下してしまう。[14]



図 2.2: Vertex-2 CLB の構造 [9]



図 2.3: Virtex-2 スライスの構成 [9]



図 2.4: 全体再構成と動的部分再構成

#### 2.2.3 動的部分再構成

動的部分再構成とは、デバイスで稼動していない部分のみを部分的に再構成する手法で ある。図 2.4 は、従来の再構成手法である全体再構成と動的部分再構成の仕組みを示して いる。図 2.4 (a)の全体再構成は、常にデバイス全体を再構成するので、未稼働の回路を再 構成するためには、稼動中の回路を停止した後に再構成を行わなければならない。一方、 図 2.4 (b)の動的部分再構成は、稼動中の回路を停止することなく未稼働部分のみを再構 成可能である。従って、コンフィギュレーションデータは、未稼働部分のみになるため、 データサイズを削減することができ、ダウンロード時間を減少させることができる。ま た、稼動中の回路のバックグラウンドで再構成を行うので、ダウンロード時間を隠蔽する ことも可能である。

しかし、動的部分再構成を行うためには、様々なことを考慮する必要がある。部分再構成が可能なサイズは、デバイス毎に指定されているので、設計段階で回路の配置を考慮しなければならない。また、どのタイミングでどの回路を生成するのかを決定するスケジューリングについても考慮しなければならい。回路間のデータの受け渡しについても考慮する必要がある。このような背景からFPGAで、動的部分再構成を実現することは、非常に困難である。

#### 2.2.4 マルチコンテキスト方式

ダウンロード時間を短縮する方法で、動的部分再構成以外の方法としてマルチコンテキ スト方式がある。マルチコンテキスト方式とは、図2.5で示すように複数のコンフィギュ レーションデータを保持可能なメモリを FPGA の傍に搭載することで再構成時間を大幅 に短縮する手法である。一般的に、この方式でコンテキストとは、メモリ内に保持されて いるコンフィギュレーションデータのことであり、FPGA を再構成することをコンテキス トスイッチと呼ぶ。

マルチプレクサで生成したいコンテキストを指定することで、高速に回路を FPGA 上



図 2.5: FPGA のマルチコンテキスト方式 [14]

に実現することが可能である。従って、リアルタイム処理でもダウンロード時間がボト ルネックとなることがない。また、あるアプリケーションをハードウェア化したときに FPGAの面積より大きくなり2つのコンテキストが要求されても、2つ目のコンテキスト を高速にコンテテキストスイッチが可能である。これにより実行時間で再構成がボトル ネックとならず、回路の仮想化ができる。

### 2.2.5 動的リコンフィギャラブルプロセッサ

近年、SoCにおけるアプリケーション専用のハードウェア部の代替として注目されて いる動的リコンフィギャラブルプロセッサが登場している。具体的には、NECエレクト ロニクス社の Dynamically Reconfigurable Processor(DRP)[15] やアイピーフレックス社 のDAPDNA[16] などがそれに当たる。最近の様々な製品には、SoC が搭載されていおり、 MPEG や JPEG などのコード圧縮や復号、暗号化されたコード、エラー修正用コードなど 強力な演算能力を要求する処理を専用のハードウェアで高速処理している。LUTベースの FPGA を SoC に搭載した場合、各処理に必要とされる演算器を実現すると専用ハードウェ アの数倍の面積を要求してしまう。これにより、動作速度が低下してしまう。この解決する



# A address of context memory

図 2.6: 動的リコンフィギャラブルプロセッサのマルチコンテキスト方式

ために動的リコンフィギャラブルプロセッサは、基本セルとなる Processing Element(PE) を Arithmetic and Logic Unit(ALU) ベースで構成している。基本セルが ALU ベースであ るため、LUT ベースの FPGA のように回路の細かい部分を設計することは不可能だが、 演算ビットが4ビット〜32 ビットであるため、対象アプリケーションのビット幅とうまく 適合した場合、高速でかつ面積効率を向上させることができる。[14]

再構成時間の問題に関しては、2.2.4 で述べたマルチコンテキスト方式を採用している。 FPGAのマルチコンテキスト方式とは異なり、動的リコンフィギャラブルプロセッサのマ ルチコンテキスト方式は、各PEに複数のコンテキストを保持している。AULベースの PEは、ローカルに加算命令やシフト命令などを持っているので、動的リコンフィギャラ ブルプロセッサのコンテキストの内容は、FPGAのような回路構成ではなく、各PEが実 行する命令である。図2.6 のようコンテキストが保存されているコンテキストメモリに対 して生成したいコンテキストのアドレスを指定することで回路を実現する。

## 2.3 関連研究

Narasimhanら[17]は、FPGAを用いたループネストの並列処理に関する研究を行った。 彼らは、ループ内の並列性の解析をステートメントレベルで行い、実行中の再構成回数の 最小化と回路を再利用するための部分再構成でダウンロード時間を最小限に抑えた。ま た、FPGAの面積を最大限に利用して並列度を上げることも行った。その結果、livermore LoopsやPerfect Benchmark などベンチマークのループ処理を CPU よりも高速に処理す ることが可能であることを示した。しかし、実験に使用した FPGA は、非常に小規模な ものであるため、彼らのアルゴリズムにはデータ入出力について考慮されていない。従っ て、現在の大規模なリコンフィギャラブルデバイスに彼らのアルゴリズムを適応しても面 積を最大に利用して高並列度の回路構成を導き出すことができるが、データ入出力がボ トルネックとなる可能性がある。井口[18]は、Cレベルのプログラミング言語から並列性 を導き出し、FPGAで並列処理を行うための手法について議論した。高級言語から CPU 処理ではボトルネックとなるループを検出後、ループ内のステートメントのデータ依存、 面積効率や実行時間を解析し、FPGA で最適な並列処理の実行方法を提案した。結果と して、従来のコンパイラより FPGA 上に多く演算器を構成することができた。しかしな がら、Narasimhan らの研究と同様にデータ入出力のボトルネックが発生してしまう可能 性が考えられる。また、これら2つの研究は、FPGA を利用しているので、再構成時のダ ウンロード時間が発生してしまう。このため、ダウンロード時間が長ければ、全実行時間 でこの時間が支配的となりボトルネックとなる可能性がある。

鈴木ら [1] は、ストリームアプリケーションなどでボトルネックとなる処理を DRP で 実行した。彼らは、エッジ近傍合成機能付きαブレンダ・RC6・JPEG の離散コサイン 変換 (DCT)・MP3 デコーダの変形逆離散コサイン変換 (IMDCT)・離散ウェブレット変 換(DWT)・Viterbeデコーダを実装した。処理に応じて適切な設計を行うことでCPUや DSP より高スループットを実現することを示した。しかし、エッジ近傍合成機能付き α ブレンダは、連続的にデータを出力していないので、次のデータ出力までに数クロック掛 かってしまう。また、DCT、IMDCTは、1度付属メモリに演算に必要な入力データを全 て取り込んだ後に演算を行い、演算結果を再度付属メモリに戻してから出力を行っている ため、データ入出力のボトルネックが生じている。天野ら [19] は、これまでの DRP の研 究からデータ入出力時間が全実行時間の30~50%近くになり、データ入出力がボトルネッ クになっていることを指摘した。この問題を解決するために、単一チップ内で処理を行う 場合、付属メモリの制御と演算を行うコアの部分の制御を分離することでデータ入出力時 間を隠蔽することを提案した。また、複数のDRP をデータ入出力制御機構と接続するシ ステムも提案した。複数のDRP で処理を行う場合、2 つのパターンが考えられる。各タ スクをDRPに割り当て、データをDRP間で転送する手法と各DRPで全タスクを処理す る手法である。後者の手法では、デバイス内に全コンテキストを保存することができず、 実行中に残りのコンテキストをダウンロードする必要がある可能性がある。彼らのシミュ レーションの結果、現在の DRP では、前者の手法の方がアドヴァンスがあると報告され ている。鈴木ら [8] は、各 PE に物理コンテキストと論理コンテキストの対応表を搭載し、 同じコンテキストをもつ物理コンテキストを複数の論理コンテキストで共有する分散対 応表方式を提案した。この提案により、DRPのPE内に保存するコンテキスト数を最大 で40%削減することに成功した。しかし、彼らの手法は、PE内に保存するコンテキスト 間の共通性を利用しているため、共通性が少ない場合には効果的ではない。

## 2.4 まとめ

動的リコンフィギャラブルプロセッサは、マルチコンテキスト方式を用いているため チップ内にコンテキストを保存でき、再構成を瞬時に行うことが可能である。基本セル が、ALUベースであるので、LUTベースで構成されている FPGA と比べて演算速度が速 い。このことから本研究では、動的リコンフィギャラブルプロセッサである NEC エレク トロニクス社の DRP を利用する。また、DRP は、動的部分再構成が容易に実現できるこ とも大きなメリットである。

これまでのDRPの研究で、CPUではボトルネックとなる処理を高速化に処理すること が可能であることが分かっている。しかし、天野ら [19] が述べたようにデータ入出力時間 がボトルネックとなる処理がある。彼らの研究では、この問題に対しての複数のDRPで データ入出力と演算処理をオーバーラップさせる提案を行っているが、1 つのDRP にお ける手法については述べられていない。本研究では、動的部分再構成を利用してデータ入 出力と演算処理をオーバーラップさせる研究を行う。

DRPの実装では、高速処理を行うために動作周波数とコンテキスト数のバランスがポ イントとなる。1.2 でも述べたように動作周波数が向上すれば、コンテキスト数が増加し、 逆にコンテキスト数を削減すれば、動作周波数は低下してしまう。これまでの DRP 研究 では、コンテキストメモリ内のデータの共通性からコンテキスト数を削減する手法などが 報告されているが、データ入出力と演算をオーバーラップさせることによる動作周波数と コンテキスト数のバランスについては、報告されていない。従って、本研究では、このこ とについても研究を行う。

# 第3章 動的リコンフィギャラブルプロ セッサを利用した提案手法

# 3.1 はじめに

本研究で対象とするデバイスをマルチコンテキスト型動的リコンフィギャラブルデバイスの Dynamically Riconfigurable Processor(DRP) とする。そして、DRP によるデータ入出力と演算処理のオーバーラップ処理法とデータ駆動型方式によるコンテキスト数の削減を行う。

本章では、DRPのアーキテクチャと専用コンパイラについて説明し、本研究で提案する2つの手法について述べる。

# **3.2** Dynamically Riconfigurable Processor (DRP)

#### 3.2.1 DRPの概要

DRPは、ストリーム処理を対象とした NEC エレクトロニクス社のマルチコンテキスト 型動的リコンフィギャラブルデバイスである。DRPの基本セルの Processing Element(PE) は、ALUを基本としており、Tile と呼ばれる DRP のコアにアレイ状に配置されている。 各 PE には16 個のコンテキストを保存することができ、瞬時にコンテキストスイッチが可 能である。DRPのプロトタイプである DRP-1 は、Tile を4\*2の配置で8つ持ち、各 Tile は独自にコンテキストスイッチを行う State Transition Controller(STC)を持っているた め Tile 単位で動的部分再構成ができる。また、DRP のプログラム言語である Behavioral Design Language(BDL) は、C 言語を拡張した言語なので、C 言語のアルゴリズムを容易 に回路にすることができる。表 3.1 は、DRP-1 の詳細である。

動作原理は、初めに DRP コンパイラで BDL から Finite State Machine(FSM) とデータ パスを生成し、STC に FSM を、PE アレイにデータパスを割り当てる。各 PE は、デー タパス中の演算などを実現するので、Tile 上にはデータパスの一部、又は、全体が構成さ れることとなる。コンテキストスイッチは、STC が FSM をトレースして各 PE のコンテ キストメモリに命令ポインタを発行することで PE の命令を変化させ、Tile 上のデータパ スを変化させる。

マルチコンテキストによる瞬時のコンテキストスイッチと Tile 単位による動的部分再

#### 表 3.1: DRP-1 の詳細

| クロック周波数          | 11-133MHz                                     |
|------------------|-----------------------------------------------|
| アレイサイズ           | 8タイル                                          |
| PE 数             | 512                                           |
| メモリサイズ           | 2Kb 2port Memory * 80, 64Kb 1port Memory * 32 |
| PE に保存可能なコンテキスト数 | 16                                            |



図 3.1: マルチプロセス処理

構成を利用することで、マルチプロセス処理を行うことが可能である。図 3.1 は、3 つの プロセスを実行するためのマルチプロセス処理を表している。各プロセスが 2 つのコン テキストを要求し、1 コンテキスト当たり 1 クロックで処理できると仮定する。図 3.1(a) のように全体再構成を行い逐次処理を行った場合では、データ入力から出力まで 6 クロッ クサイクル必要とする。従って、6 クロック毎にデータが出力される。図 3.1(b) のように Tile 毎にプロセスを分割しマルチプロセス処理を行った場合、処理開始から最初の出力ま で6 クロックサイクルかかる。しかし、その後からは 2 クロックサイクル毎にデータを出 力することが可能なので、全体再構成の逐次処理よりもスループットを向上させることが できる。

#### 3.2.2 Tile アーキテクチャ

Tileの構成を図 3.2 に示す。Tile は以下の要素で構成されている。

• Processing Element (PE)

|                      | HMEM  | HMEM       | HMEM       | HMEM  |                      |
|----------------------|-------|------------|------------|-------|----------------------|
| VMEM                 | PE PE | PE PE      | PE PE      | PE PE | VMEM                 |
| VMEM                 | PE PE | PE PE      | PE PE      | PE PE | VMEM                 |
| VMEM                 | PE PE | PE PE      | PE PE      | PE PE | VMEM                 |
| VMEM                 | PE PE | PE PE      | PE PE      | PE PE | VMEM                 |
| Vmemctrf<br>Vmemctrf | Sta   | te Transit | ion Contro | ller  | Vmemctrl<br>Vmemctrl |
| VMEM                 | PE PE | PE PE      | PE PE      | PE PE | VMEM                 |
| VMEM                 | PE PE | PE PE      | PE PE      | PE PE | VMEM                 |
| VMEM                 | PE PE | PE PE      | PE PE      | PE PE | VMEM                 |
| VMEM                 | PE PE | PEPE       | PE PE      | PE PE | VMEM                 |
| 200                  | HMEM  | HMEM       | HMEM       | HMEM  |                      |

図 3.2: Tile の構造 [2]

- Vertical Memory (VMEM)
- Horizontal Memoty (HMEM)
- State Transition Controller (STC)
- VMEM Controller

基本セルとなる PE は、8 \* 8 の 2 次元配列状に 64 個配置されており、その中央部に STC が配置されいる。メモリは、Tile を囲むように配置されており、左右に VMEM が各 8 個、上下に HMEM が各 4 個配置されている。VMEM Controller は、VMEM 列の中央部に配置されている。

VMEMは、8ビット幅の深さ256ワードの2-portメモリである。8ビット以上のデータ を保存する場合、又は、256ワード以上のデータを保存する場合は、複数のVMEMを利 用して実現する。例えば、32ビットのデータを256ワード保存する場合は、4つのVMEM を利用して実現する。HMEMは、8ビット幅の深さ8Kワードの1-portメモリである。 このメモリもVMEM同様に8ビット以上のデータや8Kワード以上のデータを保存する ときは、複数のHMEMを利用して実現する。マルチプロセス処理をする場合、Tile間の データ転送は、VMEMを使用しなければならない制約があるので、VMEM Controllerは、 VMEMのデータのリード・ライト信号とアドレス指定などの制御を行う。STCは、Tile 内の全PEと接続されており、コンテキストスイッチの実行時PE内のコンテキストメモ リにメモリアドレスを転送する。



図 3.3: Processing Element(PE)の構成 [14]

#### **3.2.3** Processing Element アーキテクチャ

Tileの基本セルとなる PEの構成を図 3.3 に示す。PE は以下の要素で構成されている。

- Arithmetic Logic Unit (ALU)
- Data Manipulation Unit (DMU)
- Instruction Unit (IU)
- Flip-Flop Unit (FFU)
- Register File Unit (RFU)
- Bus Selector

PEは、8ビット演算を扱うユニットである。8ビット以上の演算は、複数のPEを利用し て実行する。ALUでは、加算命令や減算命令などを行い、DMUでは、シフト命令やマス ク命令などを行う。FFUは、8ビットのフリップフロップであり、RFUは、8ビット-16 ワードのレジスタである。両方ともコンテキストスイッチが起きても記憶しているデータ が変化することはない。Bus Selectorは、PE内の演算ユニット、FFUやRFUとPEを囲 んでいるバスの入出力接続を指定するユニットである。IUは、16個のコンテキストを保 存することができるコンテキストメモリであり、TileのSTCから送られてきたアドレス のコンテキスト内の命令をALUやDMUが実行する。コンテキスト内には、演算ユニッ トの命令の他にBus Selectorの制御命令も含まれている。

#### 3.2.4 DRP-1 アーキテクチャ

DRP のプロトタイプである DRP-1 の構成を図 3.4 で示す。DRP-1 は、以下の要素で構成されている。

- Tile
- Center State Transition Controller (CSTC)
- Multiplier (MUL)
- PCI Controller (PCIC)
- Memory Controller (MC)
- PLL
- Configuration Read Data Selector (CRDS)
- Initialize Controller (INIT)

DRP のコアとなる Tile は、アレイ状 (4 \* 2) に 8 つ、VMEM が 5 列で 80 個、HMEM が Tile 郡の上下に各 16 個ずつ配置されている。CSTC は、全 Tile のコンテキストスイッチ を一括管理を行う。各 Tile は、独自に STC を持っているため他の Tile に依存することな くコンテキストスイッチを行うことが可能である。MUL は、8 つの Tile を囲むように配 置されており、Tile から離れている MUL を利用することも可能である。

#### 3.2.5 DRP コンパイラ

DRP コンパイラは、DRP 専用のコンパイラであり、大きく分けてフロントエンド合成 とバックエンド合成に分かれる。図 3.5 は、DRP コンパイラのコンパイルフローである。 フロントエンド合成部の動作合成は、BDL を入力として FSM とデータパスの 2 種類の Register Transfer Level(RTL)を中間コードとして出力する。動作合成は、プログラムの データフローを分割してコンテキストを生成する。分割は、データの依存性、リソースの 制約とクロック制約を満たし、かつ、並列性の最大化、処理リサイクル数の最小化を目的 に実行される。[21] バックエンド合成部は、マッピング、Place & Route とオブジェクト生 成で構成されており、フロントエンド合成部から出力された RTL を入力として DRP オブ ジェクトコードである STC コードと PE アレイコードを出力する。マッピングは、STC コードの生成、PE の命令マッピング、演算粒度フィッティング、論理の最適化などを行 う。Place & Route は、マッピングから出力されたネットリストを基にして PE 命令を適 切な位置に割り当て、データ転送路を決定する。与えられた PE アレイ内でクロック制約 を満たす命令配置とデータ転送路を求めることが目的である。オブジェクトコード生成 は、DRP にダウンロード可能なコードに変換する。



図 3.4: DRP-1の構造 [2]



図 3.5: DRP コンパイラのコンパイルフロー

DRP コンパイラには、データフローグラフを自動的に分割する自動スケジューリング モードと分割箇所を明示的に指示できる手動スケジューリングモードがある。自動スケ ジューリングモードは、上記で説明した処理を行う。一方、手動スケジューリングモード は、フロントエンドのデータフローの分割を指定できるので、PEに保存するコンテキス ト数を意図的に決定できる。

### **3.3** 問題点の整理

リコンフィギャラブルデバイスで並列処理を行うには、同時に入力できるデータ数が重要である。現在のリコンフィギャラブルデバイスの大規模化により I/O ボトルネックが考えられる。デバイスの大規模化に伴って付属している I/O の数が増加しているわけではないためである。従って、リコンフィギャラブルデバイスで並列処理を行うためには、複数クロックでデータを入力しなければらならい。データ出力に関しても同じことが言える。この結果、データ入出力の多い処理では、入出力の実行時間と実行クロック数がボトルネックとなる。

本研究ではDRPを利用することで、瞬時にコンテキストスイッチを行うことができる ので、回路の仮想化が可能となったが、DRP内に保存できるコンテキスト数が16個であ り、今後登場する複雑な処理を実行するにはこの数では足りなくなる可能性がある。16個 を超えるコンテキスト数を要求する処理の場合、実行途中でホストメモリからコンテキス



図 3.6: 提案手法のフェーズ

トをダウンロードする必要となり、この時間がボトルネックとなる。従って、処理を行う ためのコンテキスト数を削減することは、DRP での課題である。

# 3.4 提案手法

#### 3.4.1 はじめに

本研究は、DRPによるデータ入出力と演算処理のオーバーラップ処理法とデータ駆動 型方式によるコンテキスト数の削減アルゴリズムを提案する。図 3.6 のように、DRPに よるデータ入出力と演算処理のオーバーラップ処理法のシステム選択は、プログラミング を行う前の設計時に行う。DRPへのデータ入力方式により処理の方法が変わるので、設 計するアプリケーションに適したオーバーラップ処理法を決定する。2つ目の提案手法で あるデータ駆動型方式によるコンテキストの削減アルゴリズムは、プログラミングからコ ンテキストの作成までのフェーズ中でDRPコンパイラのフロントエンド合成の前に位置 づけされる。



図 3.7: Tile 単位の処理法

#### 3.4.2 DRPによるデータ入出力と演算処理のオーバーラップ処理法

#### はじめに

DRP-1は、多くのPEが搭載されているので、PE単位で並列処理を行えば、高並列度 の回路を構成することが可能である。しかし、DRP-1の入力ビット幅が64ビットしかな いので、全入力データを VMEM や HMEM に保存してから演算を開始する手法が考えら れる。しかし、入力データの保存に多くのクロック数を要してしまう。また、VMEMが2 ポートメモリ、HMEM が1ポートメモリなので、並列度がメモリのポート数を越えてい る場合にも面積効率が低下してしまう。そこで、本研究では、図3.7のようにマルチプロ セス機能を利用して Tile 単位で処理を行い、データ入出力と演算処理をオーバーラップさ せる手法を提案する。Tile 単位で処理した場合、ある時間における処理数は非常に低いも のとなるが、入力ビット幅とのバランスは、PE単位の並列処理と比べ良くなり、面積効 率を向上させることが可能である。また、動的部分再構成は、Tile単位で行われるので、 他の Tile に依存することなく独立して処理をすることができる。マルチプロセス機能の Tile 間のデータ転送が最大64ビットなので、提案手法もTile 間のデータ転送を64ビット で行う。オーバーラップで処理する場合、ホストメモリから入力したデータを各 Tile に分 配しなければならない。また、各 Tile からの演算結果をまとめて DRP-1 の外に出力しな ければならい。従って、DRP-1上の8つある Tileの内2つの Tileは、データの入出力を 管理するための Tile となり、残りの 6Tile が演算処理するための Tile となる。図 3.7は、 簡易化したシステムモデルを示している。Input Tile が、各 Tile へ入力データを分配し、 Output Tile が各 Tile から出力された演算結果を出力するための Tile である。Processing Tile(PT)は、演算処理するためのTileである。





図 3.9: 各 PT ヘタイミングをずらして入力 (パターン2)

#### Processing Tile 数の算出

DRP-1の実行方法は、演算処理で要求するのデータ性質によって3パターン考えられる。1つ目は、図3.8のように各PTへ同時に入力するパターンである。(パターン1)この場合、各PTの処理は、出力のタイミングが同時なので、1クロックで出力可能なデータ数を考慮する必要がある。出力データが1クロックで出力不可能な数とき、出力データのストールが発生してしまう。2つ目は、各PTの入力データが異なる場合、図3.9のように入力のタイミングがずれてしまうパターンである。(パターン2)この場合、データを同時に出力しないので、DRPで実現可能なPT数の回路を利用可能である。3つ目のパターンとして、全PTのデータを入力できないが、数PT分のデータを1クロックで入力可能なときは、パターン1と同様に出力データ数を考慮しなければならない。(パターン3)

パターン1とパターン3のために1クロックで出力可能なデータ数からPT数を算出し なければならない。DRP-1のデータ出力ビットは、64ビットなので、出力データビット から1クロックで同時に出力可能なデータの数は、式(3.1)で算出することができる。

$$output\_data = \left\lfloor \frac{drp\_output\_bit}{output\_bit} \right\rfloor$$
(3.1)



図 3.10: いくつかの PT へ同時に入力 (パターン3)

- output\_data:1クロックで出力可能なデータの数
- drp\_output\_bit:データ出力ビット数 (64)<sup>1</sup>
- output\_bit : PT から出力されるデータのビット数

PTのTile数が6つなので、DRPで実現可能なPT数は、6PTが可能と考えられるが、 マルチプロセル処理による制約のため6PTを実現することはできない。マルチプロセス 処理のデータ転送では、以下の3つの制約を満たさなければならない。

1. 異なる処理を行う Tile 間のデータ転送に VMEM を利用しなければならない。

- 2. VMEMは、Tile間を1対1でしか接続することができない。
- 3. 基本的に VMEM の左側が転送データの入力、右側が出力を行う。

式 (3.2) は、VMEM の制約を考慮した PT 数を求める式である。

$$parallelism = \frac{\frac{num\_VMEM}{M}}{N}$$
(3.2)

- parallelism: 実装可能な PT 数
- num\_VMEM : VMEM の数 (80)
- M: 64 ビットのデータを転送するために必要な VMEM の数 (8)
- N : 入力 Tile、出力 Tile との接続数 (2)

本研究のシステムモデルで Tile 間のデータ転送は、64 ビットで行っているため、8 つの VMEM を利用することでデータ転送が可能となる。DRP-1 上には 80 個の VMEM が搭載 されているので、データ転送の VMEM の集合が 10 個あると考えられる。そして、各 PT は、入力 Tile と出力 Tile とのみ接続されているので、1 Tile につき 2 つの VMEM 集合を

<sup>&</sup>lt;sup>1</sup>()は、実際に DRP-1 上に配置されている数

表 3.2: 1PT の Tile 数

| PT数 | 1PT で利用可能な Tile |
|-----|-----------------|
| 2   | 3               |
| 3   | 2               |
| 4   | 1               |
| 5   | 1               |

利用することとなる。従って、式 (3.2) より DRP-1 で実現できる最大 PT 数は 5PT であ る。逆に、6PT を実現するためには、96 個の VMEM を搭載しなければならない。

次に、各PTで利用できるTile数を求めなければならない。各PTのTile数は、式(3.3)で求めることができる。

$$available\_tile = \left| \frac{num\_tile}{num\_output\_data} \right|$$
(3.3)

- available\_tile : 1PTのTile数
- num\_tile: PT で利用する Tile 数(6)
- output\_data:1クロックで出力可能なデータ数

表 3.2 は、式 (3.3) から求められる各 PT の Tile の数を示している。2PT は、PT のた めの Tile を全て利用しているが、他の PT 数では、全て利用していない。1PT のみ異な る Tile 数にした場合、面積の制約によりコンテキスト数が異なる可能性がある。そして、 1PT のみ実行クロックが異なり、システム全体の同期が取れなくなる。従って、全 PT は、 同 Tile 数にしなければならない。

#### システムモデル

3.4.2 で求めた PT 数と各 PT 数の Tile 数を基にシステムモデルと DRP-1 上での構成を 図 3.11〜3.18 に示す。図中の矢印は、データの流れを示している。表 3.3〜3.6 は、各 PT 数のマルチプロセス処理で利用される VMEM の位置を示している。

2PT の場合、1PT につき 3Tile 利用することができるので、図 3.11 のようにルート 1(Tile2、Tile4、Tile6) とルート2(Tile3、Tile5、Tile7)の2ルートで構成する。Tile1は、 入力データを各ルートに分配を行い、Tile8が各ルートからの演算結果を出力する。図 3.12 は、DRP-1への実装とデータの流れを表している。Tile間のデータ転送のためにルート 1の入力側がTile2の左側のVMEM、出力側がTile7の右側のVMEMを利用している。 ルート2は、入力側がTile3の左側のVMEM、出力側がTile7の右側を利用している。4、 5PT では、演算処理を実行するTileが4つなので、入出力のTileが4つとなる。この場 合は、マルチプロセス機能の3つ目の制約に沿うようTileを入力Tileと出力Tileに振り 分ける。



図 3.11: 2PT の構成



図 3.12: 2PT の DRP-1 上の構成

| ルート          | 入出力 | VMEM 使用箇所 |
|--------------|-----|-----------|
| 1(Tile2,4,6) | 入力  | Tile2 の左  |
|              | 出力  | Tile6 の右  |
| 2(Tile3,5,7) | 入力  | Tile3 の左  |
|              | 出力  | Tile7 の右  |

表 3.3: 2PT のマルチプロセスによる VMEM 使用箇所





図 3.14: 3PT の DRP-1 上の構成

| ルート        | 人出力 | VMEM 使用箇所 |
|------------|-----|-----------|
| 1(Tile2,4) | 入力  | Tile2 の左  |
|            | 出力  | Tile8 の右  |
| 2(Tile3,5) | 入力  | Tile3 の左  |
|            | 出力  | Tile5 の右  |
| 3(Tile6,8) | 入力  | Tile6 の左  |
|            | 出力  | Tile7 の右  |

表 3.4: 3PT のマルチプロセスによる VMEM 使用箇所



図 3.15: 4PT の構成



図 3.16: 4PT の DRP-1 上の構成

| ルート      | 入出力 | VMEM 使用箇所 |
|----------|-----|-----------|
| 1(Tile3) | 入力  | Tile3 の左  |
|          | 出力  | Tile5 の右  |
| 2(Tile4) | 入力  | Tile4 の左  |
|          | 出力  | Tile6 の右  |
| 3(Tile5) | 入力  | Tile5 の左  |
|          | 出力  | Tile7 の右  |
| 4(Tile6) | 入力  | Tile6 の左  |
|          | 出力  | Tile8 の右  |

表 3.5: 4PT のマルチプロセスによる VMEM 使用箇所



図 3.17: 5PT の構成



図 3.18: 5PT の DRP-1 上の構成

| ルート      | 入出力 | VMEM 使用箇所 |
|----------|-----|-----------|
| 1(Tile3) | 入力  | Tile1 の左  |
|          | 出力  | Tile3 の右  |
| 2(Tile4) | 入力  | Tile2 の左  |
|          | 出力  | Tile6 の右  |
| 3(Tile5) | 入力  | Tile3 の左  |
|          | 出力  | Tile5 の右  |
| 4(Tile6) | 入力  | Tile4 の左  |
|          | 出力  | Tile8 の右  |
| 5(Tile8) | 入力  | Tile6 の左  |
|          | 出力  | Tile7 の右  |

表 3.6: 5PT のマルチプロセスによる VMEM 使用箇所

#### 3.4.3 データ駆動型方式によるコンテキストの削減方法

#### アルゴリズムの概要

データ駆動型のコンテキストを生成して DRP の PE 内に保存するコンテキスト数を削減する。図 3.19 は、DRP におけるデータ駆動型の簡易図である。図中のデータフローグラフを提案アルゴリズムで解析し、図中の右側に示したコンテキストを生成す津。DRP でデータ駆動型のコンテキストを生成するために考慮する点は、以下の3点である。

- 1 クロックで 1PT に入力可能なデータ数
- 1 コンテキストの PE 数
- 演算器の実行クロックと要求するコンテキスト数

1クロックで転送されてくるデータビットが64ビットなので、入力されるデータ数は、非 常に少ない。従って、処理を行うために必要な入力データ数を1クロックで入力できない 場合は、図中のdata5とdata6のように新しいコンテキストで入力しなければならない。 1PTのPEは限りがあるので、実現する回路が要求するPE数が1PT当たりのPEを超 えてしまった場合には、新しいコンテキストを生成しなければならない。演算器によって は、1コンテキストで複数クロック要求するもの、2クロックで2コンテキストを要求す るものがあるので、この点も考慮しなければならない。

図 3.20 は、コンテキスト削減のアルゴリズムである。初めに、入力データを入力して、1PT に 1 クロックで入力可能なデータ数を算出する。次のフェーズで Data Flow Graph(DFG) と演算優先度を入力して DFG 中の演算子の実行順序を決定する。最後のフェーズでは演算器のコストを入力して、PE 数、1 クロックで入力可能なデータ数などを基にしてコンテキストを生成する。

#### 演算器コストと実行優先度

アルゴリズムの入力となる面積コストを表3.7に示す。コストは、DRPコンパイラの手 動スケジューリングモードで各演算器を生成し、構成結果のレポートから得た。PE中の ALUに加算命令と減算命令があるので、加算器と減算器は、1コンテキストに実装でき 1クロックで実行可能である。また、各命令は、8ビット演算可能なので、32ビット演算 の場合4つのPEを利用している。乗算器は、DRP-1上にある8つ乗算 DSPを利用する。 DRPの制約上、乗算 DSP を利用するには、乗算 DSPの入力と演算にに各1クロック必 要であるので、乗算 DSPの出力までに2クロック必要となる。更に、2クロックは、各1 コンテキストでなければならず2コンテキストを要求する。通常、DRPで定数との乗算 は、乗算器を利用せず加算器などで構成するが、定数の値によって PE の使用数が変化す るので、定数との乗算も乗算 DSP を利用する。除算器は、2のべき乗の除算では DMU の シフト命令を利用し、他は PE と DMU で独自で生成した。独自に作成した除算器は、1



図 3.19: DRP におけるデータ駆動型の処理法



図 3.20: コンテキスト削減アルゴリズムの概要

| 演算器   | 演算ビット | PE数 | 実行クロック | コンテキスト数 |
|-------|-------|-----|--------|---------|
| 加算器   | 8     | 1   | 1      | 1       |
|       | 16    | 2   | 1      | 1       |
|       | 32    | 4   | 1      | 1       |
| 減算器   | 8     | 1   | 1      | 1       |
|       | 16    | 2   | 1      | 1       |
|       | 32    | 4   | 1      | 1       |
| 乗算器   | 8     | 0   | 2      | 2       |
|       | 16    | 0   | 2      | 2       |
|       | 32    | 0   | 2      | 2       |
| 除算器   | 8     | 7   | 9      | 1       |
|       | 16    | 11  | 17     | 1       |
|       | 32    | 19  | 33     | 1       |
| シフト除算 | 8     | 2   | 1      | 1       |
|       | 16    | 3   | 1      | 1       |
|       | 32    | 5   | 1      | 1       |

表 3.7: 演算器コスト

コンテキストで複数クロックで実行である。シフト命令による除算は、PE内のDMUを 利用するので1クロックで実行可能である。

表3.8は、各演算器の実行優先度であり、DFG中の演算の実行順序の決定に利用する。 DFGの同じ深さに複数の演算がある場合、実行優先度が高いものから実行する。乗算器 は、2クロックで実行可能だが2つのコンテキスト数を要求するので、結果出力待ちの間 に他の処理ができるように最も先に実行する。残りの演算器は、全て1コンテキストで実 行可能なので、実行クロックが最も多い除算器を2番目の実行優先度にした。加算器、減 算器とシフト除算は、コンテキスト数と実行クロックが全く同じなので、PEの数が多い 加算器と減算器を次の優先度にした。

#### 回路構成生成アルゴリズム

図 3.21 は、データ駆動型のコンテキストを生成するためのアルゴリズムである。アル ゴリズムの入力は、

- 入力データビット数
- PT 数
- $\bullet~\mathrm{DFG}$
- 演算器コストテーブル

表 3.8: 演算の実行優先度

| 実行優先度 | 演算    |
|-------|-------|
| 1     | 乗算    |
| 2     | 除算    |
| 3     | 加算    |
| 3     | 減算    |
| 4     | シフト除算 |

• 演算の実行優先度テーブル

である。1~5行目のデータ入力の後、DataPerClock 関数で入力データビット数とDRP-1 の入力ビット幅から1クロックで入力可能なデータ数を計算する。(6行目)DataPerClock 関数内の式は、式(3.4)である。

$$input\_data = \left\lfloor \frac{input\_bit}{ope\_bit} \right\rfloor$$
(3.4)

- output\_data:1クロックで入力可能なデータの数
- output\_bit : DRP-1の入力ビット幅
- ope\_bit:入力データビット数

続いて、7行目のTotalPe 関数でPT 数と1PTのPE 数テーブルから1PTのPE 数(max\_PE) を求める。8行目のPriority 関数でDFG 中の演算に実行順序を決定する。Priority 関数の 入力は、DFG と演算の実行順序の2項目である。図 3.22 は、priority 関数の例であり、図 中の()が実行順序を示している。初めに、データが入力と同時に実行可能な step1の4つ 演算器は、演算器優先度テーブルから実行順序が付けられる。同優先度の演算器には、同 じ優先度を付ける。次に step1 の演算結果と新しい入力データから演算を行う step2 の演 算器に対して優先度を付けていく。9~13 行目で、CreateContext 関数で i 番目のコンテ キスト (context[i])の回路構成を決定する。この while 文は、演算に実行順序が付属され た DFG(dfg\_added\_priority)の演算がなくなるまで行う。

#### CreateContext 関数のアルゴリズム

図 3.23 は、回路構成生成アルゴリズムの 11 行目の create 関数のアルゴリズムを示して いる。create\_group 関数の入力は、

- 優先度が付属された DFG
- 1 クロックで入力可能なデータ数
- 演算器コスト

1: *input\_bit* ← bit number of input data; 2: *num\_par* ← parallelism; 3:  $dfg \leftarrow DFG$ ; 4: tab\_*ope\_cost* ← operator cost; 5: *tab\_ope\_pri* ← operator priority; 6: input\_data = DataPerClock(input\_bit); 7: max\_PE = TotalPe(num\_par); 8: dfg\_added\_priority = Priority(dfg, tab\_ope\_pri); 9: i = 0; 10: do{ 11: context[] = CreateContext(dfg\_added\_priority, input\_data, tab\_ope\_cost, max\_PE); 12: i++; 13: }while(*dfg\_added\_operator* = NULL)

図 3.21: コンテキスト削減アルゴリズム



図 3.22: Priority 関数の例

#### 表 3.9: 各 PT 数の 1PT における PE 数

| PT数 | PE数 |
|-----|-----|
| 2   | 192 |
| 3   | 128 |
| 4   | 64  |
| 5   | 64  |

1PT 当たりの PE 数

である。初めに各変数の初期化を3,4行目で行い、5~17行目のwhile 文を実行する。6行 目では、現在の入力データから実行可能な演算器があるかを確認する。もし、実行可能な 演算器がある場合は、7~10行目のステートメントを実行し、逆の場合は1つの回路構成 が決定し15行目のretrun で回路構成生成アルゴリズムに戻る。7行目は、max 関数で優 先度が付属された DFG(dfg\_added\_priority)から優先度が高い演算器を選出し、演算器コ ストから選出された演算器の PE 数を operaor\_cost 関数で取得する。取得した PE 数を現 在のコンテキスト内の PE 数 (current\_PE)に足し、8行目で 1PT の PE 数を超えているか どうかを確認する。表 3.9 は、各演算ビットの 1PT 当たりの PE の数である。PE 数が超 えていない場合は、選出された演算器をコンテキスト内の回路集合 (group[])に加え、優 先度が付属された DFG から削除する。もし、現在の PE 数が 1PT 当たりの PE 数を超え てしまった場合は、13 行目の return で基のアルゴリズムに戻る。

```
1: create_group(dfg_added_priority, input_data, ope_cost, max_PE)
 2: {
 3:
     group[] \leftarrow NULL;
 4: current_PE = 0;
 5: while(1){
 6:
      if(search(dfg_added_priority input_data)== true){
 7:
        current_PE += operator_cost(max(dfg_added_priority), ope_cost);
         If(current_PE < max_PE){
 8:
 9:
            group[] \leftarrow \max(dfg\_added\_priority);
            remove(dfg_added_priority, max(dfg_added_priority));
10:
          }
11:
12:
         else
13:
             return group[];
14:
        else
15:
          return group[];
     }
16:
17:}
```

図 3.23: CreateContext 関数のアルゴリズム

# 第4章 実験・評価

### 4.1 はじめに

本章では、前章で述べた提案手法の実験と評価について述べる。また、実験したプログ ラムの実装方法についても述べる。

## 4.2 実装環境

表4.1に、実装環境を示す。DRPの推奨OSは、Vine Linux3.1であるが、2.4系のカー ネルであればVine Linux3.2でも稼動する。Cronus2は、DRP-1を搭載している評価ボー ドである。ホストPCとの接続インターフェイスは、PCIバスとHyperTransportである が、HyperTransportは、標準構成ではサポートをしていないので、本研究では、PCIバ スでホストPCと接続した。DRPコンパイラは、C言語をDRP用に拡張したBehavioral Design Language(BDL)専用のコンパイラであり、統合開発環境のMusketeerに搭載され ている。表4.2に本研究で設計した回路の動作検証に使用した検証ツールを示す。動作検 証は、Musketeer上で実行可能である。BDL検証は、記述したアルゴリズムが正確なもの かをソフトウェア実行で検証する。DRP用に拡張されたステートメントに関しては、専用 のヘッダーファイルを使用することでソフトウェアで実行できる。Verilog検証は、DRP コンパイラから出力されたVerilog HDLを基に波形シミュレーションをすることで回路の 動作検証を行う。

## 4.3 実験

提案手法を評価するために以下の項目について実験を行った。

- 実行クロック数の削減率
- 実行時間の比較
- コンテキストの削減数

従来手法は、天野ら [19] が述べている DRP-1 上での典型的なストリーム処理法とした。 従来手法の流れは、

| ホスト CPU | Pentium4 2.80CGHz          |
|---------|----------------------------|
| ホストメモリ  | 1.0GB                      |
| OS      | Vine Linux 3.2             |
| カーネル    | 2.4.27- $0v17smp$          |
| ボード     | Cronus2                    |
| 開発環境    | Musketeer                  |
| 開発言語    | Behavioral Design Language |
| コンパイラ   | DRP コンパイラ                  |

表 4.1: 実装環境

表 4.2: 動作検証ツール

| BDL 検証     | gcc 3.3.2        |
|------------|------------------|
| Verilog 検証 | Modelsim SE 6.1e |

- 1. データを複数クロックで入力し、内部メモリに保存する。
- 2. 内部メモリから並列にデータを取り出し演算を実行し、演算結果を再度内部メモリ に保存する。
- 3. 内部メモリから演算結果を連続的に出力

であり、3が終了したら1に戻り、処理を繰り返す。評価に利用する従来手法は、DRPコンパイラの自動スケジューリングモードで論理合成を行い、動作周波数とコンテキスト数のトレードオフを解析するための機能であるMusketeerの反復合成機能を利用して最も高速に実行できるものとした。提案手法の実装は、コンテキストの分割を明示的に行うことが可能な手動スケジューリングモードで行った。理論上5つのTileでオーバーラップをさせることができるが、配線が困難であるためDRPコンパイラのPlace & Routeで常にエラーを吐き出して実現することができなかったので、2~4Tileによるオーバーラップで評価を行った。

#### 4.3.1 実験環境

図 4.1 は、ホスト PC と DRP 評価ボードの Cronus2 である。実験は、実装環境で述べた PC と同じ PC で行った。Cronus2 は、図 4.2 のように PCI バスでホスト PC と接続されている。本研究の実験のために利用したソフトウェアを表 4.3 に示した。ソフトウェアの実行時間を測定するために gcc3.2.2 を利用し、コンパイル時に gcc の最適化オプションである-O3 を付属した。DRP の実行時間の測定のために実行クロックと DRP の動作周波



図 4.1: 実験環境

数を測定する必要があるので、実行クロックは ModelSim SE 6.1e でカウントし、DRP の 動作周波数は DRP コンパイラで Place & Route 後のものを利用した。コンテキスト数は、 DRP の動作周波数と同様に DRP コンパイラを用いてフロント合成後のものをカウント した。

#### 4.3.2 実験プログラムと実装

実験するために利用したプログラムは、画像処理のラプラシアン・フィルタである。ラ プラシアン・フィルタは、与えられた画像を2次微分することによって、緩やかな濃度勾 配でも濃度が変化するエッジ部分が強調されるエッジ検出フィルタである。式(4.1)は、 ラプラシアン・フィルタのプログラム式である。式(4.1)の演算結果は、0を中心とした 正負の値となるので、プログラム中ではシステムの最高濃度の中間濃度値である127を加 えている。また、最高濃度値255を超えた場合は、演算結果値を255、負の値の場合は、 演算結果値を0と濃度補完も行っている。入力データは、簡易化のために1002\*1002サイ ズのグレイ画像を想定し、入力データのビット数は8ビットとした。



図 4.2: 実験環境の概要

$$f[i,j]_{newimage} = f[i-1,j] + f[i+1,j] + f[i,j-1] + f[i,j+1] - 4f[i,j]$$
(4.1)

#### 従来手法の実装

従来手法の実装は以下流れで行った。

- 1. 図 4.3 のように画像の 1002 × 3 のデータを読み込み、VMEM に保存する。
- 2. VMEM から入力データを読み込み、8 並列で演算処理を行う。乗算は、DRP-1上に ある乗算器を利用した。演算結果を再び VMEM に保存する。
- 3.8つの演算結果を1クロックで同時に出力する。

1回目のデータの出力が完了後、図4.3の緑色で囲まれている範囲のデータをを読み込む。 この流れを1000回行う。

| ソフトウェアコンパイラ           | gcc3.2.2         |
|-----------------------|------------------|
| ソフトウェアの実行時間の測定        | gprof2.14.90     |
| DRP の実行クロックの測定        | Modelsim SE 6.1e |
| DRP の動作周波数の測定・コンテキスト数 | DRP コンパイラ        |

表 4.3: 実験で利用したソフトウェア



図 4.3: 従来手法のデータの取り込み

#### 提案手法の実装

提案手法の実装は以下流れで行った。

- 1. 図 4.4 の赤色で囲まれた範囲のデータを読み込み、処理を行う Tile にデータを転送 し、演算処理を行う。このときに、次の演算に必要なデータを Input Tile で保存する。
- 2. 図 4.4 の緑色で囲まれた範囲のデータを読み込み、処理を行う Tile にデータを転送 する。また、直前に演算を開始した Tile に残りのデータを転送する。
- 3. 各 Tile の処理が終わり次第、Output Tile に演算結果を転送し、データ出力を行う。



図 4.4: 提案手法のデータの取り込み

表 4.4: 従来手法の実行クロックの内訳

| 処理          | 実行クロック | 割合(%) |
|-------------|--------|-------|
| input       | 1006   | 44.5  |
| computation | 1001   | 44.3  |
| output      | 251    | 11.1  |

#### 4.4 評価

#### 4.4.1 入出力と演算のオーバーラップ

図 4.5~4.10 は、ラプラシアン・フィルタの従来手法と提案手法の動作を示している。 従来手法は、図 4.5~図 4.7 で示したように数クロックの初期化後にデータ入力が開始さ れ、演算処理・出力処理を行っている。表 4.4 で示したように入出力の実行クロックが全 実行クロックの 50%以上を占めていることがわかる。一方、提案手法は、図 4.8~4.10 の ように初期化後に1クロックずつ入力タイミングをずらして各 PT に入力データを転送し ている。この結果、入出力と演算のオーバーラップが実現できていることが分かる。

Output Tile では、連続出力するためにループ命令を利用しているので、ループカウントの判定を行うために1クロックは必須ある。従って、複数のデータを連続出力後に1クロックの待ち時間が発生する。ラプラシアン・フィルタの3PT(図 4.9)と4PT(図 4.10)では1クロックの待ち時間後に再び連続的にデータを出力しているが、2PT(図 4.8)では、2データを出力後2クロック待ち時間が発生している。これは、2データ出力後の時点で各ルートの演算が完了しておらずOutput Tile がデータ待ちをしているからである。このことから、Output Tile のデータ待ち時間をなくすためには、処理の実行クロックとPT 数のトレードオフを考慮する必要があることが分かる。

表4.5 は、入出力と演算をオーバーラップさせることによって削減したクロック数と削 減率を示している。提案手法は、最大で従来手法の実行クロックの55%削減することが できた。しかし、4.11 のように PT 数が向上するにつれて削減率の伸びが低くなってい く。これは、1 クロックで入力データを全て入力できる状況に近くなっていくためである。 従って、一般的な並列処理を実行できた場合が最も最適な処理を行っていることであると 言える。

| Ik 🎸 Cik      | Ó                                       | າມາມາ  | ມາມາມ    | ກາກກາ   | ກາກກາ | າມາມາ | ມາມາມ | າມາມາ | າກກາກ | າມມາມ | ມາມາມ | Ц |
|---------------|-----------------------------------------|--------|----------|---------|-------|-------|-------|-------|-------|-------|-------|---|
|               | ×                                       | 1      |          |         |       |       |       |       |       |       |       | 1 |
| 🕂 🔶 State     | x                                       | 12     | 13       |         |       |       |       |       |       |       |       | Ļ |
| Ingress       |                                         |        |          |         |       |       |       |       |       |       |       |   |
| outRequest    | ×                                       |        |          |         |       |       |       |       |       |       |       |   |
| 🖪 🕂 🕂 in Data | 000000000000000000000000000000000000000 | 000    | Doone    | 0a00010 | 50a   |       |       |       |       |       |       | L |
| 🚽 🥎 inValid   | 0                                       |        |          |         |       |       |       |       |       |       |       | Ē |
| Egress        | - i i i i i i i i i i i i i i i i i i i |        |          |         |       |       |       |       |       |       |       |   |
| in Request    | 0                                       |        |          |         |       |       |       |       |       |       |       |   |
| 🍝 inPAF       | 0                                       |        |          |         |       |       |       |       |       |       |       |   |
| 井 🤣 outData   | *********                               | 000000 | 10000000 | 000     |       |       |       |       |       |       |       | T |
| outValid      | ×                                       |        |          |         |       |       |       |       |       |       |       | ľ |
| 🏅 outDataEnd  | x                                       |        |          |         |       |       |       |       |       |       |       |   |
| Interrupt     |                                         |        |          |         |       |       |       |       |       |       |       |   |
| inintr 🍛      | 0                                       |        |          |         |       |       |       |       |       |       |       |   |
| 🍐 outintr     | ×                                       |        |          |         |       |       |       |       |       |       |       |   |
| Regt          |                                         |        |          |         |       |       |       |       |       |       |       | 1 |

図 4.5: 従来手法のデータ入力



図 4.6: 従来手法の演算処理

| 🛷 Člk                    | 0                          |      | 1n         | ГГ           | ЛЛ       | ٦Π        | ΓЛ   | Л          |        |          | 1     |          |                                                                                                                | ЦTЦ       |      | лл        |          | Ц     | лл       | נתבר      | LUU      | ηп     | Ц    | ШL        | าาาา            | лп      |          |        |     | LL   |
|--------------------------|----------------------------|------|------------|--------------|----------|-----------|------|------------|--------|----------|-------|----------|----------------------------------------------------------------------------------------------------------------|-----------|------|-----------|----------|-------|----------|-----------|----------|--------|------|-----------|-----------------|---------|----------|--------|-----|------|
| 🔶 Start                  | 8                          |      |            |              |          |           |      |            |        |          |       |          |                                                                                                                | برجيد احد |      |           |          |       |          | -         |          |        | -    |           | and services of |         |          | -      |     |      |
| 🔷 State                  | X                          | 1101 | 11.74      | <u>, 151</u> | 13(12    | 13,12     | 1311 | 2)(13)     | 12(13) | 12/13/   | 12.11 | 3)(12)(1 | <u>3 JI 2 JI</u>                                                                                               | 3/12)     | 13)1 | 2)(13)(12 | 113.11   | 2,112 | 3(12)(13 | 112,113)  | 12/13/12 | 113/12 | J13J | 12)(13)   | 12/13/1         | 2113112 | [13][12] | 18,12) | 131 | 2(13 |
| – Ingress –              |                            |      |            |              |          |           |      |            |        |          |       |          |                                                                                                                |           |      |           |          |       |          |           |          |        |      |           |                 |         |          |        |     |      |
| 🧇 outRequest             | X).<br>Manusian subaristan |      | Torcionite |              | omentero |           |      |            |        |          |       |          |                                                                                                                |           |      |           |          |       |          |           |          |        |      |           |                 |         |          |        |     |      |
| 🧇 inData                 | 000000000000000000         | 000  | 1050a      | 000          | 1050a    |           |      |            |        | <u> </u> | -     |          |                                                                                                                | ÷.        |      | V         |          |       |          |           |          |        | -    |           | 8               | N.      |          |        |     |      |
| 🧇 inValid                | 0                          |      |            | -            | _        |           | _    |            |        | 2        |       |          |                                                                                                                | -         | _    |           |          | _     |          |           |          | -      |      |           |                 | м.<br>  |          |        | _   |      |
| – Egress ———–            | 8.N                        |      |            |              |          |           |      |            |        |          |       |          |                                                                                                                |           |      |           |          |       |          |           |          |        |      |           |                 |         |          |        |     |      |
| 🧇 inRequest              | 0                          |      |            | -            |          |           | _    |            |        | 2        |       |          |                                                                                                                |           | _    |           | <u> </u> | _     |          |           |          |        |      |           |                 | e       |          | -      |     |      |
| 🧇 inPAF                  | 0                          |      |            |              | 1. 21. 3 | - 200 - 2 |      |            |        |          | -     |          | and second s | 1         |      |           |          |       | a 3      |           | 1000 000 |        | -    | 100000000 |                 |         |          | -      | _   |      |
| 🧇 outData                | ******                     | 000  | 00000      | )X           |          |           | ЩC   |            |        |          | X     | X X      |                                                                                                                |           |      |           |          | Ц     |          | $\square$ |          |        | ХДХ  |           |                 | XX      |          |        |     |      |
| 🧇 outValid               | 80                         |      |            |              |          |           | ГЪ   |            |        |          |       |          |                                                                                                                |           |      |           |          |       |          |           |          |        | Г    |           |                 |         |          |        |     |      |
| 🧇 outDataEnd             | 80                         |      |            | -            |          |           | _    | _          |        | 2        |       |          |                                                                                                                | 0         | _    |           |          | _     |          |           |          |        |      |           |                 | 2       |          |        |     |      |
| - Interrupt              | 2                          |      |            |              |          |           |      |            |        |          |       |          |                                                                                                                |           |      |           |          |       |          |           |          |        |      |           |                 |         |          |        |     |      |
| 🧇 inIntr                 | 0                          |      |            |              |          |           | _    |            |        | 0        |       |          |                                                                                                                |           |      |           |          |       |          | -         |          |        |      |           |                 |         |          |        |     |      |
| < outintr                | X.                         |      |            |              |          |           |      |            |        |          | - 1   |          |                                                                                                                | - 10-     |      |           |          | _     |          | -         |          |        |      |           |                 |         |          |        |     |      |
| - Reg1                   | 2                          |      |            |              |          |           |      |            |        |          |       |          |                                                                                                                |           |      |           |          |       |          |           |          |        |      |           |                 |         |          |        |     |      |
| RG_13_p1((ADDU)          | 8°.                        | 228  |            | 286          | )        |           |      |            |        | 8        | -     | -        |                                                                                                                | ÷         |      | k.        |          |       |          |           |          |        | -    |           | 8               | V.      |          |        |     |      |
|                          | 80                         | 230  |            |              |          |           |      |            |        | 8        |       | -        |                                                                                                                | 100       |      | V.        |          |       |          |           |          |        | -    |           | 8               | N       |          |        |     |      |
| RG_42_p1((ADDU)          | 80                         | 232  |            |              |          |           |      |            |        |          |       |          |                                                                                                                |           |      | V         |          |       |          |           |          |        | -    |           | 8               | ÿ       |          |        |     |      |
| RG_52_p1((ADDU)          | 8                          | 238  |            |              |          |           |      |            |        |          |       | -        |                                                                                                                |           |      | v         |          |       |          |           |          |        |      |           | 6               | Ú       |          |        |     |      |
| ightarrow RG_34_p1((ADDU | 80                         |      | 125        |              |          |           |      |            |        |          |       | -        |                                                                                                                | 1         |      | V-        |          |       |          |           |          |        |      |           | 6               |         |          |        |     |      |
| 🕹 RG_06_p1((ADDU         | 80                         |      |            | (            |          | 2         | 3    | ¥4         | )5     | 1/s      | 17    | 18       | )g                                                                                                             |           | 10   | X11       | 12       | )ii   | 3 (14    | (15       | (16      | 17     | (18  | (19       | )20             | 21      | 22       | 23 )   | 24  | 125  |
| 🕹 RG_16_p1((ADDU         | 80                         |      |            | - (          | 1        | 2         | 3    | <u>)</u> 4 | )5     | 16       | 17    | )8       | 19                                                                                                             |           | 10   | 111       | 12       | X1    | 3 (14    | (15       | (16      | 17     | X18  | (19       | )20             | 21      | 22       | 23 )   | 24  | 125  |
| 📣 RG_63((ADDU_@7))       | ×                          | 21   |            |              |          |           |      |            |        | 0        |       |          |                                                                                                                | 1         |      | ý.        |          |       |          |           |          |        |      |           | 6               | 0       |          |        |     |      |

図 4.7: 従来手法のデータ出力

| 🤣 Čik                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          | 1                 |                 |         |      |          |          |            |               |             |           |            |      |              |       |             |            |          |             |    |                |             |            |           |             |               |                 |
|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------|-----------------|---------|------|----------|----------|------------|---------------|-------------|-----------|------------|------|--------------|-------|-------------|------------|----------|-------------|----|----------------|-------------|------------|-----------|-------------|---------------|-----------------|
| 🗇 Start                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        | 1                 | - C             |         |      | - 120.12 | 120011 3 |            | ano o         |             | 0.00      |            |      |              |       | agene       | 1220.02    |          | 1977S       |    |                |             |            |           | 10000       |               |                 |
| 🍫 State_InputTile                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              | 1                 | <u> </u>        | 1       |      | 2        | 13       | <b>1</b> 4 | 13            | 14          | 13        | <u>)</u> 4 | 13   | .) <u>4</u>  | 13    | ]4          | _)3        | ¥4       | 13          |    | 13             | _ <u>\4</u> | 13         | .)4       | <u> </u>    | /4            | 13              |
| State_Route01                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  | 1                 | 0               | 1       |      |          |          | 12         | 13            | <i>\</i> 4  | Ľ۱        | 2          | 3    | Ĭ4           | Ĵ1    | 12          | <u>)</u> 3 | 4        | _1 <u></u>  | )2 | 13             |             | 1          | 12        | 13          | _)4           | 11              |
| State_Route02                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  | 1                 | 0               | 1       |      |          |          | <u> </u>   | 12            | 13          | 4         | _X1        | 12   | 13           | J4    | X1          | _12        | 13       | <u> </u> 4  | Ĵ1 | 12             | _]3         | <i>[</i> 4 | _X1       | 12          | _ <u>''</u> 3 | 4               |
| 🔷 State_OutputTile                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             | 1                 | -0              | 1 1     |      |          |          |            |               | 1           |           | <u>12</u>  | 3    | Ϊ1           |       | _ <u>ľ2</u> | _)3        | <u> </u> |             | 12 | j3             | _11         |            | <u>12</u> | <u> 1</u> 3 | X1            |                 |
| - Ingress                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      | 1920 - F          |                 |         |      |          |          |            |               |             |           |            |      |              |       |             |            |          |             |    |                |             |            |           |             |               |                 |
| 🔶 outRequest                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |                   |                 |         |      | -        |          |            | 0.000100-0000 |             |           |            |      |              |       |             |            |          |             |    |                |             |            |           |             |               |                 |
| 🔷 inData                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       | 00000000001050a   | 0000000000      | 000000  | )00  | 01000.   |          | 00000      | 001050        | a           |           |            |      |              |       |             |            |          |             |    |                |             |            |           |             |               |                 |
| 🧇 inValid                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      | 0                 |                 |         |      |          |          |            |               |             |           |            |      |              |       |             |            |          |             |    |                |             |            |           |             |               |                 |
| - Egress                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |                   |                 |         |      |          |          |            |               |             |           |            |      |              |       |             |            |          |             |    |                |             |            |           |             |               |                 |
| 🦩 inRequest                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |                   |                 |         |      |          |          |            |               |             |           |            | -    |              | _     |             |            | -        |             |    | 10             |             |            |           |             |               |                 |
| in PAF                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |                   |                 |         |      |          |          |            |               |             |           |            |      |              |       | -           |            |          |             |    |                |             |            | 100000    |             | 10000         |                 |
| 🔷 outData                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      | 00000000000000000 |                 | 0000000 | 0    |          |          |            |               | 1           |           | 10000      | 0000 | . 10000      | 0000  | )0000       | 00000      | 10000    | 0000.       |    | 000000         |             | 0000       | 10000     | 10000       | )0000         | 10000           |
| 🕎 outValid                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     | D.                | - L             |         |      |          |          |            |               |             |           |            |      |              | _     |             |            |          |             |    |                |             |            |           |             |               |                 |
| 🔷 outDataEnd                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   | 0                 | - C             |         |      |          |          |            |               |             |           |            |      |              | _     |             |            |          |             |    | 1              |             |            |           | -           |               |                 |
| - Interrupt                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |                   |                 |         |      |          |          |            |               |             |           |            |      |              |       |             |            |          |             |    | _              |             |            |           |             |               |                 |
| 🔶 inintr                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |                   |                 |         |      |          |          |            |               |             |           |            |      |              | _     |             |            |          |             |    | 1              |             |            |           |             |               |                 |
| outintr                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        | US                |                 |         |      |          |          | -          |               |             |           |            |      |              | _     |             |            |          |             |    |                |             |            |           | -           |               |                 |
| - Regi inputille                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               | 500               | 7-              |         |      |          |          |            | v.            |             | - V2      |            | -    |              | 0.    | _           | -10-       |          | V-          |    |                |             | <u> </u>   |           | -0-         |               |                 |
|                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                | 500               | 0               |         |      |          | ¥=       |            | <u>, 1</u>    | 1           |           |            | 13   |              | 4     |             | 5          |          | _6          |    | N              |             | -18        | _         | 19          |               | _ <u>_10_</u> _ |
| data_regui(data_reg                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            | 5                 | <u>u</u>        |         |      |          | _12      | -          |               |             |           |            |      |              |       | _           |            |          |             |    |                |             |            | _         |             |               |                 |
| data_regu2(data_reg                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            | 5                 | <u>u</u> _      |         |      |          |          | 15         |               |             |           |            |      |              |       |             |            |          |             |    |                |             |            |           |             |               |                 |
|                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |                   |                 |         | - Vi |          | _        | <u> </u>   |               | _           | Va        |            | _    |              | _     |             |            |          |             |    |                |             |            |           | _           |               |                 |
| D_UT(houteUT_rid)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |                   | x _/U           |         |      |          |          |            | Vi. 40        |             | 10        |            | 1.40 |              | Vo    |             | Ye 40      |          | Yo          |    | Via            | 1           | 10         |           | Vian        |               | Yo.             |
| grayor(grayor)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 | 0                 | 0               |         |      |          |          | =          | JI 4.3        | Vian        | 10        |            | 1143 | Vi. 10       | 10    | _           | 143        | 1.10     | <u>_/U</u>  |    | <u>, Л.4</u> 3 | Villa       |            |           | 1143        | VI.10         | _/U             |
|                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                | 0                 | U               |         |      |          |          | <u> </u>   |               | <u>,148</u> | <u>/U</u> |            | -    | <u>,1148</u> | 10    |             |            | 1148     | 10<br>Yo    |    |                | <u>,148</u> |            |           |             | <u></u>       | /U              |
| - Post Pouto00                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 | 500.              |                 |         |      |          |          | 1          |               |             |           |            | +    |              | -14-  |             |            |          | <u>_/-2</u> |    | -              |             | _14        |           |             |               |                 |
| R 01/Route02 vid)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |                   | <del>.</del> 16 |         | Ya   |          |          |            |               | _           |           | 16         | -    |              | -     |             |            |          |             |    |                |             |            |           | -           |               |                 |
|                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                | 0                 | A 10            |         | _/\  |          |          | 1          |               | 1140        |           | -10        |      | Y1.40        |       | Ya          |            | 140      |             | Ya |                | 1140        |            | Ya        |             | Y140          |                 |
| grav02(grav02)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |                   | <u>u</u><br>(6  |         | _    |          |          |            |               | A14-0       | 1110      | 10         |      | AL42         | Y1 40 | _/U<br>Yo   |            | 4145     | Y1 40       | Yo |                | V145        | 140        | -10<br>16 |             | 1140          | Y1 40           |
|                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                | 500               | 6               |         |      |          |          |            |               |             | AL 40     | _/U<br>Yr  | -    |              | 1140  | _/U<br>Y2   |            |          | AL40        | 10 |                |             | 4140       |           |             |               | 4190            |
| - Bert OutputTile                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |                   | <u>u</u>        | هي ا    |      |          |          |            |               |             |           |            |      |              |       | _/<         |            |          |             | 40 |                |             |            | -/4-      |             |               |                 |
| B 02/OutputTile rid)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           | 'n                |                 |         | -    |          |          |            |               |             |           | 16         | -    |              |       |             |            |          |             |    |                |             |            |           |             |               |                 |
| B 01(OutputTile_rid)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |                   | ¥6              |         | Ya   |          |          |            |               |             |           |            |      | Yo           | 71    |             |            | Yo       | Ya          |    |                | Yo          | 4          |           |             | Yo            | Ya              |
|                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                | n .               | ₩6              |         | -AU  |          |          |            |               |             |           |            | -    | Yı           |       |             |            | 10       | ant.        |    |                | -10<br>15   |            |           |             | 70<br>14      | - AL            |
| and and a second |                   | - W_            |         |      |          |          |            |               |             |           |            |      | <u>/1</u>    |       |             |            |          |             |    |                | - A-2       |            |           |             | - 4           |                 |

図 4.8: 2PT の動作

図 4.9: 3PT の動作

| 🌱 uk                   | U                 |                                         |         |          |        |           |       |          |            | _ ل              |              | _از ال_ا          |      |            |        |             |        |           |             |     |
|------------------------|-------------------|-----------------------------------------|---------|----------|--------|-----------|-------|----------|------------|------------------|--------------|-------------------|------|------------|--------|-------------|--------|-----------|-------------|-----|
| 🧇 Start                | ×                 |                                         |         |          |        |           |       |          |            |                  |              |                   |      |            |        |             |        |           |             |     |
| Itate_InputTile        | X                 | -0                                      | 1       | 12       | )3 )   | 4 )5      | )3    | )4 )5    | 13         | )4 )5            | )3 )4        | 15 X3             | /4   | 15 13      | 4      | )5          | )3     | X4.       | )5          | 3   |
| 🔷 State_Route01        | ×                 | 0                                       | 1       |          |        | 2 3       | )4    | li 12    | 13         | .) <u>4</u> 1    | )2 X3        | (4 X1             | 12   | 3 4        | Ĵ1     | 12          | 3      | <u>/4</u> | Х1          | 2   |
| Itate_Route02 🗧 🕹      | *                 | 0 1                                     | 1       |          |        | )2        | 3     | )4 )1    | 2          | )3 )4            | X1 X2        | 3 )4              | Xi I | 2 3        | 4      | λı          | 12     | )3        | )4          | 11  |
| 🤣 State_Route03        | X                 | -0 1                                    | 1       |          |        |           | 12    | 13 14    | 11         | 2 3              | )4 X1        | 12 13             | 14   | 11 2       | 3      | 14          | 71     | 2         | 13          | 4   |
| state OutputTile       | ×                 | - 6 t                                   | 6       |          |        |           |       | 12       | 13         | )4 X1            | 12 13        | 14 X1             | 12   | 13 14      | İı     | 12          | )3     | ¥4        | X1          | 12  |
| - Indress              |                   |                                         |         |          |        |           |       |          |            |                  |              |                   |      |            | 1      |             |        |           |             |     |
| 🧄 outBequest           | ×                 |                                         |         |          |        |           | _     |          | -          |                  |              | 2                 | -    |            |        |             | _      |           |             | -   |
| 🔨 inData               | 00000000000000000 | 000000000000000000000000000000000000000 | 000     | 000 1000 | Yooooo | 000000105 | 05    |          | -          | -                |              |                   |      |            | -      |             | _      |           |             | -   |
| X in the line          | 0                 | Ĩ.                                      | лор — Л |          |        |           |       |          |            |                  |              |                   |      |            |        |             |        |           |             | +   |
| - E-mail               | ľ                 |                                         | ·       |          |        |           |       |          |            |                  |              |                   |      |            |        |             |        |           |             |     |
| Ligress                |                   |                                         |         |          |        |           |       |          |            |                  |              |                   |      |            |        |             |        |           |             |     |
| 7 innequest            | 0                 |                                         |         | _        |        |           |       |          |            |                  |              |                   |      |            |        |             |        |           |             |     |
|                        |                   |                                         |         | _        |        |           |       | 4        | _          | v                | v            |                   | -v   |            |        |             |        |           |             |     |
| 🕎 outData              |                   | 0000000000                              | 00000   | _        |        |           |       | 10000    | 1000000    | 0000)000         | ))0000000000 | 0000 <i>1</i> 000 | 1000 |            | 001000 |             | 00000  | 100000    |             | 100 |
| 🔷 outValid             | 8                 |                                         |         |          |        |           | _     |          |            |                  |              |                   |      |            | -      |             |        |           |             |     |
| 🔷 outDataEnd           | 8                 |                                         |         | _        |        |           | _     |          | _          |                  |              |                   |      |            |        |             |        |           |             |     |
| - Interrupt            |                   |                                         |         |          |        |           |       |          |            |                  |              |                   |      |            |        |             |        |           |             |     |
| 🔷 inlinti              | 0                 |                                         |         |          |        |           |       |          | _          |                  |              |                   |      |            |        |             |        |           |             |     |
| 👉 outintr              | ×                 |                                         |         | _        |        |           |       |          | _          |                  |              |                   |      |            |        |             |        |           |             |     |
| - Reg1 InputTile       |                   |                                         |         |          |        |           |       |          |            |                  |              |                   |      |            |        |             |        |           |             |     |
| 参 iur(iur)             | ×                 | 6                                       | 2       |          |        |           |       |          |            |                  |              | 3                 |      |            | -      |             |        |           |             |     |
| 🧄 data reg01(data reg. | . ×               | 6                                       |         |          | 15     |           |       |          |            |                  |              |                   |      |            | 1      |             |        |           |             |     |
| idata reg02(data reg.  |                   | 6                                       | 2       |          |        | 5         |       |          |            |                  |              |                   |      |            |        |             |        |           |             |     |
| 🤞 data reg03(data reg  |                   | 6                                       |         |          |        |           | YS    |          |            |                  |              |                   |      |            | -      |             |        |           |             |     |
| - Reg1 Route01         |                   |                                         |         |          |        |           | _     |          |            |                  |              | 1                 |      |            |        |             |        |           |             |     |
| A B 01/Boute01 rid)    | 4                 | 10                                      | Yi      | -        |        |           | -     | -Yo      | -          |                  |              | 3                 |      |            |        |             |        |           |             |     |
| 🔨 grav01(grav01)       |                   | 6                                       |         |          |        | 1143      |       | Yo       | 142        | Yo               | Y142         | Ya                |      | 1142       | 6      |             | 11.42  |           | Yo          | +   |
| 👗 (rsuli)((rsuli))     |                   |                                         |         |          |        | AL-79     | Y1 40 | -Yo      | 140        | Y140 Yo          |              | 1149 Yo           |      | Y          | 10 10  |             | -11-74 | Y140      | Yo          |     |
|                        | 2                 | 2                                       |         |          | _      |           |       | Yr       |            | - <u>AL40 A0</u> |              | V-140 /0          |      | AU         | 10 10  |             |        | A140      | NE NE       |     |
|                        | 2                 | U.                                      |         |          |        |           |       |          |            | /6               |              |                   | -1   | -          |        |             | -      |           | _IQ         |     |
|                        |                   | 10                                      |         |          |        |           |       | 10       |            |                  |              |                   |      |            |        |             | _      |           |             |     |
|                        |                   |                                         | 0       |          |        |           | -v    |          | =          | v                | v_*          |                   | -v   |            |        | ¥2          |        | v         |             | +   |
| grayul(grayul)         | Č.                | <u> </u>                                |         | _        |        |           | 1143  | <u> </u> | -          | J143             |              | 143               | 10   |            | 43     | _0          |        | 1143      | V           | Ψ.  |
| 🕎 grayU2(grayU2)       | ×.                | 0                                       | 2       | _        |        |           |       | 1148 10  |            | 148              | 3 /0         | <u>λ148</u>       | 10   |            | 148    | _10         |        |           | J148        | μ   |
| 😪 (()                  | X                 | 0                                       | 5       | -        |        |           |       |          | -          |                  | 12           | 3                 | 13   | 1          | -      |             | _      |           |             | 15  |
| - Reg1 Route03         |                   |                                         |         |          |        |           |       |          |            |                  |              |                   |      |            |        |             |        |           |             |     |
| B_01(Route03_rid)      | 18 I              | , <u>10</u>                             | l1      | _        |        |           |       |          | -10        |                  |              | <u>.</u>          |      |            |        |             | _      |           |             |     |
| 🔷 gray01(gray01)       | ×                 | 0                                       |         |          |        |           |       | J143     | 10         | X143             | 3 10         | <u>(143</u>       |      | <u>)</u> 0 | 143    |             | 10     |           | <u>,143</u> |     |
| < gray02(gray02)       | X                 | 0                                       | 2       |          |        |           |       | Ĵ148     | þ          |                  | X148 X0      | <u>.</u>          | (148 | )0         |        | <b>X148</b> | _0_    |           |             | 14  |
| 🤣 i(i).                | X                 | - 0                                     |         |          |        |           |       |          | <b>1</b> 1 |                  | 12           | 3                 |      | 13         |        |             | )4     |           |             |     |
| - Reg1 OutputTile      |                   |                                         |         |          |        |           |       |          |            |                  |              |                   |      |            |        |             |        |           |             |     |
| I B_04(OutputTile_rid) | ×                 | )0                                      | 2       |          |        |           |       |          |            |                  |              |                   |      |            |        |             |        |           |             |     |
| I B_03(OutputTile_rid) | ×                 | į –                                     | 2       |          |        |           |       |          | 10         |                  |              | 8                 |      |            | 1      |             |        |           |             |     |
| S_02(OutputTile_rid)   | X                 |                                         | 2       |          |        |           |       | jo       |            |                  |              | 3                 |      |            | 1      |             |        |           |             | i - |
| S_01(OutputTile_rid)   | ×                 | i no                                    | X1      |          |        |           |       |          |            | )0               |              | 3                 |      |            |        |             |        |           |             |     |
| 🕹 i(i)                 | x                 | 6                                       | 2       |          |        |           |       |          |            | Ĭ1               |              | 12                |      |            | 13     |             |        |           | <u>1</u> 4  |     |
|                        |                   |                                         |         |          |        |           |       |          |            |                  |              |                   |      |            |        |             |        |           |             |     |

| 🤣 Cik                 | 1                                       |                                         |          |               |          |      |      |            |          |                |               |              |          |                  |          |           |     |                 |                        |              |
|-----------------------|-----------------------------------------|-----------------------------------------|----------|---------------|----------|------|------|------------|----------|----------------|---------------|--------------|----------|------------------|----------|-----------|-----|-----------------|------------------------|--------------|
| 🤣 Start               | 1                                       |                                         |          | 1             |          |      | -    | 11.9428    |          | ar ar          |               |              |          |                  |          |           |     |                 |                        |              |
| 🤣 State_InputTile     | 1                                       | -0 11                                   |          | 12 3          | 4 )5     | 6    | )3   | )4         | 5        | <u>)</u> 6 (3  | )4            | )5           | 6        | <u>)</u> 3 )4    |          | 5 )6      | 3   | )4 )5           | )6                     | )3           |
| ntate_Route01         | 1                                       | (a) 1                                   |          |               | 2 3      | )[4  | )1   | 12         | 3        | )4 X1          | 1/2           | )3           | 4        | (i )             |          | 3 )4      | 11  | 2 3             | ) <u>4</u>             | X1           |
| Itate_Route02         | 1                                       | - (a i i)                               |          |               | 2        | 3    | )4   | )1         | 2        | ) <u>3</u> )/4 | Xı            | )2           | 3        | (4)              |          | 2 3       | 4   | )1 )2           | )3                     | )4           |
| Itate_Route03         | 1                                       | - (a i i i                              |          |               |          | 2    | )3   | ) <u>4</u> | 1        | 12 13          | )/4           | χ1           | 2        | )3)4             |          | 1 2       | 3   | )4 )1           | 12                     | )3           |
| itate_Route04         | 1                                       | -0 11                                   |          |               |          |      | 12   | 13         | 4        | 11 12          | 13            | ) <u>4</u>   | 1        | 12 13            |          | 4 11      | 2   | 3 4             | X                      | 12           |
| 🍝 State_OutputTile    | 1                                       |                                         |          |               |          |      |      | 12         | 3        | 14 15          | Xı            | 12           | 3        | ) <u>(</u> 4 )(s |          | 1 12      | 3   | )4 )5           | Xı                     | 12           |
| - Ingress             |                                         | 2.0                                     |          |               |          |      |      | 14         |          | 20 20          | 3             | - 32         |          |                  |          |           | 1   | <b>Constant</b> | 1                      |              |
| 🧄 out Request         | n -                                     |                                         | i i      |               | -        |      |      |            | -        |                | +             |              |          |                  |          |           | -   |                 |                        |              |
| 🍝 inData              | 000000000000000000000000000000000000000 |                                         | no Yr    | 000 7000 7000 | 00000010 | 50a  |      |            | -        |                | +             |              |          |                  |          |           | -   |                 |                        |              |
| 🔨 in\/alid            | n                                       |                                         | ،ر<br>۲  |               |          |      |      |            |          |                |               |              |          |                  |          |           | -   |                 |                        |              |
| - Fritess             |                                         |                                         |          |               |          |      |      |            |          |                |               |              |          |                  |          |           |     |                 |                        |              |
| 🔺 inBequest           | n.                                      |                                         |          |               |          |      |      |            |          |                |               |              |          |                  |          |           |     |                 |                        |              |
| inPAE                 | ů.                                      |                                         |          |               |          |      |      |            |          |                | -             |              |          |                  |          |           |     |                 |                        |              |
| aut Data              | 000000000000000000000000000000000000000 | 000000000000000000000000000000000000000 | 0000     | _             |          |      | -    | 100000     | 00000    | 000090         | Yoor          | Yooooo       | 00000    | 000090           |          | 000 10000 |     | 0000000         | Yor                    |              |
|                       | 000000000000000000                      |                                         | 10101010 |               |          |      |      | 100000     |          | 000000         | 1,000         |              |          | 000000           |          | 000       | dat | a in sim        | :/sim                  | top/TB/      |
|                       | 0                                       |                                         |          |               |          |      |      |            |          |                |               | 115          |          |                  |          |           | 0   | 077-0277-0245   | escapeeri <del>n</del> | 1000-001-000 |
|                       | U                                       |                                         |          |               |          | _    |      |            |          |                |               |              |          |                  | -        |           |     |                 |                        |              |
| - Interrupt           |                                         |                                         |          |               |          |      |      |            |          |                |               |              |          |                  |          |           |     |                 |                        |              |
|                       | 0                                       |                                         |          | _             |          | _    |      |            |          |                | -             |              |          |                  | +-       |           | +   |                 | -                      |              |
| eutinte               | 0                                       |                                         |          | _             |          | _    |      |            |          |                | -             |              |          |                  | -        |           | -   |                 | -                      |              |
| - Regi Inputille      | 1942                                    |                                         |          | -             |          |      | 10   |            | -        |                |               |              |          | 1/-              |          |           | _   |                 |                        |              |
| <b>?</b> (0)          | 250                                     |                                         |          |               |          |      |      |            |          |                |               |              |          | .3               |          |           | 4   |                 |                        | ,15          |
| 🕎 data_regU1(data_reg | 5                                       |                                         |          | 5             |          |      |      |            |          |                |               |              |          |                  |          |           |     |                 |                        |              |
| 🔷 data_reg02(data_reg | 5                                       | 0                                       |          |               | 15       |      |      |            | <u> </u> |                |               |              |          |                  |          |           | +   |                 |                        |              |
| - Reg1 Route01        |                                         | 1000 Barris                             |          |               |          |      |      |            | -        |                |               |              |          |                  |          |           |     |                 |                        |              |
| B_01(Route01_rid)     | 0                                       | × )0                                    | X1       |               |          |      | 0    |            |          |                | _             |              |          |                  |          |           |     |                 | _                      |              |
| gray01(gray01)        | 0                                       |                                         |          |               | <u></u>  | 3    | _10  |            | 143      | <u></u> )0     |               | <u></u>      |          | 10               | 1        | 143       | 10  |                 | 43                     | 10           |
| gray02(gray02)        | 0                                       | 0                                       |          |               |          | J148 | 3 10 |            |          | <u> 148 10</u> |               |              | 148      | 10               |          | J148      | 10  |                 | X14                    | 18 ]0        |
| 🔷 i(i)                | 250                                     | 0                                       |          |               |          |      | 11   |            | 1        | )2             |               |              | <u> </u> | <u>1</u> 3       |          |           | 4   |                 |                        | )5           |
| - Reg1 Route02        |                                         |                                         |          |               |          |      |      | 11582      | į.       |                |               |              |          |                  |          |           |     |                 |                        |              |
| B_01(Route02_rid)     | 0                                       | x X0                                    | X1       |               |          |      |      | )0         |          |                |               |              |          | 1000             |          |           |     |                 |                        |              |
| 🕎 grayO1(grayO1)      | 0                                       |                                         |          |               |          | 125  |      | 10         |          | <u> 143</u>    | lo            |              | 143      | /i               |          | 143       |     | <u>10</u>       | X14                    | 13           |
| 🗇 gray02(gray02)      | 0                                       | 0                                       |          |               |          |      | J148 | )io        |          | <u></u> 11     | 1 <u>8 )0</u> |              |          | <u>148</u>       |          |           | 148 | .)o             |                        | <u>,</u> 148 |
| 🤣 (i)                 | 250                                     |                                         |          |               |          |      |      | 31         |          |                | 12            |              |          | ),               |          |           |     | )4              |                        |              |
| - Reg1 Route03        | 2                                       |                                         |          |               |          |      |      |            |          |                |               |              |          |                  |          |           |     |                 |                        |              |
| B_01(Route03_rid)     | 0                                       | x )0                                    | Xı       |               |          |      |      |            | 10       |                |               |              |          | N-1              |          |           |     |                 |                        |              |
| 🗇 grayO1(grayO1)      | 0                                       |                                         |          |               |          |      | J143 |            | 10       | X1+            | 43            | Xo           |          | X143             | <u> </u> | 0         | 143 | )0              | 8                      | <u>,</u> 143 |
| Iray02(gray02)        | 0                                       | 0                                       |          |               |          |      |      | 148        | 0        |                | <u>,148</u>   | )0           |          |                  | 48 /     | )         |     | (148 )0         |                        |              |
| 🤣 (i)                 | 250                                     |                                         |          |               |          |      |      |            | 1        |                |               | <u>)</u> 2   |          |                  |          | 3         |     | 4               | 3                      |              |
| - Reg1 Route04        | . 8                                     |                                         |          |               |          |      |      |            |          |                |               |              |          |                  |          |           |     |                 |                        |              |
| B_01(Route04_rid)     | 0                                       | x 10                                    | Xi       |               |          |      |      |            |          | )0             |               |              |          |                  |          |           |     |                 |                        |              |
| 🤣 gray01(gray01)      | 0                                       | 0                                       | 18       |               |          |      |      | 143        |          | )o             | X143          |              | b        | )(               | 43       | 10        |     | X143            | )0                     |              |
| 🤣 gray02(gray02)      | 0                                       | 0                                       |          |               |          |      |      |            | 148      | )o             |               | <u>(</u> 148 | b        |                  | X        | 148 )0    |     | X1              | 48 )0                  |              |
| 🤣 i(i)                | 250                                     |                                         |          |               |          |      |      |            |          | X1             |               |              | 2        |                  |          | 13        |     |                 | Y4                     |              |
| - Reg1 OutputTile     |                                         | 543 - 322 - 17                          |          |               |          |      |      |            |          |                |               |              |          |                  |          |           |     |                 |                        |              |
| s_04(OutputTile_rid)  | 0                                       | x                                       |          |               |          |      |      |            |          | )0             |               |              |          |                  |          |           |     |                 |                        |              |
|                       | 0                                       |                                         |          |               |          |      |      |            | 10       |                |               |              |          |                  |          |           |     |                 |                        |              |

図 4.10: 4PT の動作

| プログラム            | 手法             | 全体クロック数 | 従来手法のクロック数の差 | 削減率 (%) |
|------------------|----------------|---------|--------------|---------|
|                  | 従来手法           | 2258002 | 0            | 100     |
| Laplacian Filter | $2\mathrm{PT}$ | 2007002 | 251000       | 88.8    |
|                  | 3PT            | 1342002 | 916000       | 59.4    |
|                  | 4PT            | 1258002 | 1000000      | 55.7    |

表 4.5: 入出力と演算のオーバーラップによるクロックの削減率





| プログラム            | 手法             | 実行時間 (ms) | CPU の実行時間の差 (ms) | 向上率(%) |
|------------------|----------------|-----------|------------------|--------|
|                  | CPU            | 49.56     | 0                | 100    |
|                  | 従来手法           | 32.72     | 16.83            | 151    |
| Laplacian Filter | $2\mathrm{PT}$ | 34.01     | 15.54            | 145    |
|                  | PT3            | 22.74     | 26.81            | 217    |
|                  | PT4            | 20.96     | 28.59            | 236    |

表 4.6: 実行時間の比較

#### 4.4.2 実行速度の比較

各プログラムの CPU、従来手法、提案手法の PT 数の計 5 つの実行時間を表 4.6 と図 4.12 に示す。CPU の実行時間の測定は、関数化したループ内の命令文を gprof で 20 回測 定し、その平均値とした。一方、DRP の実行時間は、ModelSim でカウントされた実行ク ロック数と DRP コンパイラの Place & Route 後の動作周波をもとに式 (4.2) で求めた。

$$execution\_time\_on\_DRP = \frac{clock\_cycle}{frequency}$$
(4.2)

- execution\_time\_on\_DRP : DRP での実行時間
- clock\_cycle:実行クロックサイクル
- frequency: DRPの動作周波数

提案手法は、CPUと従来手法より高速に実行することが可能であることが分かった。提 案手法は、入出力と演算がオーバーラップしているので、2PTでは2つのデータを、3PT では3つのデータを、4PTでは4つのデータを連続的に出力している。この結果、従来手 法より実行時間を短縮することが可能となった。

図4.13は、従来手法と提案手法の動作周波数を示している。一般的なの並列処理であ れば、並列度が倍になれば実行時間も倍になると考えられるが、PTへのデータ入出力の タイミングがずれていること、動作周波数が低下していることから実行時間は、PT数の 増加に伴った倍率で向上していない。しかし、提案手法は、従来手法の動作周波数より約 10MHz 低いが、実行クロック数を削減したことで提案手法より処理の高速化を実現して いることが分かる。



図 4.12: ラプラシアン・フィルタの実行時間の比較



図 4.13: ラプラシアン・フィルタにおける従来手法と提案手法の動作周波数の比較

表 4.7: コンテキスト数の比較

| プログラム            | 手法   | コンテキスト数 |            |                 |             |
|------------------|------|---------|------------|-----------------|-------------|
|                  |      |         | Input Tile | Processing Tile | Output Tile |
|                  | 従来手法 | 13      |            |                 |             |
| Laplacian Filter | 2PT  | 5       | 5          | 5               | 4           |
|                  | 3PT  | 6       | 6          | 5               | 6           |
|                  | 4PT  | 6       | 6          | 5               | 6           |

#### 4.4.3 コンテキスト数の比較

DRP コンパイラのフロントエンド合成でコンテキストの生成を行うので、実験プログ ラムのコンテキスト数はフロントエンド合成後のコンテキスト数とした。表4.7 は、従来 手法と提案手法の各 PT 数のコンテキスト数である。提案手法のコンテキスト数は、Input Tile、PT、Output Tile のコンテキスト数で最も大きいコンテキスト数を示している。

提案手法は、従来手法のコンテキスト数の半分以下になっていることが分かる。Input Tile と Output Tile のコンテキスト数が PT のコンテキスト数より多いため、全体のコン テキスト数でボトルネックとなっていることが分かる。本研究では、PT を対象としてコ ンテキスト数の削減を行っていたので、Input Tile と Output Tile に対しては何も工夫を 凝らしていない。

#### 4.5 考察

本研究で提案した2つの手法について実験を行い、評価を行った。ラプラシアン・フィ ルタで提案手法の実行時間は、CPUより最大で236%向上した。これは、動作周波数が低 下しても、データ入出力と演算をオーバーラップさせることで実行クロックを最大55%に 削減したことで達成することができた。2つ目の提案であるデータ駆動方式によるアルゴ リズムの削減を適応してもPTのコンテキスト数は、従来手法の半分のコンテキスト数で 実装できることが分かった。また、PT数を向上させるとInput Tile と Output Tileのコ ンテキスト数が増加し最終的には、全体のコンテキスト数が増加してしまうことが判明し た。しかし、Input Tile と Output Tile は、DRPの制約により大幅にコンテキストを削減 することが不可能である。従って、このPT 数とInput Tile と Output Tileのトレードオ フを解析する必要がある。

# 4.6 まとめ

本章では、前章で提案した2つの手法を評価するために実験を行った。評価は、実行ク ロック数の削減率、実行時間の比較、コンテキスト数の削減率を行った。実験の結果、本 研究で提案した両手法とも従来のDRPの処理法より有効な手法であることが分かった。

# 第5章 まとめ

### **5.1**本研究の目的

本研究では、マルチコンテキスト型動的リコンフィギャラブルプロセッサである NEC エレクトロニクス社の Dynamically Reconfigurable Processor(DRP)を対象デバイスとし た。DRP は、リコンフィギャラブルデバイスの一種で任意の回路を何度でも構成可能な デバイスである。基本セルの Processing Elements(PE)が8ビットの ALUベースで構成 されているので、ストリーム処理の高速処理と面積効率の向上を実現することが可能であ る。また、DRP は、複数のコンテキストをデバイス内に保存することができるので、瞬 時にコンテキストスイッチを行うことができる。動的にデバイスの一部を再構成する動的 部分再構成も容易に実現できることも大きなメリットである。このような DRP の特徴を 活かして、CPU でボトルネックとなる処理を DRP でハードウェア化することによって高 速に処理できる可能性がある。

しかし、現在のDRPのI/Oビット幅が入出力共に64ビットと非常に少ないので、処 理によっては演算に必要なデータを1クロックで入力することが不可能となる。この場 合、複数クロックでデータを入力してから演算を行わなければならない。従って、典型的 なDRPの処理は、入力・演算・出力と3つのフェーズで構成されることとなる。天野ら [19]の報告では、DRP本来のI/O数である128ビットに強化したとしてもデータ入出力 時間が全体の実行時間の20%近くになると述べている。また、DRPは、コンテキストを 16個までしかデバイス内に保存することができない。16個以上のコンテキストを要求す る処理を実行する場合、実行中にデバイス内に保存できなかったコンテキストを要求す そりからダウンロードする必要があり、この結果、ダウンロード時間がボトルネックとな るってしまう。このことから、処理が要求するコンテキスト数を削減することは、コンテ キスト型方式のデバイスにとって課題である。そこで、本研究では入出力時間の削減とコ ンテキスト数の削減を目的とした。

#### 5.2 提案手法

本研究では、入出力時間の削減とコンテキスト数の削減を達成するために2つ手法を提案した。1つ目の手法は、入出力時間の削減するためにデータの入出力と演算をオーバー ラップさせて処理する手法である。DRPは、動的部分再構成をコアとなる Tile 毎に行う ことができるので、他の Tile に依存することなく独自に処理を行うことが可能である。こ の機能を利用して、ある Tile でデータ入力を行っている間に、他の Tile は演算処理を行っ ている、また、他の Tile が演算処理を行っている間に、ある Tile はデータ出力を行って いるというように各 Tile へのデータ入力のタイミングをずらすことによってデータ入出 力と演算処理をオーバーラップさせる。この手法により、データ入出力の時間を隠蔽する ことが可能である。

2つ目の手法は、1クロックで入力可能なデータ数からデータ駆動型のコンテキストを生 成することでコンテキストを削減する手法である。DRP で最も高速に処理するためには、 動作周波数とコンテキスト数のトレードオフで決定される。DRP コンパイラは、Control Data-Flow Graph(CDFG)を分割することで複数のコンテキストを生成する。このコンテ キスト内の一つを DRP 上に実現するので、CDFG を細かく分割すればハードウェア上の クリティカルパスを減少させて動作周波数を向上させることができる。しかし、CDFG を 細かく分割することは、コンテキスト数の増加と実行クロック数の増加となる。本提案で は、1つ目の提案でオーバーラップ処理を行っているので、従来の DRP の処理方法より 高速に処理をすることが可能と考えられる。従って、コンテキスト数を削減するために CDFG を粗く分割することが可能であると考えられる。分割は、1クロックで入力された データから CDFG で実行可能な演算子を探索する方法で行う。この分割で生成されるコ ンテキストは、1クロックで入力されたデータのデータ駆動型コンテキストである。

### 5.3 実験結果

提案手法を評価するために、CPUと従来手法との実行時間の比較・実行クロック数の 削減率・コンテキストの削減数の評価を行った。その結果、ラプラシアン・フィルタを 4PT で処理を行った場合、実行時間の向上率が236%向上した。これは、本研究で提案し た DRP によるデータ入出力と演算をオーバーラップさせたことで達成できた。この手法 を用いると動作周波数は低下するが、実行クロック数を大幅に削減することができるので 高速に処理することができる。2つ目の提案であるデータ駆動方式によるコンテキスト数 の削減を適応した結果、従来研究のコンテキスト数の半分で実装することが可能となった。

# 5.4 本研究の貢献

データ入出力を演算処理とオーバーラップさせて実行クロック数を大幅に削減でいたの で、演算を1回行うために多くの入力データが必要な処理に対しては、本提案を適応する ことで実行時間を短縮することが可能である。また、コンテキスト数を多く要求する処理 に対してデータ駆動方式のコンテキストを適用することでコンテキストを削減すること ができる。これにより動作周波数は、低下するが1つ目の提案による実行クロックの削減 により高速に処理することが可能である。

# 5.5 今後の課題

本研究では、4PTまで実装し評価を行ったが、それ以上のPT数については行っていない。従って、DRPで5PT以上実現できた場合の本研究の有効性を見出す必要がある。また、PT数を上げるとInput TileとOutput Tileのコンテキスト数が増加してしまうことが本研究で明らかになったので、Input TileとOutput Tileをどのような回路構成にするか、どのようなアーキテクチャにするべきかを提案する必要がある。

参考文献

- Masayasu Suzuki, et al, "Stream Applications on the Dynamically Reconfigurable Processor" Proc. IEEE International Conference on Field-Programmable Technology(ICFPT'04),pp137-152
- [2] Noriaki Suzuki, et al, "Implementing and Evaluating Stream Applications on the Dynamically Reconfigurable Processor" Proc. IEEE Field-Programmable Custom Computing Machines(FCCM'04),pp.328-329
- [3] H.Isonaga, Y.Inoguchi "Implimentation of high-speed audiofingerprint system using FPGAs" IEICE Technical Report, RECONF2005-77
- [4] 丹羽雄平,前田敦司,山口善教"暗号通信パケットストリームの n-gram 予測による FPGA 動的再構成手法とその評価"情報処理学会論文誌:コンピューティングシステ ム Vol.48,No.SIG3(ACS17),pp27-43(2007)
- [5] S.Abe, et al, "Implementation of AES-CBC on the Dynamically Reconfigurable Processor", Technical Report of IEICE
- [6] R.Nakahashi, et al, "A New Design Method for Implementing Real-Time Embedded Systems on Dynamically Reconfigurable Processors", IEICE Technical Report,RECONF2005-58
- [7] T.Kitaoka,H.Amano,K.Anjo "Compressing configuration data of DRP for quick rumtime configuraton", Technical Report of IEICE
- [8] 鈴木,長谷川,阿部,ヴマン,天野 "動的再構成可能プロセッサにおけるコンテクストメ モリの削減方法",電子情報通信学会論文誌 D Vol.J89-D No.6 pp1101-1109
- [9] Xilinx Corporation, "Virtex-2 Platform FPGAs:Complete Data Sheet",
- [10] Xilinx Corporation, "マイクロプロセッサを使用するスレーブシリアル/SelectMAP モードによるザイリンクス FPGA のコンフィギュレーション",
- [11] Y.Hori,H.Yokoyama,H.Sakane,K.Toda, "Design and Implementation of Self Run-Time Partical Reconfigurable System", IEICE Technical Report,RECONF2006-75

- [12] Zhiyuan Li,Scott Hauck, "Configuration Compression for Virtex FPGAs", Proc. IEEE Field-Programmable Custom Computing Machines(FCCM'01),pp.147-159
- [13] Krishna Raghuraman, Haibo Wang, and Spyros Tragoudas, "Minimizing FPGA Reconfiguration Data at Logic Level", Proc. ISQED'06, pp.27-29
- [14] 末吉敏則, 天野英晴, "リコンフィギャラブルシステム", 東京, オーム社, 2006 p279
- [15] NECエレクトロニクス社http://www.necel.co.jp, Nov. 2007
- [16] IPFlex Inc. http://www.ipflex.com/, Nov. 2007
- [17] Narasimhan Ramasubramanian, Ram Subramanian and Santosh Pande, "Automatic Compilation of Loops to Exploit Operator Parallelism on Configurable Arithmetic Logic Units", IEEE Trans. On Parallel And Distributed System, Vol.13, No1, pp45-66, Jun 2002
- [18] Y.Inoguchi "Outline of the Ultra Fine Grained Parallel Processing by FPGA", Proc. High Performance Computing and Grid in Asia Pacific Region (HPCAsia'04),pp.434-411
- [19] H.Amano, S.Abe, K.Deguchi, Y.Hasegawa An I/O Mechanism on a Dynamically Reconfigurable Processor-Which Should Be Moved:Data or Configuration Proc. IEEE Field Programmable Logic and Applications (FPL'05),pp.347-352
- [20] X.P.Ling, H.Amano WASMII: a data driven computer on a virtual hardware Proc. IEEE Field-Programmable Custom Computing Machines(FCCM'93),pp.33-42
- [21] Y.Awashima, et al, "C Compiler for Dynamically Reconfigurable Processor: DRP", Technical Report of IEICE VLD2003-118, CPSY2003-27(2004)
- [22] T.Toi, N.Nakamura, Y.Kato, T.Awashima, K.Wakabayashi "High-Level Synthsis Challenges and Solutions for a Dynamically Reconfigurable Processor", IEEE/ACM International Conference ICCAD'06, November 5-9, pp702-708
- [23] 酒井 幸市 "デジタル画像処理の基礎と応用 -基本概念から顔画像認識まで-", CQ 出版社,2003

# 謝辞

本研究を行うにあたり、多くの御助言、御指導を賜りました北陸先端科学技術大学院大学の情報科学センター井口 寧准教授に深く感謝するとともに、ここに御礼申し上げます。

貴重な御助言、御意見を頂いた松澤 照男教授、田中 清史准教授に深く感謝いたします。

井口研究室のゼミで貴重な御助言、御意見を頂いた佐藤 幸紀助教と井口研究室のメン バーに深く感謝いたします。

そして、ハードウェア合同ゼミで貴重な御助言、御意見を頂いた皆様、本研究を応援し ていただいた藤田唯氏、同フロアの松本 正教授と松本研究室のメンバー、田中研究室の 請園智玲氏、日比野研究室の矢澤慶樹氏、同期の親友に深く感謝いたします。また、

本研究を進めるにあたり DRP-1 と開発環境を提供していただき、トラブルのサポート を行っていただいた NEC エレクトロニクス社に深く感謝いたします。

最後に、ここまで暖かく見守って下さった父、母、妹に深く感謝いたします。