研究者総覧

松本 尚MATSUMOTO Takashiマツモト タカシ

所属部署名研究院生活環境科学系生活情報通信科学領域
職名教授
Last Updated :2022/10/06

researchmap

プロフィール情報

  • 松本, マツモト
  • 尚, タカシ

学位

  • 博士(理学), 東京大学, 2001年09月

研究キーワード

  • 深層学習
  • メモリベース通信
  • 分散処理
  • 並列処理
  • オペレーティングシステム
  • 計算機アーキテクチャ

研究分野

  • 情報通信, 知能情報学, 深層学習
  • 情報通信, 計算機システム

経歴

  • 2013年07月, 9999年, 奈良女子大学, 研究院 生活環境科学系 生活情報通信科学領域, 教授, 日本国
  • 2002年12月, 9999年, 株式会社情報科学研究所, 代表取締役副社長(成果活用兼業), 大学等発ベンチャー企業, 日本国
  • 2011年06月, 2013年06月, キヤノンイメージングシステムズ, 主席研究員, 日本国
  • 2002年04月, 2011年05月, 国立情報学研究所 アーキテクチャ科学研究系, 准教授, 日本国
  • 1991年11月, 2002年03月, 東京大学 理学部情報科学科, 助手
  • 1987年04月, 1991年10月, 日本アイ・ビー・エム 東京基礎研究所, 研究員, 日本国

学歴

  • 2001年09月, 2001年09月, 東京大学, 大学院理学系研究科, 博士(理学), 論文博士, 論文博士, 日本国
  • 1985年04月, 1987年03月, 大阪市立大学, 大学院理学研究科, 物理学専攻, 日本国
  • 1981年04月, 1985年03月, 東京大学, 工学部, 計数工学科数理コース, 日本国

担当経験のある科目(授業)

  • オペレーティングシステム特論演習, 奈良女子大学, 2018年10月99日
  • コンピュータアーキテクチャ特論演習, 奈良女子大学, 2018年10月99日
  • オペレーティングシステム特論, 奈良女子大学, 2018年04月99日
  • コンピュータアーキテクチャ特論, 奈良女子大学, 2018年04月99日
  • 経営工学, 奈良女子大学, 2016年04月99日
  • オペレーティングシステム論, 奈良女子大学, 2016年04月99日
  • 計算機ネットワーク, 奈良女子大学, 2015年10月99日
  • 計算機アーキテクチャ論, 奈良女子大学, 2015年10月99日
  • 情報学概論, 奈良女子大学, 2014年10月99日
  • 情報衣環境概論, 奈良女子大学, 2014年04月99日
  • コンピュータの仕組みと歴史, 放送大学(奈良学習センター), 2017年10月20日
  • 計算機システム論, 奈良女子大学, 2013年09月20日
  • コンピュータの仕組みと歴史, 放送大学(奈良学習センター), 2014年10月20日

所属学協会

  • 情報処理学会, 2020年01月, 9999年
  • 奈良女子大学家政学会, 2013年07月, 9999年

Ⅱ.研究活動実績

論文

  • 査読無し, 日本語, 研究報告数理モデル化と問題解決(MPS), FPGA 実装された超解像回路の検証に向けて, 眞田 麻代; 松本 尚, 2020年02月, 2020-MPS-127, 13, 1, 6, 研究論文(研究会,シンポジウム資料等)
  • 査読無し, 日本語, 研究報告数 理モデル化と問題解決研究会, 深層学習によるインスタグラム画像からの流行抽出, 西田 奈生; 金本 玲花; 松本 尚, 2020年02月, 2020-MPS-127, 15, 1, 6, 研究論文(研究会,シンポジウム資料等)
  • 査読無し, 日本語, 研究報告数理モデル化と問題解決(MPS), FPGA実装されたリアルタイム超解像回路の改良, 松本 尚; 眞田 麻代; 安浪 涼花; 城 和貴, 2018年07月, 2018-MPS-119, 13, 1, 5, 研究論文(研究会,シンポジウム資料等)
  • 査読あり, 英語, Proceedings of 2018 International Conference on Parallel and Distributed Processing Techniques and Applications, Refinement of a real-time super-resolution FPGA circuit, Takashi Matsumoto; Mayo Sanada; Suzuka Yasunami; Kazuki Joe, 2018年07月, 347, 353, 研究論文(国際会議プロシーディングス)
  • 査読無し, 日本語, 研究報告数理モデル化と問題解決(MPS), FPGA実装されたICBIの性能評価, 戸田菜津子; 石川由羽; 松本尚; 城和貴, 2018年02月, 2018-MPS-117, 14, 1, 6, 研究論文(研究会,シンポジウム資料等)
  • 査読あり, 日本語, 教育システム研究, 奈良女子大学教育システム開発センター, 高等学校情報科におけるネットワークの仕組みに関する授業研究 --- コンピュータシステムの理解に向けて ---, 吉川 裕之; 松本 尚; 城 和貴, 2017年10月, 2017, 別冊, 225, 228, 研究論文(大学,研究機関等紀要)
  • 査読無し, 日本語, 研究報告数理モデル化と問題解決(MPS), 実時間超解像回路の試作―ICBIアルゴリズムのFPGA実装―, 松本 尚; 山本 有紗; 城 和貴, 2016年07月, 2016-MPS-109, 11, 1, 4, 研究論文(研究会,シンポジウム資料等)
  • 査読あり, 英語, Proceedings of 2016 International Conference on Parallel and Distributed Processing Techniques and Applications, Real-Time Super Resolution: FPGA Implementation for the ICBI Algorithm, Takashi Matsumoto; Arisa Yamamoto; Kazuki Joe, 2016年07月, 415, 420, 研究論文(国際会議プロシーディングス)
  • 査読無し, 日本語, ETNET2014情報処理学会 システムLSI設計技術研究会, CSoC (Configurable System-on-Chip) の位置付けと発展性について, 松本 尚; 城 和貴, 2014年03月, 2014-SLDM-165, 27, 1, 6, 研究論文(研究会,シンポジウム資料等)
  • 査読あり, 日本語, 情報処理学会論文誌, ソフトウェアDSM機構を支援する最適化コンパイラ, 丹羽 純平; 松本 尚; 平木 敬, 2001年04月, 42, 4, 879, 897, 研究論文(学術雑誌)
  • 査読あり, 英語, Dissertation Thesis, Graduate School of Science, Univ. of Tokyo, A Study on Memory-Based Communications and Synchronization in Distributed-Memory Systems, Matsumoto, T, 2001年02月, 研究論文(大学,研究機関等紀要)
  • 査読あり, 英語, Proc. of the 9th Workshop on Scalable Shared Memory Multiprocessors, On Scalability Issue of Directory Schemes of Hardware Distributed Shared Memory., Tanaka, K; Matsumoto, T; Hiraki, K, 2000年06月, 研究論文(国際会議プロシーディングス)
  • 査読あり, 英語, Proc. of the 2000 Int. Conf. on Supercomputing (ICS’00), ACM press, Comparative Study of Page-based and Segment-based Software DSM through Compiler Optimization, Niwa, J; Matsumoto, T; Hiraki, K, 2000年05月, 284, 295, 研究論文(国際会議プロシーディングス)
  • 査読あり, 英語, Proc. of Int. Workshop. on Innovative Architecture for Future Generation High Performance Processors and Systems (IWIA’99) IEEE Computer Society Press, Evaluation of Compiler-Assisted Software DSM Schemes for a Workstation Cluster., Niwa, J; Inagaki, T; Matsumoto, T; Hiraki, K, 2000年, 57, 68, 研究論文(国際会議プロシーディングス)
  • 査読あり, 英語, Proc. of 6th European PVM/MPI Users’ Group Meeting (EuroPVM/MPI’99), Performance Evaluation of MPI/MBCF with the NAS Parallel Benchmarks, Morimoto, K; Matsumoto, T; Hiraki, K, 1999年09月, 19, 26, 研究論文(国際会議プロシーディングス)
  • 査読あり, 日本語, 情報処理学会論文誌, メモリベース通信を用いた高速MPIの実装と評価, 森本健司; 松本尚; 平木敬, 1999年05月, 40, 5, 2256, 2268, 研究論文(学術雑誌)
  • 査読あり, 日本語, 情報処理学会論文誌, 軽いハードウェアによる分散共有メモリ機構, 田中 清史; 松本 尚; 平木 敬, 1999年05月, 40, 5, 2025, 2036, 研究論文(学術雑誌)
  • 査読あり, 英語, Proceedings - 6th International Conference on Real-Time Computing Systems and Applications, RTCSA 1999, On the schedulability conditions on partial time slots, S. Shirero; M. Takashi; H. Kei, A real-Time round robin, which is a novel real-Time scheduling algorithm, is proposed in this paper. It is a time slot-based algorithm. Tasks are divided into groups and each group of tasks is statically assigned a subset of time slots. In a group, tasks are scheduled by earliest deadline first (EDF). We introduce "regular" subsets of time slots. This has the advantage that any periodic tasks can be scheduled only at time slots contained in the subset using the minimum number of time slots. We show a method to divide the universal set of time slots into at least two regular subsets. Consequently, the real-Time round robin algorithm can schedule periodic tasks whose processor utilization factor does not exceed 100% at a lower scheduling cost than that of the EDF algorithm. Moreover, no missed deadline of a task in one group affect the tasks in any other groups., 1999年, 166, 173, 研究論文(国際会議プロシーディングス)
  • 査読あり, 英語, Proc. of The Fifth Int. Symp. on High Performance Computer Architecture (HPCA5), Lightweight Hardware Distributed Shared Memory Supported by Generalized Combining, Kiyofumi Tanaka; Takashi Matsumoto; Kei Hiraki, 1999年01月, 90, 99, 研究論文(国際会議プロシーディングス)
  • 査読あり, 英語, Proc. of 5th European PVM/MPI Users’ Group Meeting (EuroPVM/MPI’98), Springer-Verlag LNCS 1497, Implementing MPI with the Memory-Based Communication Facilities on the SSS-CORE Operating System, Morimoto, K; Matsumoto, T; Hiraki, K, 1998年09月, 223, 230, 研究論文(国際会議プロシーディングス)
  • 査読あり, 英語, Proc. of the 1998 Int. Conf. on Parallel Processing, Supporting Software Distributed Shared Memory with Optimizing Compiler, Inagaki, T; Niwa, J; Matsumoto, T; Hiraki, K, 1998年08月, 225, 234, 研究論文(国際会議プロシーディングス)
  • 査読あり, 英語, Proc. of The International Conference on Parallel and Distributed Processing Techniques and Applications (PDPTA-98),, Run-time Loop Restructuring for On-Chip Parallel Processor., Tamatsukuri, J; Matsumoto, T; Hiraki, K, 1998年07月, 3, 1489, 1496, 研究論文(国際会議プロシーディングス)
  • 査読あり, 英語, Proc. of The International Conference on Parallel and Distributed Processing Techniques and Applications (PDPTA-98), Compiler-Assisted Distributed Shared Memory Schemes Using Memory-Based Communication Facilities, Matsumoto, T; Niwa, J; Hiraki, K, 1998年07月, 2, 875, 882, 研究論文(国際会議プロシーディングス)
  • 査読あり, 英語, Proc. of the 1998 ACM Int. Conf. on Supercomputing, Speculative execution model with duplication, Hiraki, K; Tamatsukuri, J; Matsumoto, T, 1998年07月, 321, 328, 研究論文(国際会議プロシーディングス)
  • 査読あり, 英語, Proc. of the 1998 ACM Int. Conf. on Supercomputing, MBCF: A Protected and Virtualized High-Speed User-Level Memory-Based Communication Facility, Matsumoto, T; Hiraki, K, 1998年07月, 259, 266, 研究論文(国際会議プロシーディングス)
  • 査読あり, 日本語, 情報処理学会論文誌, 非対称分散共有メモリ上における最適化コンパイル技法の評価., 丹羽 純平; 稲垣 達氏; 松本 尚; 平木 敬, 1998年06月, 39, 6, 1729, 1737, 研究論文(学術雑誌)
  • 査読あり, 日本語, 情報処理学会論文誌, 汎用超並列OS SSS-COREにおけるスケジューリング方式, 信国 陽二郎; 松本 尚; 平木 敬, 1998年06月, 39, 6, 1738, 1745, 研究論文(学術雑誌)
  • 査読あり, 日本語, コンピュータソフトウェア, 汎用超並列オペレーティングシステム SSS-CORE上の非対称分散共有メモリにおける最適化コンパイル技法, 丹羽 純平; 稲垣 達氏; 松本 尚; 平木 敬, 1998年05月, 15, 3, 54, 58, 研究論文(学術雑誌)
  • 査読あり, 日本語, コンピュータソフトウェア, 汎用超並列オペレーティングシステムSSS-COREのユーザレベル通信同期機構, 松本 尚; 平木 敬, 1998年05月, 15, 3, 59, 63, 研究論文(学術雑誌)
  • 査読あり, 英語, Proc. of The 20th Int. Conf. on Software Engineering, A general-purpose scalable operating system: SSS-CORE, Matsumoto, T; Uzuhara, S; Hiraki, K, 1998年04月, 2, 147, 152, 研究論文(国際会議プロシーディングス)
  • 査読無し, 英語, Architecture for Future Generation High Performance Processors and Systems, IEEE Computer Society,, Memory-Based Communication Facilities and Asymmetric Distributed Shared Memory., Matsumoto, T; Hiraki, K, 1998年04月, 30, 39, 研究論文(国際会議プロシーディングス)
  • 査読あり, 英語, Proc. of Int. Symp. on Parallel Architectures, Algorithms and Networks (I-SPAN’97), Efficient Implementation of Software Release Consistency on Asymmetric Distributed Shared Memory, Niwa, J; Inagaki, T; Matsumoto, T; Hiraki, K, 1997年12月, 198, 201, 研究論文(国際会議プロシーディングス)
  • 査読あり, 日本語, コンピュータシステムシンポジウム論文集, 情報処理学会, 100BASE-TXによるメモリベース通信の性能評価, 松本 尚; 平木 敬, 1997年11月, 101, 108, 研究論文(研究会,シンポジウム資料等)
  • 査読あり, 英語, Proc. of International Symposium on High Performance Computing, Springer-Verlag LNCS 1336, Resource Management Methods for General Purpose Massively Parallel OS SSS-CORE, Nobukuni, Y; Matsumoto, T; Hiraki, K, 1997年11月, 255, 266, 研究論文(国際会議プロシーディングス)
  • 査読あり, 英語, Proc. of the 1997 ACM Int. Conf. on Supercomputing, An I/O Network Architecture of the Distributed Shared-Memory Massively Parallel Computer JUMP-1, Nakajo, H; Ohtani, S; Matsumoto, T; Kohata, M; Hiraki, K; Kaneda, Y, 1997年07月, 253, 260, 研究論文(国際会議プロシーディングス)
  • 査読あり, 日本語, 並列処理シンポジウムJSPP ‘97論文集, 汎用並列OS SSS-COREにおける資源管理機構 --- スケジューリング方式とメモリ置換方式の性能評価 ---., 信国 陽二郎; 松本 尚; 平木 敬, 1997年05月, 21, 28, 研究論文(研究会,シンポジウム資料等)
  • 査読あり, 日本語, コンピュータシステムシンポジウム論文集, 情報処理学会, メモリベース通信による非対称分散共有メモリ, 松本 尚; 駒嵐 丈人; 渦原 茂; 平木 敬, 1996年11月, 37, 44, 研究論文(研究会,シンポジウム資料等)
  • 査読あり, 日本語, 情報処理学会論文誌, 分散共有記憶型超並列計算機JUMP-1におけるスケーラブルI/Oサブシステム, 中條 拓伯; 中野 智行; 松本 尚; 小畑 正貴; 松田 秀雄; 平木 敬; 金田 悠紀夫, 1996年07月, 37, 7, 1429, 1439, 研究論文(学術雑誌)
  • 査読あり, 英語, Proc. IEEE 1996 International Symposium on Paralle Architectures, Algorithms and Networks, Distributed Shared Memory Architecture for JUMP-1 a general-purpose MPP prototype, MATSUMOTO T., 1996年06月, 131, 137, 研究論文(国際会議プロシーディングス)
  • 査読あり, 英語, Proc. of 7th IASTED-ISMM Int. Conf. on Parallel and Distributed Computing and Systems, High Performance I/O System of the Distributed Shared-Memory Massively Parallel Computer JUMP-1, Nakajo, H; Matsumoto, T; Kohata, M; Matsuda, H; Hiraki, K; Kaneda, Y, 1995年11月, 470, 473, 研究論文(国際会議プロシーディングス)
  • 査読あり, 英語, Proc. of the 1995 Int. Conf. on Parallel Processing, Hierarchical bit-map directory schemes on the RDT interconnection network for a massively parallel processor JUMP-1, Kudoh, T; Amano, H; Matsumoto, T; Hiraki, K; Yang, Y; Nishimura, K; Yoshimura, K; Fukushima, Y, 1995年08月, 1, 186, 193, 研究論文(国際会議プロシーディングス)
  • 査読あり, 日本語, 情報処理学会論文誌, 汎用細粒度並列計算機: お茶の水1号 --- 構成と性能評価 ---, 戸塚 米太郎; 大津 金光; 中里 学; 秋葉 智弘; 松本 尚; 平木 敬, 1995年07月, 36, 7, 1652, 1661, 研究論文(学術雑誌)
  • 査読あり, 日本語, 並列処理シンポジウムJSPP ‘95論文集, 分散共有記憶型超並列計算機JUMP-1のディスク入出力サブシステム, 中條 拓伯; 岡田 勉; 松本 尚; 小畑 正貴; 松田 秀雄; 平木 敬; 金田 悠紀夫, 1995年05月, 67, 74, 研究論文(研究会,シンポジウム資料等)
  • 査読無し, 英語, Proc. of IEEE Region 10’s Ninth Annual Int. Conf. (TENCON), Complementary Hybrid Architecture with Two Different Processing Elements with Different Grain Size, Hiraki, K; Matsumoto, T, 1994年08月, 1, 324, 331, 研究論文(国際会議プロシーディングス)
  • 査読あり, 日本語, 第二回FPGA/PLD Design Conference & Exhibit技術講座予稿集/応用技術論文集, CMPジャパン, FPGAを活用したオリジナルプロセッサ作製学生実験, 松本 尚; 平木 敬, 1994年06月, 289, 302, 研究論文(研究会,シンポジウム資料等)
  • 査読あり, 日本語, 並列処理シンポジウムJSPP ‘94論文集, 分散共有記憶型超並列オペレーティングシステムCOSマイクロカーネルの保護機構, 猪原 茂和; 松岡 聡; 松本 尚, 1994年05月, 349, 356, 研究論文(研究会,シンポジウム資料等)
  • 査読無し, 日本語, 並列処理シンポジウムJSPP ‘94論文集, Memory-Based Processorを使用した汎用超並列計算機の基本アーキテクチャ, 松本 尚, 1994年05月, 409, 418, 研究論文(研究会,シンポジウム資料等)
  • 査読あり, 日本語, 並列処理シンポジウムJSPP ‘94論文集, プログラム最適化技法適用下における並列計算機結合形状の性能評価, 武本 充治; 松本 尚; 平木 敬, 1994年05月, 137, 144, 研究論文(研究会,シンポジウム資料等)
  • 査読あり, 日本語, 並列処理シンポジウムJSPP ‘94論文集, 汎用細粒度並列計算機: お茶の水1号 --- 構成と性能評価 ---, 戸塚 米太郎; 大津 金光; 中里 学; 秋葉 智弘; 松本 尚; 平木 敬, 1994年05月, 73, 80, 研究論文(研究会,シンポジウム資料等)
  • 査読あり, その他, 情報処理学会論文誌, PHIGSのジオメトリ演算の並列処理方式の検討, 松本 尚; 川瀬 桂; 森山 孝男, 1994年01月, 35, 1, 92, 101, 研究論文(学術雑誌)
  • 査読あり, 英語, Proc. of the 1993 ACM Int. Conf. on Supercomputing,, Dynamic Switching of Coherent Cache Protocols and its Effects on Doacross Loops, Matsumoto, T; Hiraki, K, 1993年07月, 328, 337, 研究論文(国際会議プロシーディングス)
  • 査読あり, 日本語, 並列処理シンポジウムJSPP ‘93論文集, Memory-Based Processorによる分散共有メモリ, 松本 尚; 平木 敬, 1993年05月, 245, 252, 研究論文(研究会,シンポジウム資料等)
  • 査読あり, 日本語, 情報処理学会論文誌, スヌープキャッシュ制御機構のDOACROSSループへの適用, 松本 尚, 1993年04月, 34, 4, 616, 627, 研究論文(学術雑誌)
  • 査読あり, 英語, Journal of Information Processing, 一般社団法人情報処理学会, Efficient Execution of Fine-Grain Parallelism on a Tightly-Coupled Multiprocessor, Takashi Matsumoto, In multiprocessor systems the overheads caused by inter-processor synchronization and communication continue to be impediments to the efficient execution of parallel programs. Reduction of these types of overhead is necessary in systems that focus on large-scale and fine-grain parallelism. This paper proposes a Fine-Grain Multi-Processor (FGMP) based on a shared-memory/shared-bus architecture which can efficiently handle fine-grain concurrency in parallel. New strategies for management of hardware resources in the system are discussed and two innovative hardware mechanisms are proposed that work well for fine-grain parallelism with the above strategies: Elastic Barrier (a light synchronization mechanism) which is derived from a generalization of a barrier-type mechanism and an Inter-Cache Snoop Control Mechanism that switches snoop-protocols dynamically to reduce the overhead associated with shared data handling. After introducing the FGMP system which incorporates the above strategies and mechanisms the paper closes with a discussion of the FGMP's characteristics and efficiency.In multiprocessor systems, the overheads caused by inter-processor synchronization and communication continue to be impediments to the efficient execution of parallel programs. Reduction of these types of overhead is necessary in systems that focus on large-scale and fine-grain parallelism. This paper proposes a Fine-Grain Multi-Processor (FGMP) based on a shared-memory/shared-bus architecture, which can efficiently handle fine-grain concurrency in parallel. New strategies for management of hardware resources in the system are discussed, and two innovative hardware mechanisms are proposed that work well for fine-grain parallelism with the above strategies: Elastic Barrier (a light synchronization mechanism), which is derived from a generalization of a barrier-type mechanism, and an Inter-Cache Snoop Control Mechanism that switches snoop-protocols dynamically to reduce the overhead associated with shared data handling. After introducing the FGMP system, which incorporates the above strategies and mechanisms, the paper closes with a discussion of the FGMP's characteristics and efficiency., 1992年11月, 15, 3, 474, 484, 研究論文(学術雑誌)
  • 査読あり, 日本語, 並列処理シンポジウムJSPP ‘92論文集, PHIGSの構造体を処理するジオメトリ演算のマルチプロセッサ上での実行効率評価, 松本 尚; 川瀬 桂; 森山 孝男, 1992年06月, 375, 382, 研究論文(研究会,シンポジウム資料等)
  • 査読あり, 日本語, 並列処理シンポジウムJSPP ‘92論文集, スヌープキャッシュ制御機構のDOACROSSループへの適用, 松本 尚, 1992年06月, 297, 304, 研究論文(研究会,シンポジウム資料等)
  • 査読あり, 日本語, グラフィックスとCADシンポジウム論文集, 情報処理学会, PHIGSの構造体を処理するジオメトリ演算部の並列アーキテクチャについて, 松本 尚; 川瀬 桂; 森山 孝男, 1991年11月, 191, 200, 研究論文(研究会,シンポジウム資料等)
  • 査読あり, 英語, Proc. of the 1991 Int. Conf. on Parallel Processing, MISC: A Mechanism for Integrated Synchronization and Communication Using Snoop Caches, Matsumoto, T; Tanaka, T; Moriyama, T; Uzuhara, S, 1991年08月, 1, 161, 170, 研究論文(国際会議プロシーディングス)
  • 査読あり, 日本語, 情報処理学会論文誌, Elastic Barrier: 一般化されたバリア型同期機構, 松本 尚, 1991年07月, 32, 7, 886, 896, 研究論文(学術雑誌)
  • 査読あり, 日本語, 情報処理学会論文誌, 細粒度並列実行支援マルチプロセッサの検討, 松本 尚, 1990年12月, 31, 12, 1840, 1851, 研究論文(学術雑誌)
  • 査読あり, 日本語, 並列処理シンポジウムJSPP’90論文集, 一般化されたバリア型同期機構の諸問題について, 松本 尚, 1990年05月, 49, 56, 研究論文(研究会,シンポジウム資料等)
  • 査読無し, 日本語, 研究報告数理モデル化と問題解決(MPS), 情報処理学会, 小学生向けプログラミング分野の多様性拡大に向けて, 2021年-1月2-日, 2021-MPS-136, 13, 1, 6
  • 査読無し, 日本語, 研究報告システム・アーキテクチャ(ARC), 情報処理学会, 分散共有メモリ型通信機構MBCF/Linuxの実装について, 2022年-0月3-日, 2022-ARC-248, 48, 1, 7
  • 査読無し, 日本語, 研究報告システム・アーキテクチャ(ARC), 情報処理学会, 分散共有メモリ型通信機構MBCF/Linuxの基本性能について, 2022年-0月3-日, 2022-ARC-248, 49, 1, 7
  • 査読無し, 日本語, コンピュータシステム・シンポジウム論文集, 情報処理学会, Linux版のMBCF通信機構について, 2021年-1月1-日, 2021, 27, 36

MISC

  • 日本語, 東京大学大学院理学系研究科・理学部廣報, 東京大学大学院理学系研究科・理学部, 表紙 : 表紙の説明, 田中 清史; 松本 尚; 平木 敬, 汎用並列計算機プロトタイプお茶の水5号, 2000年03月, 31, 4, 1, 2
  • 日本語, 電子情報通信学会技術研究報告. CPSY, コンピュータシステム, 一般社団法人電子情報通信学会, 実行時再構成方式におけるバイナリトランスレーション支援, 玉造 潤史; 松本 尚; 平木 敬, 逐次プログラムを実行時に並列投機実行するアーキテクチャ、実行時再構成方式のハードウェア上で、実行前にバイナリプログラムを解析、再構成することで、より効果的な並列実行を行うバイナリトランスレーション方式を提案する。投機実行ハードウェアを用いる命令を追加し、投機実行時のプログラム制御構造を明示し並列投機実行の実行管理を容易にし、実行時の依存解析を前もって行うことにより投機実行に必要とあるメモリアクセス保護資源を静的に割り当てる。これらの最適化によって実行時の解析オーバーヘッドを減少させ、高速な並列投機実行を実現する。, 2001年07月18日, 101, 216, 55, 62
  • 日本語, 電子情報通信学会技術研究報告. CPSY, コンピュータシステム, 一般社団法人電子情報通信学会, 自由市場原理に基づくスケジューリング方式, 松本 尚; 平木 敬, タイムシェアリングシステムの従来のスケジューリングはプロセッサの占有時間による公平性の調節と入出力装置との同期によって主に決定されていた。しかし、近年ネットワークの発展とそれに伴う分散協調処理の実用化やマルチメディア処理の進歩により、プロセッサの計算負荷以上にネットワークの通信や外部入出力が重要となるアプリケーションが増加している。これらのアプリケーション間では、プロセッサの占有時間のみで公平性を判断しても良いスケジューリングは行えない。つまり、従来のスケジューリング方式は時代遅れとなっており、分散並列処理やマルチメディア処理に適した新しいスケジューリング(資源割り当て)方式を研究開発する必要がある。本稿では、ワークステーションクラスタ等の分散資源環境に適合する「自由市場原理に基づくスケジューリング方式」と呼ぶ新しい方式を提案する。この方式ではシステム提供のグローバルスケジューラは不要であり、動的最適化の決断はアプリケーションに任される。一方、マイグレーションによる負荷分散や資源使用要求の抑制による過度の資源競合の緩和といった最適化を自律的に行うことが奨励されるようにノード内のスケジューラが構成される。, 1999年08月04日, 99, 251, 63, 70
  • 日本語, 電子情報通信学会技術研究報告. CPSY, コンピュータシステム, 一般社団法人電子情報通信学会, リアルタイムラウンドロビン, 佐々木 盛朗; 松本 尚; 平木 敬, 周期的タスクのスケジューリングアルゴリズムとしては、Rate MonotonicとEarliest Deadline Firstが広く用いられている。しかしどちらのアルゴリズムも、スケジューリングコストと達成できるプロセッサ使用率の両方を最適化してはいない。本稿では、低コストで高プロセッサ使用率を実現するスケジューリング方式、リアルタイムラウンドロビンを提案する。リアルタイムラウンドロビンは、静的に決定された一部のタスクのみスケジューリングするためコストが低く、スケジュールされるタスク間では動的に優先度が割り当てられるので、高プロセッサ使用率が達成できる。また、非周期的タスクのレスポンスタイムの短縮方法についても述べる。, 1999年03月30日, 98, 687, 95, 102
  • 日本語, 電子情報通信学会技術研究報告. CPSY, コンピュータシステム, 一般社団法人電子情報通信学会, アドレス変換ハードウェアで支援されたメモリベース通信の性能評価, 國澤 亮太; 松本 尚; 平木 敬, ワークステーションクラスタ上に実現されたマルチユーザ/マルチジョブ環境においては、ユーザプロセス間に高速の通信や同期を用意することが必要である。我々は汎用並列オペレーティングシステムと協調動作することを目的とした高速かつ高機能なギガビットスイッチングネットワークを開発中であり、その最も基本となるユーザプロセス間の通信を提供する手段としてメモリベース通信を使用する。オペレーティングシステムのページ管理機構を利用してメモリベース通信における保護と仮想化を実現している。作成したネットワークインターフェイスカードにアドレス変換の結果をキャッシュするためのTLBを実装した結果、通信時のオーバヘッドが削減された。, 1998年08月04日, 98, 233, 61, 66
  • 日本語, 電子情報通信学会技術研究報告. CPSY, コンピュータシステム, 一般社団法人電子情報通信学会, 並列計算機プロトタイプお茶の水5号の性能評価, 田中 清史; 松本 尚; 平木 敬, 並列/分散システムにおいて、汎用かつ容易なプログラミング環境を提供するために共有メモリが必須である。本稿では階層コヒーレンス管理および一般化されたコンバイニングのサポートにより効率の良い分散共有メモリを軽いハードウェアで実装する方式を述べる。我々の方式においてディレクトリに必要なメモリ容量はクラスタ数の対数オーダーである。このことから、超並列システムを構築する場合に各メモリブロックについて1ワード程度用意すれば十分であり、ディレクトリのアクセスコストも低い。並列計算機プロトタイプお茶の水5号上に軽いハードウェアDSMおよび一般化されたコンバイニングを簡単なハードウェアで実装した。実際のプログラムを実行してお茶の水5号の性能を測定した結果、我々の方式が並列化の効果を得ることが示された。, 1998年08月04日, 98, 233, 31, 38
  • 日本語, 電子情報通信学会技術研究報告. CPSY, コンピュータシステム, 一般社団法人電子情報通信学会, 汎用並列OSのための資源情報を利用したスケジューリング方式の検討, 信国 陽二郎; 松本 尚; 平木 敬, エレクトロニクス技術の向上によるネットワーク周辺の性能向上や並列環境下での各種最適化技法の開発を受け、分散メモリ環境での並列処理が現実味を帯びてきた。本稿では、NUMA型並列計算機やワークステーションクラスタ上に汎用並列OSを構築するためのカーネルレベル・スケジューリングについて検討する。分散メモリ環境で並列プロセスの効率的な実行を妨げることなくマルチユーザ/マルチジョブ環境を構築するには、メモリページなどの実資源の使用状況を考慮したスケジューリングを行ないシステム全体の性能をあげることが必要である。並列プロセス毎に所有する実ページ情報を管理し、その情報にしたがってスケジューリングを行なった。シミュレーションにより、簡略化されたモデル上でのスケジューリング法の比較を行なった。, 1995年08月23日, 95, 210, 111, 118
  • 日本語, 電子情報通信学会技術研究報告, 一般社団法人電子情報通信学会, システムの階層的並列性を統一的に扱う最適化コンパイラ, 稲垣達氏; 松本 尚; 平木 敬, 細粒度並列処理は粗粒度並列処理におけるボトルネックを解消することができる。その際プログラムに内在する並列性と、計算機の持つ並列性及び演算・通信・同期のコストとを、定量的に評価しなければならない。我々は、静的タスクスケジューリングを用いてマルチプロセッサシステム上で細粒度並列処理を行なう最適化コンパイラOP.1を開発している。OP.1はプロセッサ内とプロセッサ間の細粒度並列性を考慮した先行タスクを複製するタスクスケジューリング(DSH:Duplication Scheduling Heuristics)を行ない、通信・同期のための細粒度並列実行支援機構を利用したコードを生成する。本稿ではOP.1のスケジューリング及び同期コードの生成について述べ、ベンチマークプログラムによる性能評価を行なう。, 1994年, 94, 105, 112
  • 日本語, 電子情報通信学会技術研究報告. CPSY, コンピュータシステム, 一般社団法人電子情報通信学会, 最適化された応用並列計算問題における相互結合網の性能比較, 武本 充治; 松本 尚; 平木 敬, 近年の高速計算の要求を満たすためには並列化が有力である。並列計算機を構成する上ではプロセッサ間通信や同期を効率良く実現するために内部相互結合網が重要な意味を持ってくる。アルゴリズム的には結合形状は数多く評価なされてきたが、実行コードにレイテンシ隠蔽技法を適用した場合の評価はあまりされていない。SOR・行列ベクトル積・FFTを問題例として、プログラムの最適化で結合形状と通信パタンの不適合による並列計算の性能低下を補償できることをシミュレーションにより示す。, 1993年11月16日, 93, 320, 65, 72
  • 日本語, 電子情報通信学会技術研究報告. CPSY, コンピュータシステム, 一般社団法人電子情報通信学会, レイテンシ隠蔽における結合形状の評価, 武本 充治; 松本 尚; 平木 敬, 現在の計算機の高速化が辿る道は並列化の道である。並列計算機を構成する上ではプロセッサ間通信や同期を効率良く実現するために内部相互結合網が重要な意味を持ってくる。アルゴリズム的には結合形状は数多く評価なされてきたが、実行コードにレイテンシ隠蔽技法を適用した場合の評価はあまりされていない。通信と演算をオーバーラップさせて静的なレイテンシを隠蔽する方法は性能向上にとって有力である。このようなレイテンシ隠蔽技法を適用することにより、結合形状に対する制約や性能要求が異なってくる可能性がある。我々は相互結合網を自由に定義できるシミュレータを作成し、この上で静的レイテンシを隠蔽する最適化を施したアプリケーションを動かし、その隠蔽効果の下での相互結合網の評価を行なった。, 1993年08月18日, 93, 180, 113, 120
  • 日本語, コンピュータソフトウェア = Computer software, 日本ソフトウェア科学会, 汎用超並列オペレーティングシステムSSS-COREのユーザレベル通信同期機構, 松本 尚; 平木 敬; Takashi Matsumoto; Kei Hiraki; Department of Information Science Graduate School of Science University of Tokyo; Department of Information Science Graduate School of Science University of Tokyo, 1998年05月15日, 15, 3, 247, 251
  • 日本語, コンピュータソフトウェア = Computer software, 日本ソフトウェア科学会, 汎用超並列オペレーティングシステムSSS-CORE上の非対称分散共有メモリにおけるコンパイル技法, 丹羽 純平; 稲垣 達氏; 松本 尚; 平木 敬; Junpei Niwa; Tatsushi Inagaki; Takashi Matsumoto; Kei Hiraki; Department of Information Science Graduate School of Science University of Tokyo; Department of Information Science Graduate School of Science University of Tokyo; Department of Information Science Graduate School of Science University of Tokyo; Department of Information Science Graduate School of Science University of Tokyo, 1998年05月15日, 15, 3, 242, 246
  • 日本語, 電子情報通信学会技術研究報告. CPSY, コンピュータシステム, 一般社団法人電子情報通信学会, 資源情報流通サーバ SSS-Server を用いた負荷分散, 佐々木 盛朗; 亀沢 寛之; 松本 尚; 平木 敬, 分散処理において、ネットワーク上の資源の有効な活用は重要な課題であり、資源を有効に用いて効率良くアプリケーションを実行するにはネットワーク資源の状態を正しく把握をする必要がある。従って、実用的コストで正確なネットワークの資源情報を集めることが効率の良い並列分散実行の鍵である。SSS-Serverは、ネットワークで結合されたシステム上での情報収集を行ない、負荷情報の取得を支援する。本稿では、SSS-Serverを使ったアプリケーションとして、依存関係のあるジョブをクライアントに投げていくサーバSDA(Server of Directed Acyclic graph)を作成し、負荷分散におけるSSS-Serverの有効性を評価した。, 1997年08月19日, 97, 225, 47, 54
  • 日本語, 電子情報通信学会技術研究報告. CPSY, コンピュータシステム, 一般社団法人電子情報通信学会, 100BaseTX によるメモリベース通信の性能評価, 松本 尚; 平木 敬, 汎用並列分散システムでは、効率の良い実行環境を実現するためにノード間の高速かつ保護され仮想化されたユーザレベル通信および同期のサポートが不可欠である。我々はこの目的に叶う高速なユーザレベル通信同期として、他ノードのメモリ空間内のデータを直接読み書きするソフトウェアメモリベース通信を考案し開発している。本稿では、100baseTXを用いたメモリベース通信のパケットフォーマットを解説し、その基本性能を性能テストプログラムとロジックアナライザによる観測で明らかにする。そして、並列アプリケーションにメモリベース通信を利用した場合の性能を、並列レイトレーシングを題材にプロセッサ台数や通信粒度をパラメータとして変化させることで明らかにする。最後に、比較のために既存オペレーティングシステムのUDP/IP通信上にメモリベース通信方式で同様の性能測定を行い、ハードウェアドライバから実現した本来の方式との性能差を調べる。, 1997年08月19日, 97, 225, 109, 116
  • 日本語, 電子情報通信学会技術研究報告. CPSY, コンピュータシステム, 一般社団法人電子情報通信学会, 汎用並列オペレーティングシステムにおける資源保護と仮想化, 松本 尚; 平木 敬, 汎用並列オペレーティングシステムでは、汎用性の確保と効率の良い並列実行環境の実現という同時に成立させることが困難な目標を達成する必要がある。効率の良い並列実行環境の実現するためにはノード間の高速かつ保護され仮想化ざれたユーザレベル通信および同期のサポートが不可欠である。我々は汎用並列オペレーティングシステムに適した高速なユーザレベル通信同期として、他ノードのメモリ空間内のデータを直接読み書きするソフトウェアメモリベース通信を考案し開発している。しかし、メモリベース通信を許すことによって、不当なジョブ間の相互干渉が避けられないのでは、汎用オペレーティングシステムとは呼べない。本稿では、メモリベース通信を採用した場合の汎用並列オペレーティングシステムにおける資源保護と仮想化方式に関して議論を行なう。結論として、メモリ管理機構を活用した保護方式によって、関連するアクティビティ間のメモリ保護が不要な並列実行はもとより、サーバクライアント実行のような不当な相互干渉の排除が不可欠なアプリケーションにもメモリベース通信が適用可能である。, 1997年06月05日, 97, 86, 37, 42
  • 日本語, 電子情報通信学会技術研究報告. CPSY, コンピュータシステム, 一般社団法人電子情報通信学会, 軽いハードウェアによる分散共有メモリ : お茶の水5号の分散共有メモリ機構, 対木 潤; 田中 清史; 松本 尚; 平木 敬, 大規模な分散共有メモリでは, コヒーレンス制御のオーバヘツドを低くおさえる機構が必要となる. また, 多数のクラスタ間で共有が起こるため, 共有情報の記録に必要な容量が問題となる. 効率の良いコヒーレンス制御とスケーラブルなディレクトリは大規模な分散共有メモリには必要不可欠である. 本研究では効率の良いコヒーレンス制御機構とスケーラブルなディレクトリを備えた分散共有メモリ機構を提案する. また, 提案した機構を実装中の, プロトタイプ並列計算機のパラメータを用いて評価を行なった., 1996年08月26日, 96, 230, 55, 62
  • 日本語, 電子情報通信学会技術研究報告. CPSY, コンピュータシステム, 一般社団法人電子情報通信学会, 対象粒度の異なる処理装置を複合した並列アーキテクチャ, 平木 敬; 松本 尚, 本論文は超並列計算機を構成する要素処理装置の構成方式に関するものである。超並列計算システムでは、構成要素である各要素処理装置が相互に密に結合した実行形態の高速化が重要な課題である。本論文では2種類の異なった粒度に対して最適化を行なった処理装置を複合して用いることを基本アーキテクチャとするシステムを提案する。この異粒度複合アーキテクチャでは、システム性能は現在の高速RISCプロセッサと連続性のある粗粒度処理装置で得、それに伴うオーバーヘッドを生む大域的細粒度並列処理を専用の細粒度処理装置で担当することにより、効率の優れたシステムが構築可能である。本論文では、具体的実現例をとおして異粒度複合アーキテクチャを考察する。, 1993年08月18日, 93, 180, 1, 8
  • 日本語, 情報処理, 計算機クラスタ:分散共有メモリに基づく計算機クラスタ, 平木 敬; 丹羽 純平; 松本 尚, 1998年11月15日, 39, 11
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 超並列計算機JUMP - 1における入出力サブシステムのアクセス方式, 岡田 勉; 中條拓伯; 松本 尚; 小畑 正貴; 松田 秀雄; 平木 敬; 金田 悠紀夫, JUMP-1は,プロセッサ間での高速な通信/同期のための機能を備えた複数のクラスタを,RDTと呼ばれる強力なネットワークで接続した分散共有メモリ型のアーキテクチャを持つ.クラスタと入出力サブシステム間は,STAFF-Linkと呼ばれる高速なシリアルリンクにより接続され,人出力バッファが共有メモリ空間にマッピングされた形態をとる.本稿では,JUMP-1のディスク/画像入出力システムの構成と,共有人出力バッファを用いたディスク入出力/画像表示システムへのアクセス方式とデバイスドライバの役割について述べる.A massively parallel computer JUMP-1 consists of multiple clusters providing inter-processor communication and synchronization mechanism via a broad bandwidth inter-connection network called RDT. We introduce a scalable input/output subsystem configuration which consists of disk/image I/O systems connected via fast serial links each called Serial Transparent Asynchronous First-in First-out Link (STAFF-Link). In this paper, we describe the features and hardware configurations of disk/image I/O systems. Moreover, an 繹オ/O access method using shared I/O buffer and also a role of device driver in a cluster are shown., 1994年07月21日, 1994, 66, 177, 184
  • 日本語, 情報処理学会研究報告システムソフトウェアとオペレーティング・システム(OS), 分散共有メモリ型超並列計算機JUMP ? 1の入出力サブシステム, 中條拓伯; 松本 尚; 小畑 正貴; 松田 秀雄; 平木 敬; 金田 悠紀夫, 本稿では超並列プロトタイプ計算機JUMP?1の入出力サブシステムのアーキテクチャについて概説する.JUMP?1は,種々のコヒーレンス・プロトコルをサポートするとともに,プロセッサ間での高速な通信/同期のための機能を備えた複数のクラスタを強力なネットワークで接続した分散共有メモリ型のアーキテクチャをとる.クラスタと画像/ディスク入出力ユニットの間は,仮想FIFOと呼ばれる高速シリアルリンクにより接続され,入出力サブシステム全体としては,入出力バッファが共有メモリ空間にマッピングされた共有メモリアーキテクチャに適合したの形態をとる.本稿では,JUMP?1の入出力サブシステムの構成と特徴について説明する.さらにディスク入出力ユニットの構成や,画像入出力システムのハードウェアについて述べる.This paper summarizes the input/output subsystem architecture of a massively parallel computer, JUMP-1. JUMP-1 consists of multiple clusters providing inter-processor communication and synchronization mechanism via broad bandwidth inter-connection network, and supports an efficient distributed shared-memory system with multiple coherence protocols in order to reduce access latency. We introduce a scalable I/O subsystem configuration which consists of image and disk I/O systems connected via fast serial links called Virtual-FIFO. In this paper, we describe the features of the I/O subsystem. Moreover, the hardware configurations of a disk I/O unit and an image I/O system are shown., 1994年01月27日, 1994, 13, 105, 112
  • 日本語, 情報処理学会研究報告システムソフトウェアとオペレーティング・システム(OS), 並列処理最適化機構の実用アプリケーションを用いた性能評価, 秋葉 智弘; 松本 尚; 平木 敬, 共有メモリ型並列計算機における、並列アプリケーションの最適化を支援するために、様々なハードウェア機構が提案されている。その中で特に、本論文で取り上げるハードウェア機構は、Elastic Barrierとスヌープキャッシュにおけるプロトコルのデータオブジェクト毎の切替え (スヌープキャッシュ制御機構) である。細粒度から粗粒度まで広い範囲のプログラムを対象に、命令パイプラインレベルの、execution?drivenシミュレーションにより、これらの機能がどのような性能改善をもたらすかの評価を行った。このシミュレーション結果からElastic Barrierとスヌープキャッシュ制御機構は細粒度並列処理に対しては多大な効果があることが確認された。粗粒度並列処理に関しては、両機構は共に大きな性能改善を示すことはなかったが、システムの性能を悪化させることは全くなかった。また、シミュレーション結果より、粗粒度並列処理であってもデータ転送量が大きい場合にはスヌープキャッシュ制御機構が性能改善に寄与することが予想される。Many hardware mechanisms are proposed to support optimizing parallel applications on shared-memory parallel computers. This paper concentrate especially on Elastic barrier (an extended barrier to eliminate idle time), and snoop-cache-protocols' coexistence (each data object can have its own snoop-cache protocol). This paper evaluates by execution-driven instruction-pipeline-level simulation, how much these mechanisms improve the performance of parallel applications that range over fine-grain and coarse-grain programs. The result data of simulations of SPLASH matches the result of execution on another machine. This fact assures that this simulator has high reliability., 1994年01月27日, 1994, 13, 41, 48
  • 日本語, 全国大会講演論文集, アドレス変換機能を持つネットワークインターフェイス : メモリベース通信の性能測定, 國澤 亮太; 松本 尚; 平木 敬, 1998年03月17日, 56, 117, 118
  • 日本語, 全国大会講演論文集, オンチップハードウエアによるループ並列化機構, 玉造 潤史; 松本 尚; 平木 敬, 1998年03月17日, 56, 167, 168
  • 日本語, 全国大会講演論文集, 共有メモリ型並列計算機におけるメモリアクセスの局所化技法, 古川 浩史; 松本 尚; 平木 敬, 共有メモリ型並列計算磯では、主記憶参照のコストが高いために、キャッシュのヒット率向上が性能向上の鍵となる。従来よりメモリ参照の局所性を高め、キャッシュヒット率を向上させる技法が提案されていた。これらは、loop permutationやblockingといった技法を適用するものであるが、配列のメモリ上そのレイアウトについてはあらかじめ固定してあるか、せいぜいrow major/column majorを決定するものであったために、どうしても局所性を抽出できない場合があった。本稿では、UMA型共有メモリ計算磯において、プログラムの大域的な情報を元に、より一般的な配列のしイアウトおよびループ変換を同時に決定をする手法を提案する。, 1993年09月27日, 47, 161, 162
  • 日本語, 情報処理学会研究報告. PRO, [プログラミング], 一般社団法人情報処理学会, 同期ビットを利用する細粒度並列コードの生成, 稲垣 達氏; 松本 尚; 平木 敬, マルチプロセッサシステムのメモリ上の同期ビットを利用してイテレーションレベルの並列処理および命令レベルの細粒度並列処理を行なうためのコード生成手法について述べる。本稿のターゲットシステムはメモリアクセス単位の通信と同期を統一的に実現したMISC(A Mechanism for Intergrated Synchronization and Communication)システムを備える。DOACROSSループの高速化では、イテレーション間およびイテレーション内に存在する粒度の細かい並列性を効率良く利用することが重要である。我々はタスクグラフの持つ並列性を元にして、イテレーションレベルの並列処理と命令レベルの並列処理から適用すべき手法を選択し、それぞれについてメモリ上の同期ビットを使用するコードを生成を行なう。, 1995年08月24日, 95, 82, 49, 56
  • 日本語, 計算機プログラミング研究会報告, 一般社団法人情報処理学会, 細粒度並列計算機用最適化コンパイラ : OP.1, 稲垣達氏; 松本 尚; 平木 敬, 細粒度並列処理を行なう場合,要素プロセッサの高速化に伴い通信と同期のコストを考慮することが重要になる.本稿では手続き型プログラムの基本ブロック内の命令レベルの細粒度並列処理において通信と同期のオーバーヘッドを軽減するコンパイル手法を述べ,細粒度並列計算機用最適化コンパイラOP.1に実装した結果について報告する.OP.1は通信の最適化手法として先行タスクの複製を行なうタスクスケジューリングアルゴリズムであるDSH(Duplication Scheduling Heuristic)を採行し,同期コストの低いElastic Barrierを用いた同期コードの生成を行なう., 1993年, 13, 1, 7
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 一般社団法人情報処理学会, ハードウェア分散共有メモリにおけるスケーラブルなディレクトリ方式の定量的評価, 田中 清史; 松本 尚; 平木 敬, プロトタイプ並列計算機上での実際のハードウェアDSMシステムの実装から、メッセージのスイッチ通過時間などの様々な所要時間が得られた。本稿では、得られた値を使用して大規模システムにおける一貫性維持(無効化)処理を扱い、階層最大共有距離ディレクトリとマルチキャストおよびコンパイニングの組み合わせによる方式をフルマップディレクトリシステムと比較する。また、ディレクトリに必要なメモリ量、およびディレクトリ構造がもたらす通信網のトラフィックを考察する。From the implementation of the hardware DSM system on the prototype machine, various values were obtained, such as the time required for a message to pass through a switch. In this paper, coherence processing (invalidation) on a large-scale system is considered in terms of the obtained values, and the hierarchical coarse directory with multicasting and combining is compared with the full-map directory. Moreover, we consider the size of memory required for the directories and network traffic which the structure of the directories causes., 2000年08月03日, 2000, 74, 7, 12
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 一般社団法人情報処理学会, Casablanca:実時間処理RISCコアの設計と実装, 田中 清史; 松本 尚; 平木 敬, 我々は汎用RISCプロセッサアーキテクチャを拡張し、実時間処理用途に敵したRISCコア:Casablancaを新規開発した。従来のRISCアーキテクチャに割り込み専用レジスタセットを複数用意し、割り込み発生時に切り替えて使用することにより、レジスタを退避/復帰するオーバヘッドを削除し、割り込み処理の高速化を実現する。また、レジスタセット間命令、キャッシュライン強制fill/writeback命令、endian変換命令などの拡張命令によりプログラミングを支援する。We have extended general purpose RISC architecture and developed a new RISC core: Casablanca for realtime processing. The core has current RISC architecture and additional register sets used for trap/interrupt processing, and it achieves fast trap execution by changing the register sets and reducing overheads to save/restore register values. Moreover, extended instructions (inter-register-sets instructions, cache line forced instructions, byte twisting instructions) support convenient programming., 1999年11月26日, 1999, 100, 51, 56
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 一般社団法人情報処理学会, 高速シリアルリンク結合に基づくアーキテクチャのボードレベルシミュレーション, 新野竜太; 松本 尚; 平木 敬, 本研究では高速シリアルリンクをインタフェースにもつアーキテクチャのハードウェアシミュレーション環境を考察する。主要ブロック制御部は再構成可能デバイスにマッピングして、測定対象の仕様に応じて内部回路を再構成する。シミュレータ内の各ブロックをターゲットの仕様に対し一律にスケールダウンすることで、大規模な性能評価を正確かつ高速に行う。本稿ではこの特性に基づいた並列計算機プロトタイプお茶の水7号を構築した。評価対象は高速シリアルリンクでメモリ、プロセッサチップを結合した並列アーキテクチャであり、トポロジーは必要なチップ間バンド幅、メモリ量によって可変である。想定されたターゲットの性能に応じ、基板内のパラメーターと回路を変更し、シリアルリンク部の評価を行なう。We examine hardware simulation environment for the architecture based on linkage with high-speed serial links. Reconfigurable devices emulate major blocks such as memory controllers or link controllers. We reconstruct internal circuits of the devices according to specifications of the simulation targets. They simulate the target blocks by scaling down all the specification at a constant rate. We simulate architecture with OCHA-7, a parallel computer prototype based on the above-mentioned architecture. The target is parallel architecture that high-speed serial line linked between memory chips and processor chips. We re-compose its topology according to required bandwidth and memories. We modify the internal parameters and circuits on boards according to specification of the target, and evaluate the serial link blocks., 1999年11月26日, 1999, 100, 57, 62
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 一般社団法人情報処理学会, ソフトウェアシミュレータ上でのSPLASH - 2ベンチマークの挙動に関する研究, 高木 将通; 松本 尚; 平木 敬, RTレベルソフトウェアシミュレータ(ISC[1]シミュレータ)を用いて、メモリシステムのパラメタに対するSPLASH-2[4]ベンチマークの実行時間の変動を評価する。共有バスを使用した集中共有メモリマルチプロセッサシステムの動作を忠実にシミュレートするシミュレータ上で評価する。We evaluate the execution time behaviour of SPLASH-2[4] benchmark programs with RT-level simulator (MISC[1]simulator). We focus the behaviour with change of the parameters of the memory system. The simulator simulates shared bus based cenralized shared-address space multiprocessors, and reflects the delay and interaction of the memory system., 1999年08月02日, 1999, 67, 31, 36
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 一般社団法人情報処理学会, 中粒度メモリベース通信を支援するMemory - Based Processor II, 松本 尚; 野村 真義; 國澤亮太; 平木 敬, 中粒度のメモリベース通信を効率良く実現するネットワークインタフェースアーキテクチャ:Memory-Based Processor II(MBP2)を提案する。MBP2は将来の汎用通信部品となる条件を満たすために汎用ネットワークインタフェースに対して上位コンパチビリティを持ち、ハードウェア量は同程度である。We propose a novel network interface architecture: "Memory-Based Processor II (MBP2)" which supports efficient middle-grained memory-based communications, legendary TCP/IP and UDP/IP. Although the hardware cost of the MBP2 is almost as same as that of conventional Network Interface Cards (NICs), in memory-based communications the MBP2 system is much superior to the NIC systems., 1998年08月05日, 1998, 70, 103, 108
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 一般社団法人情報処理学会, 実行時再構成方式テストベットOcha - Proの性能評価, 玉造 潤史; 松本 尚; 平木 敬, 大きなチップ内資源を用いて構成されるオンチップシステムは今後の高性能アーキテクチャの一つである。そこで我々は、オンチップMIMDマイクロプロセッサ内に付加したハードウェアによって逐次プログラムを並列化し投機的に実行することによって高速性能を得るMIMDプロセッサの"実行時再構成方式"の提案を行ってきた。実行時再構成方式はオンチップ資源を有効に用いて並列に実行しうるループ構造ブロックを投機実行する。投機実行として実現することで既にコンパイルされたプログラムを変更、再コンパイルする事なく並列に実行する"バイナリコンパチビリティ"を保持している。本論文では実行時再構成方式のテストベットであるOCHA-Pro(On-Chip mimd Architecture Processor)のクロックベースシミュレータを作成し、プログラムの実行効率を測定した。このシミュレータの要素プロセッサの並列度を変化することにより実行時再構成方式の実際の実行性能を測定した。On-Chip system composed by large scale silicon resouces is a candidate of next genaration high performance architecture. We have already proposed "Run-time restructuring" MIMD architecture which can execute sequential binary programs on parallel and effectively by the specualtive execution and the hardware parallelization. Run-time restructuring executes a loop construct on parallel using available on-chip resources. The large scale speculative execution realizes non-recompiled, non-translated parallel execution. Therefore Run-time restructureing holds "binary compatibility". We use a new clock-base simulater for run-time restructuring testbed "OCHA-Pro(On-Chip mimd Architecture Processor)". We examined the effects of run-time restructuring parallel execution. Then we measured the ILP & run-time restructuring perforamce according to variable element processor ILP., 1998年08月05日, 1998, 70, 127, 132
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 一般社団法人情報処理学会, 共有メモリvs.メッセージパッシング, 松本 尚; 平木 敬, 「分散共有メモリ」(以下単に「共有メモリ」)と「メッセージパッシング」を比較する。ユーザ/コンパイラに対してプログラマがどういう通信同期モデルを持つ言語を選ぶかは趣味の問題であり、どのモデルが優れているというような判断は難しい。しかし、システム(ハードウェア+オペレーティングシステム)として、どういう通信同期メカニズムを提供すべきかについては、実行時オーバヘッドや自由度や最適化との相性や実現コスト等の要素から議論できる。本稿では「メッセージパッシング」をいわゆるsend,receiveをオペレーティングシステムレベルで提供することと定義する。これに対して、遠隔メモリアクセスをユーザ/コンパイラにプロセッサレベルのメモリ操作(細粒度メモリ操作)として見せるか、遠隔メモリ操作要求(可変粒度高機能メモリ操作)として見せるかによって、「共有メモリ」を「狭義共有メモリ」と「広義共有メモリ」に分類する。そして、 「広義共有メモリ」は最適化の観点から「狭義共有メモリ」よりも優っていることを示す。次に、「広義共有メモリ」の方がシステムが提供する通信同期機構として「メッセージパッシング」より優っていることを示す。In this paper, "Distributed Shared Memory (DSM)" and "Message Passing Interface (MPI)" are compared and evaluated. As communication and/or synchronization models in programming languages, the selection of the two is only a matter of taste for programmers or language designers. However, from the viewpoints of overhead of execution, freedom of usage, affinity of optimization and cost of implementation. We can discuss which is the better to be equipped in the system (hardware and operating system). We define the DSM as the ability of remote memory access and classify the DSM to two categories. One is called "Fine grain DSM (F-DSM)" and another is "Coarse grain DSM (C-DSM)". In the F-DSM remote-memory-accesses are extensions of usual memory operations of processors. In the C-DSM request packets for remote-memory-accesses are made and transmitted in user-level programs, the target systems process them without user-level programs' assists. We leads fitst conclusion that the C-DSM is much better than the F-DSM owing to the affinity of compiler optimizations. Finally, we conclude that the C-DSM is superior to the MPI as the system-equipped function., 1997年10月28日, 1997, 102, 85, 90
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 一般社団法人情報処理学会, 非対称分散共有メモリ上における最適化コンパイル技法の評価, 丹羽 純平; 稲垣 達氏; 松本 尚; 平木 敬, 我々は保護された高速なユーザー通信/ユーザー同期を実現する"非対称分散共有メモリ: ADSM"を提案してきた。ADSMは読み出しと書き込みの実現モデルが別々で、読み出しは通常の仮想共有メモリ方式と同様であるが、書き込みに関してはコンシステンシ維持コードが埋め込まれる。書き込みの自由度が高いから、様々な最適化が可能になる。我々はコンシステンシ維持コードの数を静的/動的に削減することで、書き込みのオーバーヘッドを削減する最適化手法を提案する。汎用並列オペレーティングシステムSSS?COREとAP1000+上に作成したコンパイラ並びにランタイムシステムにおいてSPLASH?2のLU?Contigを使って評価を行なった。実行時間は静的な最適化により80%向上し、更に動的な最適化を行なうことで30%向上した。We have proposed an "Asymmetric Distributed Shared Memory: ADSM", that realizes user-level protected high-speed communications/synchronizations. In the ADSM, the shared-read is based on a cache-based shared virtual memory system. As for the shared-write, instructions for consistency management are inserted after the corresponding store instruction. Therefore, various optimizations can be performed. We propose an optimizing method of reducing overheads for consistency management. The algorithm coalesces a sequence of consistency management instructions statically/dynamically. We have implemented the prototype of the compiler and the runtime system for the ADSM on a multicomputer Fujitsu AP1000+ and the general-purpose massively-parallel operating system: SSS-CORE. The performance evaluation using LU-Contig of SPLASH-2 shows that the execution time is reduced by 80% using static optimization and it is further reduced by 30% using dynamic optimization., 1997年10月28日, 1997, 102, 91, 96
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 一般社団法人情報処理学会, オンチップMIMDプロセッサにおける実行時並列化機構の性能評価, 玉造 潤史; 松本 尚; 平木 敬, 我々は、スーパースカラアーキテクチャによるプロセッサの速度向上がこれ以上求められない現在において大規模集積回路の集積度の上昇より得られる大きなハードウエア資源を活用し、かつ、現在の命令レベルでの投機実行よりもさらに大きな粒度であるループブロックの投機実行を行なうことにより高速化を行なう機構としてループブロックを実行時に並列化し実行を行なうrun?time restructuringアーキテクチャを提案してきた。ループレベルの並列性は命令レベルの並列性よりも大きな資源を必要とするが、よリハイパフォーマンスを獲得することが可能である。run?time restructuringではオンチップMIMDアーキテクチャをベースとした並列マイクロプロセッサにおいて逐次形式で生成されたバイナリプログラムを実行時に解析し、再構成することによって、重複実行によるループレベルの投機実行を行なうことが可能である。本稿では、我々が先に提案したプログラム再構成による並列化スレッドの投機実行を行なうオンチップMIMDマイクロプロセッサにおける性能向上をSPEC95ベンチマークと画像アプリケーションに多く用いられているgif,jpeg,mpeg展開ルーチンを用いて計測した。結果として浮動小数アプリケーションでは大きなの実行時並列化の効果が得られ、また、画像アプリケーションや整数アプリケーションでもプログラム中にループが存在すれば、速度向上が得られることが示された。At present, speed-up of microprocessors based on superscalar architecture hit the ceiling. We have proposed run-time restructuring architecture to utilize large hardware resources which is available by an increasing integrity of current VLSI technology. Our system speculatively exploits dynamic parallelism among loop blocks, which is a larger granularity than that of current instruction-level speculation. Loop level parallelism requires more resources than instruction level parallelism, we can also obtain higher performance. On our run-time restructuring mechanism, on-chip MIMD microprocessors dynamically analyze sequential binary executable and restructure it to execute speculatively each loop body. In this paper, we evaluate perfomance improvement of our run-time restructuring on on-chip MIMD microprocessors, using SPEC95 benchmark suite and graphics application kernel which consist of gif, jpeg, and mpeg expansion routines., 1997年10月28日, 1997, 102, 73, 78
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 一般社団法人情報処理学会, Memory String Architectureに基づく並列計算機お茶の水7号, 新野竜太; 松本 尚; 平木 敬, Memory String Architectureとは高速シリアルリンクでメモリ、プロセッサチップを結合した並列システムである。並列計算機お茶の水7号(CHA?)は、このシステムに基づき設計、および実装されている。メモリ、プロセッサチップはボードレベルで実装する。本稿ではまずMemory String Architecture本来のモデルとそのボードレベルでのシミュレーションを比較し、そしてお茶の水7号の構成を説明する。最後にお茶の水7号を用いたMemory String Architectureの構成について述べる。Memory String Architecture is a parallel system which connects memory chips and processor chips with fast serial links. We design and implement OCHA-7, which bases on this system. These memory chips and processor chips are implemented at board-level on OCHA-7. In this paper, we compare the original model of Memory String Architecture with its simulation on board-level. Then we explain the structure of OCHA-7. Finally we describe about the structure of Memory String Architecture being implemented on OCHA-7., 1997年08月20日, 1997, 76, 151, 156
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 一般社団法人情報処理学会, On Chip MIMDにおける大規模投機実行機構, 玉造 潤史; 松本 尚; 平木 敬, 大規模集積回路の集積度の上昇により得られる大きなハードウエア資源を活用するため、現在の命令レベルでの投機実行よりもさらに大きな粒度であるループブロックの投機実行が注目を集めている。ループレベルの並列性は命令レベルの並列性の活用よりも大きな資源を必要とするが、よりハイパフォーマンスを獲得することが可能である。我々は、既にOn Chip MIMDアーキテクチャをベースとした並列マイクロプロセッサにおいて逐次形式で生成されたバイナリプログラムを実行時に解析し、再構成することによって、重複実行よるループレベルの投機実行を行なうことが可能であることを示した。本稿では、我々のプログラム再構築による並列化スレッドでのループレベル投機実行の実行形態と他のループレベル、ブロックレベル投機実行との比較を行なう。また、制御構造の依存を解決するハードウエアについても述べる。For exploiting large hardware resources given by the increase of integrated transisters on one VLSI chip, we attract much larger gulanuarity parallelism of the loop-level speculative execution than the one of current instruction-level parallelism (ILP). The loop-level parallelism needs more resources than ILP but is able to accomplish the higher performance. We have already proposed a parallel microprocessor architecture based on On-Chip MIMD. The architecture can execute a current binary program compiled for a single sequential microprocessor and analyze the program on run-time and restruct it for parallel execution. The restructured program can be executed by a duplicate speculative execution. By these parallel execution, we have showed the ability of the binary compatible parallel microprocessor. We'll show a comparison of differences among our way of loop-level speculative execution which element processors execute restructed programs and other way such as it forks speculative thread continually like a pipeline or it products a control thread for speculation in this paper. And we show are soluble way of control structure contained in the most-inner loop., 1997年08月20日, 1997, 76, 139, 144
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 一般社団法人情報処理学会, Memory String Architecture -メモリウォールを越えて-, 松本 尚; 平木 敬, 本稿では、まず高速シリアルリンクをプロセッサ・メモリ間インタフェースに使用することでメモリウォール問題が緩和されることを示す。そして、複数の高速シリアルリンクを入出力に持つMulti?ported Serial?Access Memoryチップ(SA)とMSAMを内蔵したメモリ/ロジック混載LSIで作成されるMulti?ported Serial?access Processorチップ(S)を提案する。最後に、MSPならびにMSAMで構成される単一および並列システムであるMemory Stringアーキテクチャに関して論じる。We adopt high-speed serial links for processor-memory connections in order to solve the memory wall problem. Therefor we propose two novel devices that have high-speed serial interfaces: the Multi-ported Serial-Access Memory (MSAM), which is an extended DRAM chip, and the Multi-ported Serial-access Processor (MSP) that includes MSAM using combined DRAM and logic technology. Finally, the Memory String Architecture that consists of MSP chips and MSAM chips is introduced and discussed., 1996年10月31日, 1996, 106, 1, 6
  • 日本語, 全国大会講演論文集, 汎用超並列OS SSS-COREにおけるスケジューリング方式の評価, 信国 陽二郎; 松本 尚; 平木 敬, 分散メモリ環境では、メモリへのアクセスコストが距離によって異り、並列プロセスの効率的実行の実現には相対的にコストの高いアクセスを減らすことが求められる。複数のプロセスが動作する汎用的環境ではその実現方法として、メモリページなどの実資源の使用状況を考慮したスケジューリングを行ないシステム全体の性能を上げることが可能である。またアクセスコストの小さなメモリページから置換を行ない、再アクセス時のコストを抑えることも、全体の性能向上に寄与する。本稿ではメモリアクセスベースの確率モデル上で、具体的なメモリ管理方式/アクセス頻度/アクセスコストを付加したシミュレーションにより、並列プロセス毎に所有する実ページ情報を利用したスケジューリング法、及びメモリ置換方式の評価を行う。, 1996年09月04日, 53, 95, 96
  • 日本語, 全国大会講演論文集, バイナリコンパチビリティを保ちながらloopを投機実行するアーキテクチャ, 玉造 潤史; 松本 尚; 平木 敬, 現在、Chip内の増え続ける計算資源を有効に利用するためにVLIWやスーパースカラといったアーキテクチャが用いられている。今後とも増加するこの計算資源を商社能化に結び付けるためには従来の方法では限界があり、新たなMIMDアプローチが必要である。・Chip内では従来のプロセッサでは不可能な結合を作ることができ、この性質を利用して、プロセッサ間に跨る大きな依存の解決が可能である。さらに、従来の命令レベルのレイテンシに対しての投機実行という小さな並列性だけでなくloopといった大きな構造に対する投機実行を実現する。これにより、完全に動的依存を排除出来ないloop構造の並列実行が可能となる。さらに、この依存解決を依存の全く排除されていない逐次実行型バイナリで実現することでバイナリコンパチビリティが保つことが可能となる。逐次実行のバイナリを並列実行するためには、loop間の依存関係を保持しなければならない。loop間依存関係のうち、逐次型processorがloop間での値引き渡しを行なうregisterの依存関係はinstructionの履歴により解析できる。本稿では、履歴によって解析できるregisterの依存は解消し、メモリアクセスや分岐の等の履歴からでは解消できない依存関係を動的に検出し投機実行することにより逐次loopの並列実行を行なうアーキテクチャを提案する。さらに、本機能を投機実行機構として付加した共有メモリ型マイクロプロセッサパイロットモデルOCHA-Pro(On-Chip MIMD Architecture Processor)を述べる。, 1996年09月04日, 53, 117, 118
  • 日本語, 全国大会講演論文集, 汎用超並列オペレーティングシステムSSS-COREのメモリベース通信機能, 松本 尚; 平木 敬, 汎用超並列オペレーティングシステムSSS-COREは並列アプリケーションと協調動作することで、効率を極力落すことなくマルチユーザ/マルチジョブの汎用環境を実現する分散メモリ型並列計算機およびワークステーションクラスタ環境(NOW: Network of Workstations)を対象とした汎用オペレーティングシステム(汎用OS)である。SSS-COREはシステムの資源管理に階層性を導入して資源管理の効率化を行うことにより、スケーラビリティつまり超並列超分散計算環境に対応している。ユーザの並列アプリケーションの効率の良い実行のためには、もちろん従来SSS-COREで主張していたユーザ/カーネルの協調資源割当や資源管理効率化によるカーネルコストの削減も重要である。しかし、第一義的にはユーザモードにおいてノート間における通信と同期をいかに高速に実現するかが最大の鍵である.本稿では特殊な通信同期ハートウェアを仮定しないNOW環境においても、高速なユーザ通信/ユーザ同期を提供するメモリベース通信機能の基本方針と実装方式の概略を示す。, 1996年09月04日, 53, 37, 38
  • 日本語, 全国大会講演論文集, 動的に生成されたオブジェクトを扱うループの並列化手法, 稲垣 達氏; 丹羽 純平; 松本 尚; 平木 敬, 分散メモリ計算機において、ユーザーが定義する動的なオブジェクト単位の共有名前空間というインタフェースは、動的で不規則なデータ構造を持つ問題を記述できることに加え、オブジェクトというコンシステンシ管理の単位をアプリケーションからのヒントとして与えることができ、またコンパイラやライブラリによる通信の最適化を仮想化できるという利点がある。これまでにも完全に動的な共有名前空間を提供したシステムから、inspector/executorアルゴリズムによる不規則な配列のアクセスを伴う従来のSPMDスタイルのプログラミングモデルをユーザー定義のデータ構造に拡張したものまで、数多くの研究が成されている。これらのシステムではいずれも低レベルの通信に関する記述をユーザーに解放して最適化の余地を残し、オブジェクト単位のコンシステンシ管理をライブラリや言語システムによって仮想化している。我々は最適化コンパイラに力点を置いたアプローチによって、ユーザー定義の動的なデータ構造を扱うSPMDプログラム/逐次プログラムに対して大域的な名前空間を提供する研究を行なっている。本稿ではinspector/executorアルゴリズムを適用できるようなオブジェクトを扱うループにおいて、ループ本体の計算と通信をオーバーラップするためのコード生成手法について述べる。, 1996年09月04日, 53, 335, 336
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 一般社団法人情報処理学会, 高機能分散共有メモリの実現に適した高速スヌーププロトコル -東大プロトコル-, 松本 尚; 平木 敬, 単一ボートのメモリのみを用いて高速実装可能なスヌーププロトコルである東大プロトコルを提案する。東大プロトコルはパイプライン化およびスプリット化された高速バスに対応することができる。東大プロトコルのための各種高速実装技術ならびにクラスタを越えて共有される分散共有メモリへの拡張法を示す。We propose a novel snoop protocol: "Todai Protocol" which is implemented with only single-ported memory chips. The Todai Protocol is suitable to high-speed pipelined split-phase buses. We describe high-speed implementation techniques for the Todai protocol and also mention its extension methods to the protocol in a cluster of distributed shared memory systems., 1996年08月27日, 1996, 80, 227, 232
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 一般社団法人情報処理学会, 汎用超並列オペレーティングシステムと協調動作するギガビットネットワーク, 國澤亮太; 松本 尚; 平木 敬, 我々は汎用超並列オペレーティングシステムと協調動作することを目的とした高速かつ高機能なギガビットスイッチングネットワークを開発中である。マルチユーザ/マルチジョブ環境におけるユーザ間の通信に必要な機能をハードウェアで実現することにより、通信オーバヘッドが大幅に削減され、ワークステーションクラスタ環境においても効率の良い並列実行環境を得ることができる。本稿ではSunワークステーション用に実装したネットワークインターフェイスカードの鍵となる機能について述べる。We are developping a high speed, enhanced gigabit switching network system which cooperates our general purpose massively parallel operating system. Communication overhead among user programs under multiuser/multijob environment is reduced by supporting hardware, so we can have efficient parallel execution environment on network of workstaions. We have implemented network interface hardware for Sun workstation, and describe the key functions of it in this paper., 1996年08月27日, 1996, 80, 83, 88
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 一般社団法人情報処理学会, Loopを並列実行するアーキテクチャ, 玉造 潤史; 松本 尚; 平木 敬, コンパイラによって並列化されていない逐次ループのバイナリ実行形式を動的に解析し、並列実行するアーキテクチャを提案する。プロセッサが並列化によってループ間依存が排除されていないループを動的に並列実行するにはループ間の依存を動的に解消する機構を持たねばならない。本アーキテクチャでは、レジスタの生成の依存関係を動的に解析することでメモリアクセスの依存が投機実行の可否を検出する。また、分岐における制御依存は、ループレベルの大きな構造の投機的実行によって並列実行する。本稿では、命令レベルの並列実行を行なう要素プロセッサを用いて、動的なループレベルの並列実行のために必要なレジスタの依存関係を解決する動的依存解析機構と、メモリアクセスと制御依存の複数の投機実行をElastic Barrierを用い資源を次々と解放することで、小さなプロセッサ資源で実現する多重投機実行機構を提案する。また、これらの機能を付加したパイロットモデルOCHA?Pro (n?CHip MIMD Architecture Processo)を述べ、実行性能のシミュレーション評価を示す。We propose a new architecture which dynamically analyzes a binary code of a preparallelized sequential loop and executes in parallel. To execute dynamicaly a sequential loop with depedencies among iterations in parallel, the architecture should have a dependency resolving mechanism in processor. In this architecture, the possibility of speculative memory access can be detected by analyzing register production dependencies. And on control dependencies on branch instructions, parallel execution is realized by loop-lebel speculative execution. In this paper, we propose the dynamic dependency analyzing mechanism needed by dynamic loop level parallel execution and the multiple speculative execution mechanism which realize some supeculative execution on memory accesses and control instructions without increasing processor resources which loop analyzer release by Elastic Barrier. We describe about our pilot model OCHA-Pro (On-CHip MIMD Architecture Processor) appending these mechanism and show an execution performance by simulation., 1996年08月27日, 1996, 80, 61, 66
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 一般社団法人情報処理学会, 汎用プロセッサのためのベクトルロード支援機構, 大津 金光; 松本 尚; 平木 敬, 従来のキャッシュメモリを用いたシステムでは巨大な構造体データを使用するアプリケーションプログラムとは相性が悪く性能低下を起こす。この問題に対して、使用するデータセットに内在する規則性を利用して必要とされるデータを予めプリフェッチして、従来のキャッシュメモリが扱いやすいようにデータの配置を変えるという戦略は有効である。大域構造体先行フェッチ機構(SPF: Global Structure Pre?Fetch機構)は計算に必要とされるデータをあらかじめプロセッサ近辺のローカルバッファ内にキャッシュブロックに詰め込んだ形で格納しておき、プロセッサが実際にデータの要求を出した際にローカルバッファ内のデータを与えるメカニズムである。本稿では並列計算機「お茶の水1号(CHANOMIZ?)」上で実装を行なったGSPF機構に関して述べ、実機に基づくシミュレータ上で性能評価を行う。Large data sets in practical application programs degrade the performance of current cache-based computer systems, since the cache memories cannot hold the whole data. Toward this problem, it is quite effective to fetch necessary data in advance and to rearrange them for the cache memories easy to treat using the regularity of them. Global Structure Pre-Fetching mechanism is the one that preretches target data into local buffer near the processor and returns stored data in the local buffer to the processor immediately after the processor requests them. In this paper, the GSPF mechanism, which has been implemented on the parallel processor OCHANOMIZ-1, is explained and the performance evaluations by simulation are shown., 1995年08月23日, 1995, 80, 177, 184
  • 日本語, 全国大会講演論文集, 汎用超並列オペレーティングシステムカーネルSSS-COREの基本構想, 古荘 進一; 松本 尚; 平木 敬, 近年多くの超並列計算機が研究開発され実用化に向かっている。コストパフォーマンスにすぐれた超並列計算機システムは次世代のメインフレームとして有望であり、用途を限定せずに使用されるべきものである。しかしながら、現在のところ科学技術計算の分野に用途が限られているのが実情である。これはOSが超並列計算機に並列計算の高速性を活かしつつ汎用性を持たせることに失敗しているからである。共有メモリ計算機において、従来のUMA(Uniform Memory Access)型ではシステムの規模を大きくとることが出来ないので、NUMA(Non-Uniform Memory Access)型であることが必然である。以前より我々はUMA型共有メモリ計算機上で高性能と汎用性の両立を目指したOS核SS-COREの研究を行ってきた。本稿では、SS-COREをNUMA型共有メモリ計算機に対応して拡張したSSS-CORE(Scalable SS-CORE)の実現において考慮すべき問題点負について述べる。, 1994年09月20日, 49, 61, 62
  • 日本語, 全国大会講演論文集, 動いているお茶の水1号 : 大域同期機構の評価, 中里 学; 松本 尚; 平木 敬, 汎用細粒度並列計算機お茶の水1号は市販のRISCプロセッサの他に,外部回路としてFPGA(Field Programmable Gate Array)を用いて,細粒度並列処理を効率的にサポートするための通信・同期機構を搭載している.大域同期機構(Global Synchronizer)は,システムバスに負担をかけずに,通信・同期を効率的に支援する役割を持つ.大域同期の一つとしてバリア型同期がある.バリア型同期は,同期に参加する全てのプロセッサが,同時に待たされるもので,比較的簡単に構成できる.お茶の水1号上に一般化されたバリア型同期機構であるElastic Barrierを実装して,プログラムを実行させた.本稿では,性能測定の結果について述べ,その有効性を示す., 1994年09月20日, 49, 27, 28
  • 日本語, 全国大会講演論文集, JUMP-1 MBPコアの命令設計, 平木 敬; 松本 尚, 本報告では現在7大学共同で研究開発を進めている超並列プロトタイプ計算機JUMP-1の基本構成要素であり、細粒度処理を担当するMemory-Based Processor(MBP)においてプログラムを解釈実行するプロセッサ:MBPコアの命令設計を述べる。JUMP-1の基本アーキテクチャとして異粒度複合アーキテクチャを用い、また、異粒度複合アーキテクチャの粗粒度部分にはSUN社製SuperSPARCIIを使用する。MBPはメモリに関するアクセス処理、データ転送、同期処理、コンシステンシの維持などの細粒度非局所処理を一義的に担当する。なお、成功する同期処理を含む基本的なアクセス処理、データ転送等速度を要求される機能はMemory-Based Processor内部のハードウェアにより直接実現され、MBPコアで実行される細粒度プログラムでは、同期処理、コンシステンシ維持、メッセージ処理、マクロデータフロー処理など複雑な処理が要求される部分を担当する。従って、MBPコアはコア単体として効率的細粒度・大域プロセッサであることが必要であるとともに、対となって用いられる粗粒度プロセッサおよび他のMBPコアと協調して効率的動作をすることが必須の条件である。まず、一般的な細粒度・大域処理1用プロセッサとして設計上の問題点として、以下のものが列挙される。個々の内容は省略して項目を列挙すると:1.コンテクスト切替えによる命令オーバーへツド2.命令オーバーへツドによるネットワーク使用効率の低下3.細粒度同期に関する命令オーバーへッドMBPにおいては一般の細粒度プロセッサと比較して処理に含まれる粒度成分が粗粒度プロセッサに移出するため上記問題点が更に深まると共に、更に下記異粒度複合アーキテクチャの特質として協調的動作が新たな問題点となる:1.高レイテンシ高速大容最メモリの利用2.静的スケジューリングとの適合性3.粗粒度プロセッサとの通信・同期4.粗粒度プロセッサと一貫した保護機構メモリアクセスに関して、局所性の利用による効率化が困難である状況から、データに関して、アクセス時間が大きいメモリを直接使わざるを得ない。この問題点は、内部状態、特にレジスタ個数を小さくする細粒度的要望と相入れない。MBPコアでは主メモリに直結する利点を生かし、処理に対するデータの局所性でなく、データに対する処理の局所性を利用する方式が必要な所以である。また、MBPコアの主要目的がネットワークを介在した形熊での分散共有メモリの実現にあるため、ネットワークパケットがその詳細レベルまで直接命令から操作可能であると共に、ネットワーク転送と命令実行を並行動作を可能とする方式が必要である。MBPでは処理をハードウェアを用いて高速化するため、多くの処理項目を例外処理という形態で実現する。従って、その高速な実現方法は全体性能に対して大きな影響力を持つ。, 1994年09月20日, 49, 1, 2
  • 日本語, 全国大会講演論文集, MBPコアのファームウェア設計 : 疑似フルマップ方式のサポート, 三吉 貴史; 松本 尚; 平木 敬, 我々は、分散共有メモリ実装方式としてディレクトリペースキャッシュ方式の一つである疑似フルマップ方式を提案してきた。MBP(Memory Based Processor)は、疑似フルマップ方式の基本機能を高速にサポートする専ハードウェア回路と、頻度の少ない例外処理や高い自由度の必要な処理を行う汎用細粒度プログラマブル処理機構(MBPコア)を内蔵している。すなわち、ハードウェアによる実現ではコストの見合わない処に対して、MBPコアのプログラム(ファームウェア)が起動されて処理が行なわれる。本稿では専用ハードウェアによる実現部分とファームウェアによる実現部分のトレードオフに対して議論する。, 1994年09月20日, 49, 3, 4
  • 日本語, 全国大会講演論文集, 動いているお茶の水1号 : 大域構造体先行フェッチ機構の評価, 大津 金光; 松本 尚; 平木 敬, 従来のキャッシュメモリを用いたシステムでは参照の局所性を利用して効率的な処理を実現している。しかしながら、使用するデータセットのサイズがキャッシュのサイズに納まり切れない状況においては、キャッシュメモリのみでは性能を出すことは不可能である。このような場合には、使用するデータセットに内在する規則性を利用して必要とされるデータを予めブリフェッチしてくる方法が非常に有効である。お茶の水1号(OCIIANOMIZ-1:Omnipotent Concurrency-Handling Architecture with NoveI OptiMIZers-1)では巨大な購造体データヘの順次アクセスという状況に問題を絞り、大域構造体先行フェッチ機構(GSPF:Global structure Pre-Fetch)を実装した。本稿ではGSPF機構の実機上での性能評価を行なう。, 1994年09月20日, 49, 23, 24
  • 日本語, 全国大会講演論文集, 動いているお茶の水1号 : 同期ビットを使用したコンパイル技法, 稲垣 達氏; 松本 尚; 平木 敬, 汎用細粒度並列計算機お茶の水1号は大域的な同期機構であるElastic Barrierに加えメモリ上の同期ビットを持つ。同期ビットはメモリアクセス単位の同期を通信と同時に行い、フロー依存によって生じる先行関係の効率的実現に有効である。また、バリア型の同期と異なり、制御に余分な先行関係を付加しない。お茶の水1号ではElastic Barrierを使用した細粒度並列処理を行なう最適化コンパイラOP.1が稼働中であるが、OP.1は現在同期ビットを使用するコードを生成しない。本報告では、メモリ上の同期ビットを通信と同期に使用するコード生成手法について述べる。, 1994年09月20日, 49, 29, 30
  • 日本語, 全国大会講演論文集, 動いているお茶の水1号 : メモリシステムの評価, 戸塚 米太郎; 松本 尚; 平木 敬, 命令レベルの並列性を利用する細粒度並列処理ではプロセッサ間の同期とデータ通信が頻繁に必要になる。全体の処理量のうち同期とデータ通信の占める割合が大きくなるため、効率的な処理を実現するためにはプロセッサ間の同期・データ通信のオーバへツドを最小限におさえる必要がある。我々が開発したお茶の水1号のメモリシステムは同期・データ通信のハードウェア支援機構として、スヌープキャッシュ制御機購およびデータ駆動同期機構を備えている。スヌープキャッシュ制御機構は必要に応じて最適なキャッシュプロトコルに切替えるものであり、データ駆動同期機構は同期とデータ通信を融合し効率的なプロセッサ間通信を実現するものである。本稿ではお茶の水1号上でプログラムを実行させ、スヌープキャッシュとデータ駆動同期機構の性能評価を行なう。, 1994年09月20日, 49, 25, 26
  • 日本語, 全国大会講演論文集, Elastic Memory Consistency Models, 松本 尚; 平木 敬, 近年、並列計算機が実用化されるに従って、性能向上の観点から、いくつかの新しいメモリアクセス順序モデル(コンシステンシモデル)が提案された。store bufferを持つことが可能な緩和されたメモリコンシステンシモデルであるProcessor Consistency(PC)モデルに比べて、近年提案されたメモリコンシステンシモデルはプロセッサが発行するメモリアクセスに対する順序制約がさらに緩和され、リモートメモリアクセスレイテンシの隠蔽効果が大きくなっている。本稿では、PCモデル以上の自由度を持つコンシステンシモデルを議論の対象とする。プロセッサ間の同期や通信に関適するメモリアクセスに対しては、いかなるコンシステンシモデルにおいても、単一のプロセッサから発行されたメモリアクセス間に適切な順序関係の導入が必要となる。ハードウェア的にメモリアクセスの単一性順次性が保証されない場合には、acknowledge(Ack)をメモリアクセス要求元へ返送することによって、先行するメモリアクセスの完了を検知する方式が一般的である。そして、このAckを利用して先行するメモリアクセスの完了を管理することによって、先行するメモリアクセスと順序制約のあるメモリアクセスの間の実行順序を調整する。アクセス完了の計数管理が過度に複雑にならないように、代表的なメモリコンシステンシモデルは、メモリバリアと呼ばれる先行するメモリアクセスがある時点まですべて(場合によってはメモリアクセスの種類別に)完了したことを確認する手段を用いて実装される。緩和されたメモリモデルを使用した場合でも、メモリバリアを張るタイミングにおいてリモートメモリアクセスレイテンシによるコストが健在化する可能性があり、大規模並列計算機においてはこのコストが数百clockにも及ぶことがある。従来型のメモリバリアによるレイテンシコストの健在化を防止するために、メモリバリアをelastic動作可能に拡張することで、新しいタイプのコンシステンシモデルを提案する。また、メモリバリアをMemory-Based Memory Barrier に拡張することで、さらに緩和されたメモリコンシステンシモデルを提案する。, 1994年09月20日, 49, 5, 6
  • 日本語, 全国大会講演論文集, 並列計算機の結合形状評価用シミュレータ, 武本 充治; 松本 尚; 平木 敬, 高速計算機に対する要求が年々高まりつつあるのは事実である。しかし、既存の逐次計算機による高速化だけではもはやその要求に答え切れなくなってきているため、当然の帰結として並列計算機に解を求めることとなる。現在のアーキテクチャ的な研究対象は単なる並列計算機ではなく、プロセッサ要素が数千台以上のいわゆる超並列計算機となっている。内部相互結合網は高い並列度で効率の良い実行を行う上では重要な要素である。そこで、この分野の研究も盛んに行われており、各種形状[1][2][3]が提案されている。結合形状やフロー制御方式など逐次計算機の場合には存在しなかった要素についての研究も行われている。並列計算機では通信遅延が全体の性能に影響を及ぼす場合がある。最近の並列計算機では通信のためのプロセッサを専用に設けることで、通信と演算のオーバーラップを行い、これにより通信遅延の隠蔽の実現している。また、アプリケーションに関しても通信と演算をオーバーラップするようにコードを書き換えれば通信遅延の隠蔽に効果がある。以上の状況を踏まえ、相互結合網に関する要素も評価できるシミュレータ[5]を作成し、通信遅延隠蔽の意味での最適化を施したアプリケーションを用い、結合形状の変化の影響を調べた。, 1993年09月27日, 47, 179, 180
  • 日本語, 全国大会講演論文集, 拡張されたSnoopy Spin Waitと階層化されたElastic Barrier, 松本 尚; 平木 敬, 並列処理を効率良く行うためには、並列アクティビティ間の通信同期のオーバヘッドを極力削減する必要がある。筆者らはこの目的のためにSnoopy Spin Wait(SS-Wait)と命名したソフトウェア技巧[1,2]と簡易なハードウェア機構を用いるElastic Barrierと命名した同期機構[3,4]を従来から提案してきた。本稿ではより多くのマシンや使用ケースに適合するように、一般化かつ拡張されたSnoopy Spin Waitの概念を定義する。また、大規模並列計算機の軽い同期機構として使用可能な階層化されたElastic Barrierを提案する。, 1993年09月27日, 47, 43, 44
  • 日本語, 全国大会講演論文集, 実用並列アプリケーションの実行駆動シミュレータによる性能評価, 秋葉 智弘; 松本 尚; 平木 敬, 共有メモリー型並列計算機における、並列アプリケーションの最適化を支援するために、様々なハードウェアー機構が提案されている。特に、本論文で取り上げるハードウェアー機構は、Elastic barrier(同期待ちによるアイドルタイムを減少させるために、同期に幅を持たせたり、必要のないバリアーを削減したりできる拡張されたバリアー)とスヌープキャッシュにおけるプロトコルの、データオブジェクト毎の切替えである。本論文では、SPLASHと呼ばれる並列アプリケーション群を用いたシミュレーションにより、これらの機能がどのような性能改善をもたらすかを評価する。SPLASHは、普通のC言語とPARMACSと呼ばれるマクロによって、明示的に並列性を記述した、実際に使用されているアプリケーション群である。SPLASHのこの性質により、より現実に即した性能評価を行なうことが出来ると期待できる。, 1993年09月27日, 47, 47, 48
  • 日本語, 全国大会講演論文集, 細粒度並列計算機お茶の水1号 : 最適化コンパイラ, 稲垣 達氏; 松本 尚; 平木 敬, 命令レベルの並列性を利用した細粒度並列処理を行なう場合、演算器の高速化に伴い細粒度での同期や通信のコストが相対的に大きくなる。これらに対してハードウェアによる高速なバリア同期機構[3]やプロセッサ間通信機構[2]を用いて同期や通信のオーバーヘッドを削減もしくは隠蔽することができる。その際、静的なスケジューリングによって同期命令の発行やデータ転送のタイミングの最適化を行なうことが重要である。本稿ではプログラムの基本ブロック及び卜レース内の演算レベルの並列性を静的タスクスケジューリングによって利用する細粒度並列処理を実現する最適化コンパイラOP.1(Optimizing Parallelizer1)について述べる。OP.1は当研究室で開発中の汎用細粒度並列計算機お茶の水1号をターゲットとしており、本稿ではシミュレータ上で性能評価を行なった結果を示す。, 1993年09月27日, 47, 59, 60
  • 日本語, 全国大会講演論文集, 細粒度並列計算機お茶の水1号 : 基本構想, 平木 敬; 松本 尚; 稲垣 達氏; 大津 金光; 戸塚 米太郎; 中里 学, 超大型汎用計算機の性能向上が飽和の兆候をみせ始め、それにともなうコスト/パーフォーマンスの増大が顕著となってきた現在、逐次または並列度の低い密結合汎用計算機を置き換えるものとしての高並列計算機ひいては超並列計算機に対する要求が高まりつつある。しかしながら、領域分割等の自明な方式で容易に高並列性を引き出せる科学技術計算機と異なり、汎用超並列計算においてはループや関数内部レベル、プロックレベル、領域分割レベル等問題の持つ多様な並列性を可能な限り秩序立って引き出す必要がある。粗粒度で容易に並列化が可能な部分は、並列実行するプロセッサの台数と、相互のデータ交換に必要な相互結合網のバンド幅さえあれば、かなりのスピードアップが達成される。その結果、粗粒度による並列化が困難な部分が全体の実行時間のボトルネックとなる。この部分に関しても並列処理を適用して高速化を達成するためには、細粒度の並列性を活用が不可欠である。また、汎用並列システムとして高性能を発揮するためには、粗粒度および細粒度レベルの並列性の抽出による高速化とならび、要素処理装置内部におけるパイプライン並列またはファンクション・ユニットレベルの並列性を可能な限り抽出して高速化を行なうことが基本性能向上のために必要な条件である。従来、高並列並列処理システムに関しては、粗粒度方向で並列度を引き出すことが主要な研究目標であった。これは、処理装置台数全体を満たす限り粗粒度な並列処理は効率良く並列実行が可能であるという事実に基づく。しかしながら、超並列レベルの処理を行なうためには、自明な並列性の抽出だけでは十分でなく、問題の持つ全てのレベルに渉る並列性の利用が課題である。上記3レベルの並列処理形態は独立に並列性を引き出すものでなく、問題に内在する並列性を分配する。従って、より効率的な並列処理システム構築には低レベルの並列性をいかに効率的に引き出すかが重要な課題である。, 1993年09月27日, 47, 55, 56
  • 日本語, 全国大会講演論文集, 細粒度並列計算機お茶の水1号 : 大域同期機構, 中里 学; 松本 尚; 平木 敬, 細粒度並列処理においてはプロセッサが密に通信・同期を行うため、低オーバヘッドの通信・同期機構が不可欠である。東京大学理学部情報科学科平木研究室で開発中の細粒度並列計算機お茶の水1号(Omnipotent Concurrency-Handling Architecture with Novel OptiMIZers-1)[5]は細粒度並列処理にともなう通信・同期を効率的に処理するために大域構造体先行フェッチ機構、メモリベースのデータ駆動的同期機構を搭載している。しかしながら、いずれも共有パスに競合が発生した時には性能が予想以上に悪くなる。お茶の水1号では各プロセッサと直接データのやりとりができる大域同期機構(GS:Global Synchronizer)をもうけて、それを利用した通信・同期のための機構を実現している。本稿では大域同期機構を用いた機構を説明し、性能(予定)を示す。, 1993年09月27日, 47, 61, 62
  • 日本語, 全国大会講演論文集, 細粒度並列計算機お茶の水1号 : 大域構造体先行フェッチ機構, 大津 金光; 松本 尚; 平木 敬, 従来のキャッシュメモリを用いた並列計算機では参照の局所性を利用して性能を引き出すことが原則である。それゆえに本質的に局所性のない処理が苦手である。この問題に対してお茶の水1号では巨大な構造体への順次アクセスという状況に問題を絞り、大域構造体先行フェッチ機構(GSPF機構:Global Structure Pre-Fetch機構)を装備した。本稿ではGSPF機構について説明を行なうと共に性能(予定)を示す。, 1993年09月27日, 47, 57, 58
  • 日本語, 全国大会講演論文集, 細粒度並列計算機お茶の水1号 : メモリベースのデータ駆動同期機構の実現, 戸塚 米太郎; 松本 尚; 平木 敬, 細粒度並列処理ではプロセッサ間のデータ通信が頚繁に起こりうるため、データ通信とそれに伴う同期のオーバヘッドを小さく抑えることが最も重要な課題の一つである。従来、生産者消費者型の同期のために利用されてきた同期機構としてはHEPのfull/emptyビット[2]やデータ駆動計算機等で用いられてきたI-structureメモリ[1]があげられる。フォンノイマン型の要素プロセッサからなる並列計算機に対してはこれまでこのような機構は用いられてこなかったが、スヌープキャッシュ機構とfull/emptyビットによる同期機構を組み合わせた機構[4]が提案されており、その性能が期待される。このような機構を用いると同期がデータ駆動的に行なわれるため、データ通信と同期を統合的に処理でき、同期のための特別な手段を必要としなので、効率の良い処理が可能である。お茶の水1号にはデータ駆動的な同期機構として、メインメモリのワード毎にデータのfull/emptyを示す同期ビットが付加されており、またメインメモリ上にFIFOを構成する機構が搭載されている。お茶の水1号は各プロセッサとバスの間に外部エージェント、メモリとバスの間にメモリコントローラが存在しており、これらが通常のバスアクセスのほか、上記同期機構の実現をしている。本発表ではお茶の水1号における同期ビットによる生産者消費者型同期とメモリ上のFIFOを実現する機構の実装方式および同期性能(予定)を示す。, 1993年09月27日, 47, 63, 64
  • 日本語, 情報処理学会研究報告計算機アーキテクチャ(ARC), 一般社団法人情報処理学会, キャッシュインジェクションとメモリベース同期機構の高速化, 松本 尚; 平木 敬, プロセッサやコントローラが他のキャッシュに投機的にデータを注入するキャッシュインジェクションの概念を定義し、その有効性について議論する。メモリ上のデータを伴って他のプロセッサに処理を依頼したい場面において非常に有効な手法である。また、allread系のプロトコルもキャッシュインジェクション動作を伴うキャッシュプロトコルだと見倣せ、データのトラフィック削減効果が得られる。さらに、インジェクション可能なキャッシュを利用して、演算プロセッサとアクセスプロセッサを結合するDecoupled Archictureが構成できる。次に、メモリベース同期機構の利点およびその高速化方針について述べ、現在開発中の超並列計算機D?machineのアーキテクチャに基づいて、メモリベース同期機構の実装方式について説明する。そして、キャッシュを利用してこの同期機構を高速化する方式について述べる。最後に、キャッシュインジェクションおよびメモリベース同期機構の利用法の典型例を示す。In this paper, we propose the concept of Cache Injection. Cache injection is an action of assigning data into processors' cache by an external element. To define generally, the initiator of data transmission can arbitrarily specify multiple caches as targets of the cache injection. Cache injection technique is useful for implementing various basic mechanisms used in parallel processing systems such as a light message-passing, a latency hiding/reduction by decoupled-architecture approach, an efficient macro-dataflow execution using conventional microprocessors. Then, we describe the merits of Memory-Based Synchronization mechanisms and the strategies for their performance improvements. Implementation methods of the proposed mechanisms on the D-machine (tentative name) of the Japan University Massively Parallel Processing project are described. The performance of memory-based synchronization mechanisms can be improved by the caching technique with some special treatments, and the methods are presented. Finally, application examples of cache injection and memory-based synchronization are discussed., 1993年08月19日, 1993, 71, 113, 120
  • 日本語, 情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC), 一般社団法人情報処理学会, ソフトウェアDSMにおいてfetch -on- writeによる通信トラフィックを削減する手法, 丹羽 純平; 松本 尚; 平木 敬, コンパイラが支援するソフトウェアDSMでは、最適化コンパイラがソースのデータアクセスを解析することで、書き込まれるだけで読み出されないブロックを検知できる。上記のようなブロックに対しては一貫性維持操作を省略することが可能になり、無駄な通信が削減される。本手法を最適化コンパイラRCOPに実装し、その有効性をSS20クラスタ上でSPLASH-2を用いた実験により確認した。In the compiler-assisted software DSM scheme, an optimizing compiler can analyze data access patterns and eliminate coherence management operations for blocks whose data are written but not read. As a result, the run-time system need not fetch data to update the blocks. We have implemented this optimizing technique in the optimizing compiler called "Remote Communication Optimizer" (RCOP). The experimental results using the SPLASH-2 benchmark suite on the SS20 cluster show that this approach is effective., 2000年12月08日, 2000, 114, 49, 54
  • 日本語, 情報処理学会研究報告システムソフトウェアとオペレーティング・システム(OS), 一般社団法人情報処理学会, 汎用クラスタ上の資源情報を用いたHTTPサーバにおける負荷分散性能の評価, 大平 怜; 松本 尚; 平木 敬, ワークステーションを連結させた汎用クラスタ上のHTTPサーバは毎秒のリクエスト数が一定の場合は固定数のノード(固定ノード)上で動くが、リクエスト数が突発的に増えた場合は固定ノード以外のマシンも動的に使用して対処すべきである。本論文では、汎用クラスタ上でOSが提供する資源情報を用いて、各ノードのCPU負荷の増減に応じて台数の増減を判断するHTTPサーバのモデルについて述べる。更に、その判断の基準となる負荷の閾値と判断の頻度によってサーバモデルの負荷分散性能がどう変化するかをシミュレーションを用いて実験する。実験の結果、最適なパラメータを選ぶことによって固定台数方式より優れた性能が得られることが示された。An HTTP server on general-purpose cluster consisting of combined workstations runs on fixed number of nodes (fixed nodes) when the number of requests per second is constant. However, when the number of requests suddenly increases, the server should cope with them by dynamically utilizing machines which are not the member of the fixed nodes. In this paper, we describe the model of HTTP server that uses resource information provided by OS on general-purpose cluster, and determines whether to adjust the number of nodes in response to change of CPU load on each node. Then, by using simulation, we experiment with how the load-balancing performance of the server model changes by the threshold of load on which decision of adjustment depends, and by the frequency of decision. Simulation results show that the dynamic nodes method has better performance than the fixed nodes method by choosing optimal parameters., 2000年08月04日, 2000, 75, 31, 38
  • 日本語, 情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC), 一般社団法人情報処理学会, コンパイラが支援するソフトウェアDSM機構:ADSMとUDSMの性能評価, 丹羽 純平; 松本 尚; 平木 敬, 我々はコンパイラが支援する2つのソフトウェア共有メモリ機構を提案してきた。1つは、読み出しミス時のみTLB/MMUの支援を必要とするページベースのキャッシュ機構で、もう1つは読み書きともに完全にユーザレベルのコードで実現されるキャッシュ機構である。いずれの機構も、アプリケーションプログラムの情報を元にコンパイラが最適化を施す。手続き間ポインタ解析により共有アクセスを検知して、キャッシュエミュレーションコードを挿入し、手続き間冗長性削除の枠組みで、冗長なキャッシュエミュレーションコードを取り除き、coalescing等によりキャッシュエミュレーションコードの粒度を大きくする。我々は上記の最適化コンパイラのプロトタイプを作成して、ワークステーションクラスタ上に2つのソフトウェア共有メモリ機構のランタイム実装した。SPLASH?2ベンチマークを用いた実験によりコンパイラの最適化の効果を確かめ、コンパイラで支援された共有メモリ機構が高い高速化率を得ることを確かめた。We have proposed two compiler-assisted software-cache schemes. One is a page-based system (Asymmetric Distributed Shared Memory: ADSM) which exploits TLB/MMU only in the cases of read-cache-misses. Another is a segment-based system (User-level Distributed Shared Memory: UDSM) which uses only user-level checking codes and consistency management codes for software-cache. Under these schemes, an optimizing compiler directly analyses shared memory source programs, and performs sufficient optimization. It exploits capabilities of the middle-grained or coarse-grained remote-memory-accesses in order to reduce the number and the amount of communications and to alleviate overheads of user-level checking codes. It uses interprocedural points-to analysis and interprocedural redundancy elimination and coalescing optimization. We have implemented the above optimizing compiler for both schemes. We also have implemented runtime systems for user-level cache emulation. Both ADSM runtime system and UDSM runtime system run on the SS20 cluster connected with the Fast Ethernet (100BASE-TX). We have revealed that both schemes achieve high speed-up ratio with the SPLASH-2 benchmark suite., 1999年08月02日, 1999, 66, 95, 100
  • 日本語, 情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC), 一般社団法人情報処理学会, 並列アプリケーションによるMPI/MBCFの評価, 森本 健司; 松本 尚; 平木 敬, 汎用超並列オペレーティングシステムSSS-CORE上のメモリベース通信MBCFを用いて実装されたMPIライブラリMPI/MBCFの性能を、NAS Parakllel Benchmarksの実行により評価した。MPI/MBCFはMBCFのメモリベースFIFOによりライブラリが提供すべきメッセージのバッファリングを、遠隔メモリ書き込みによりメッセージのバッファリングを必要としない通信を実現する。この実装の性能をワークステーションクラスタ上で並列アプリケーションにより評価し、共有メモリ通信機能であるメモリベース通信を用いてメッセージバッシングライブラリを実現することの有効性を検証する。We evaluated the performance of the MPI/MBCF by executing the NAS Parallel Benchmarks. The MPI/MBCF is an MPI library implemented with the Memory-Based Communication Facilities (MBCF) on the SSS-CORE, a general-purpose massively-parallel operating system. To implement the MPI/MBCF, Memory-Based FIFO of the MBCF is used for message buffering provided by the MPI library, and Remote Write for communication without message buffering. This paper shows performance evaluation of the MPI/MBCF on a cluster of workstations with parallel applications, and verifies whether it is effective to construct a message passing library with the MBCF which are based on the shared memory model., 1998年08月06日, 1998, 72, 103, 108
  • 日本語, 情報処理学会研究報告システムソフトウェアとオペレーティング・システム(OS), 一般社団法人情報処理学会, メモリベース通信を用いたRPCの実装, 亀沢 寛之; 松本 尚; 平木 敬, 当研究室で開発されている汎用超並列オペレーティングシステム(OS) SSS-CORE [6][松本,'94]の基本通信システムであるメモリベース通信を用いて遠隔手続き呼び出し(RPC)を実装した。RPCは既に基本技術となっているが、メモリベース通信は(1)通信相手のプロセス空間に直接データを書き込む事が出来る。(2)セグメント単位で通信を保証する。(3)非同期的な動作に対応するように設計されている。といった点でRPCとも相性が良く、「コピー回数が少なく、戻り値付き非同期型に対応し、必ず一回だけ実行する」RPCを自然な形でImplementできる。本論文では、メモリベース通信を用いたのClient-Server applicationの実装方法について考察した後、SUNRPC4.0のを基にしたRPCのSSS-CORE上への実装を行なう。実験としてSunOS UDP SSS-CORE UDP/MBCFで性能の測定/比較を行った。We implemented Remote Procedure Call (RPC) library based on Memory Based Control Facility (MBCF). MBCF is a principal comunication system of our massively parallel operationg system(OS) SSS-CORE [6]Matsumoto,'94. Today, implementaion of RPC is not a hot topic. But MBCF has strong features (1) MBCF enables one process to write data directly into another process's memory space. (2) guarantees transaction of data segments. (3) is designed to work well with asynchronous data transaction. These features are useful to implement "reduced copy", "work asynchronously with returning results", "exactly once execution" RPC. In this paper, we discuss implimentation technique of Client-Server application using MBCF and implement RPC library on SUNRPC4.0 on SSS-CORE. we compare performance of RPC on SunOS UDP, SSS-CORE UDP, SSS-CORE MBCF., 1998年08月06日, 1998, 71, 9, 16
  • 日本語, 全国大会講演論文集, お茶の水5号のハードウェア分散共有メモリ機構, 田中 清史; 松本 尚; 対木 潤; 平木 敬, 1998年03月17日, 56, 155, 156
  • 日本語, 情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC), 一般社団法人情報処理学会, 高機能ネットワークを構築するギガビットチャネルの性能評価, 國澤 亮太; 松本 尚; 平木 敬, ワークステーションクラスタ上に実現されたマルチユーザ/マルチジョブ環境においては、ユーザプロセス間に高速の通信や同期を用意することが必要である。我々は,汎用超並列オペレーティングシステムと協調動作することを目的とした高速かつ高機能なギガビットスイッチングネットワークを開発中であり、その最も基本となるユーザプロセス間の通信を提供する手段としてメモリベース通信を使用する。作成したネットワークインタフェイスカードの機能を検証するために既存のオペレーティングシステム上でメモリベース通信を実装したが、その評価をおこない、高速なメモリベース通信を実現する上でオペレーティングシステムに必要な機能を述べる。On multi-user, multi-job parellel enviromnent build up on workstation clusters, fast user level communication and synchronization method is needed. We are developping a high speed, enhanced gigabit switching network system which cooperates our general purpose massively parallel operating system. Memory based communication is the basic communication method for user level communication. We have implemented memory based communication on existing operating system for testing our network interface card, and evaluate the performance of it. We also describe the mechanism required by operating system for realizing fast memory based communication., 1997年08月19日, 1997, 75, 67, 72
  • 日本語, 情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC), 一般社団法人情報処理学会, 分散メモリ型並列計算機における共有オブジェクト空間の実現, 丹羽 純平; 稲垣 達氏; 松本 尚; 平木 敬, 分散メモリ型計算機において、メッセージパッシングライブラリを使用して、動的で複雑なデータ構造を扱うアプリケーションを記述することは多大な労力を必要とする。それを減少させるためには、言語やランタイムシステムが共有名前空間を提供する必要がある。本稿では、ソフトウェアによりオブジェクトベースの共有名前空間を提供する方法を述べ、既存のシステムがユーザーに委ねてきた低レベルの通信に関する記述を、コンパイラがコードを解析して生成することを提案する。更にこの記述を複数個用意して、コンパイラがそれらを状況に応じて使い分けることにより性能の向上を試みる。我々はAP1000+上に作成したプロトタイプシステムを用いて、本方式により高速化が達成されることを確認した。On a distributed memory parallel machine, it needs much effort to write applications which deal with dynamic and complex data structures by using message passing library. To redufe the difficulty, it is necessary for a language or a runtime-system to provide shared name space. In this paper, we describe how to provide the software shared name space based on objects. Existing systems entrust users the description of low level communication. We propose that the compiler analyzes the code and supports the description of low level communication. Furthermore we propose that the compiler generates many descriptions of the communication, and the compiler uses the suitable one as the case may be, which results in speedup. We develop the prototype system running on AP1000+, and evaluate our approach, which exhibits good speedup., 1996年08月28日, 1996, 81, 7, 12
  • 日本語, 情報処理学会研究報告システムソフトウェアとオペレーティング・システム(OS), 一般社団法人情報処理学会, 汎用並列OS SSS - COREにおけるカーネルスケジューリング方式 -詳細確認モデルによる性能評価-, 信国陽二郎; 松本 尚; 平木 敬, 分散メモリ環境で並列プロセスの効率的な実行を妨げることなくマルチユーザ/マルチジョブ環境を構築するには、メモリページなどの実資源の使用状況を考慮したスケジューリングを行ない、システム全体の性能をあげることが有効である。また複数のプロセスが並行に動作する汎用的環境では、実メモリが溢れる場合を想定したシステム構築が求められる。分散環境では、参照頻度及び再アクセスのコストにより実メモリページを区別すれば、効率的な置換方式が可能である。本稿ではメモリアクセスベースの確率モデル上で、具体的なメモリ管理方式/アクセス頻度/アクセスコストを付加したシミュレーションにより、並列プロセス毎に所有する実ページ情報を利用したスケジューリング方式、及びメモリ置換方式の評価を行う。Preventing parallel processes from unexpected ineficiencies is a major concern for constructing multiple user/multiple job environment in distributed memory systems. Systems can achieve high performance by using shcheduling policies which reflects resource comsumption states. For a general environment, which must support concurrent execution of multiple processes, a way is needed to keep systems' effectiveness when phisical memories are full. In distributed systems, memory pages can be classified by access frequencies and required costs for accesses after target pages has been replaced. Selecting victim pages according to the classification may enhance system performance. We built a probabilistic model with a concrete memory management scheme and differntiated memory access costs, and incorporated memory reference frequencies to it. The paper describes an evaluation of scheduling policies using resource informations for each process and of page replacement policies under the model., 1996年08月26日, 1996, 79, 79, 84
  • 日本語, 情報処理学会研究報告. HPC,[ハイパフォーマンスコンピューティング], 一般社団法人情報処理学会, ループ並列投機実行の Java 仮想マシンへの適用, 美添 一樹; 松本 尚; 平木 敬, 命令レベルより大きい粒度のブロックにプログラムを分割し、各ブロックを投機実行することによりブロックレベル並列性を得るハードウェアについて、いくつかの論文で提案がなされている。我々は投機実行の手法を適用したJava仮想マシンを共有メモリマシン上で実装した。投機実行の対象はループに限定した。単純なループについて実験を行なった結果、インタプリタJava仮想マシンでも10000命令以上のループであれば高速化が可能であった。, 1998年08月06日, 72, 1, 6
  • その他, 情報処理学会研究報告, ループ並列投機実行のJava仮想マシンへの適用, 美添一樹; 松本尚; 平木敬, 1998年, 98, 72(HPC-72)

書籍等出版物

  • 国立大学法人のガバナンスの現状 --奈良女子大学の場合--, 月刊 大学マネジメント編集部, 日本語, その他
  • 学長による国立大学私物化の現状 --奈良女子大学の場合, 日本科学者会議、本の泉社, 日本語, その他

講演・口頭発表等

  • 松本 尚, 奈良経済同友会・奈良女子大学の交流会, 安心安全なIoT 社会を構築するLCCA ネットワーク構想, 2018年01月15日, 2018年01月15日, 2018年01月15日, 日本語
  • 松本 尚, 奈良女子大学新技術説明会、科学技術振興機構, 安心安全なIoT 社会を構築するLCCA ネットワーク構想, 2017年09月12日, 2017年09月12日, 2017年09月12日, 日本語
  • 松本 尚, イノベーションジ ャパン2016,科学技術振興機構, 次世代エッジコンピューティング用アプリケーションプロセッサ, 2016年08月25日, 2016年08月25日, 2016年08月26日, 日本語

Works(作品等)

  • 高性能組込SoC: JSTEP-3, 松本 尚, rm:research_project_id
  • NRFS: ネットワーク・レイド・ファイル・システム, 松本 尚, rm:research_project_id
  • スケーラブルオペレーティングシステムSSS-PC, 松本 尚, rm:research_project_id;rm:research_project_id;rm:research_project_id
  • スケーラブルオペレーティングシステムSSS-CORE, 松本 尚, rm:research_project_id;rm:research_project_id

受賞

  • 高橋奨励賞, 日本ソフトウェア科学会, 松本 尚, 1997年10月, 汎用超並列オペレーティングシステムSSS-COREのユーザレベル通信同期機構
  • 学術奨励賞, 情報処理学会, 松本 尚, 1990年03月, 一般化されたバリア型同期機構

産業財産権

  • 特許権, LSIチップ及びネットワークシステム, 松本 尚, 奈良女子大学, 特願2015-20892, 2015年02月05日, 特開2015-165656, 2015年09月17日, 特許第6580333, 2019年09月06日, 2019年09月25日
  • 特許権, ネットワーク機器、ネットワークシステム、LSIモジュール及び変換モジュール, 松本 尚, 奈良女子大学, 特願2014-81424, 2014年04月10日, 特開2015-203885, 2015年11月16日
  • 特許権, ネットワークシステム, 松本 尚, 奈良女子大学, 特願2014-49222, 2014年03月12日, 特開2015-172906, 2015年10月01日
  • 特許権, LSIチップ及びネットワークシステム, 松本 尚, 奈良女子大学, 特願2014-20896, 2014年02月06日
  • 特許権, プロセッサ., 松本 尚, 科学技術振興事業団, 特願平11-354203, rm:research_project_id
  • 特許権, アクセス方法及びアクセス処理プログラムを記録した記録媒体, 松本 尚, 科学技術振興事業団, 特願平11-255272, rm:research_project_id
  • 特許権, Multiprocessor memory managing system and method for executing sequentially renewed instructions by locking and alternately reading slave memories, Kawase, K, Matsumoto, T, Moriyama, T, IBM Corp., 特願平3-233749
  • 特許権, Multiprocessor system and process synchronization method therefor, Matsumoto, T, IBM Corp., 特願平1-277334
  • 特許権, Image display method and apparatus, Matsumoto, T, IBM Corp., 特願昭63-285698
  • 特許権, Multiprocessor system having synchronization control mechanism, Fukuda, M, Matsumoto, T, Nakada, T, IBM Corp., 特願平1-57762
  • 特許権, Graphics system shadow generation using a depth buffer, Matsumoto, T, IBM Corp., 特願昭63-224448

共同研究・競争的資金等の研究課題

  • 2021年04月, 2022年03月, 研究代表者, 組込みSoCクラスタ化技術に関する研究, 電機メーカー, 共同研究
  • 2020年04月, 2021年03月, 研究代表者, 組込みSoCクラスタ化技術に関する研究, 電機メーカー, 共同研究
  • 2019年04月, 2020年03月, 研究代表者, 組込みSoCクラスタ化技術に関する研究, 松本 尚, 電機メーカー, 共同研究, 奈良女子大学
  • 2018年04月, 2019年03月, 研究代表者, 組込みSoCクラスタ化技術に関する研究, 松本 尚, 電機メーカー, 共同研究, 奈良女子大学
  • 2017年04月, 2018年03月, 研究代表者, 組込みSoCクラスタ化技術に関する研究, 松本 尚, 電機メーカー, 共同研究, 奈良女子大学
  • 2016年04月, 2017年03月, 研究代表者, 開発エンジニア早期育成に向けた実証実験, 松本 尚, ソフトウェア開発会社, 共同研究, 奈良女子大学, rm:published_papers;rm:published_papers;rm:published_papers
  • 2015年06月, 2016年03月, 研究代表者, 開発エンジニア早期育成に向けた実証実験, 松本 尚, ソフトウェア開発会社, 共同研究, 奈良女子大学, rm:published_papers;rm:published_papers
  • 2014年05月, 2015年03月, 研究代表者, GPGPUエンジニア早期育成に向けた実証実験, 松本 尚, ソフトウェア開発会社, 共同研究, 奈良女子大学
  • 基盤研究(B), 2005年04月, 2008年03月, 研究代表者, スケーラビリティと耐故障性を持つサーバシステムの構成法に関する研究, 松本 尚; 並木 美太郎; 中條 拓伯; 藤野 貴之; 浅野 正一郎, 日本学術振興会, 平成17年度科学研究費補助金, 国立情報学研究所
  • 2001年10月, 2004年09月, 研究代表者, 高性能組込マイクロプロセッサ, 松本 尚; 田中 清史, 科学技術振興事業団, 新規事業志向型研究開発成果展開事業, rm:works
  • 2001年04月, 2003年12月, 研究代表者, 次世代オペレーティングシステムSSS-PCの開発, 松本 尚, 情報処理振興事業協会, IPA情報技術開発支援事業, rm:works
  • 2001年07月, 2002年02月, 研究代表者, Linux版ネットワークRAIDファイルシステムの実用化, 松本 尚, 情報処理振興事業協会, 未踏ソフトウェア創造事業, rm:works
  • 1998年10月, 2001年09月, 研究代表者, 自律最適化を支援する資源割り当て方式の研究, 松本 尚, 科学技術振興事業団, さきがけ研究21『情報と知』領域, 東京大学, rm:works;rm:industrial_property_rights;rm:industrial_property_rights
  • 奨励研究(A), 1999年04月, 2001年03月, 研究代表者, 共有メモリ並列プログラムの通信最適化に関する研究, 松本 尚, 日本学術振興会, 平成11年度科学研究費補助金, 東京大学
  • 2000年10月, 2001年02月, 研究代表者, ネットワークRAIDファイルシステムの開発, 松本 尚, 情報処理振興事業協会, 未踏ソフトウェア創造事業
  • 1998年04月, 2001年02月, 研究分担者, スケーラブルな分散サーバ環境の研究., 松本 尚, 情報処理振興事業協会, 独創的情報技術育成事業に係わる開発, rm:works
  • 1999年04月, 2000年01月, 研究分担者, メモリベース概念に基づく次世代ネットワーク構築方式の研究開発, 松本 尚, 情報処理振興事業協会, 次世代デジタル応用基盤技術開発事業
  • 奨励研究(A), 1997年04月, 1999年03月, 研究代表者, ソフトウェアメモリベース通信機構に関する研究, 松本 尚, 日本学術振興会, 平成9年度科学研究費補助金, 東京大学, rm:works
  • 1995年04月, 1998年02月, 研究分担者, 超並列オペレーティングシステムカーネルSSS-COREの研究, 松本 尚, 情報処理振興事業協会, 独創的情報技術育成事業に係わる開発, rm:works
  • 奨励研究(A), 1996年04月, 1997年03月, 研究代表者, 一般化されたコンバイニング機構に関する研究, 松本 尚, 日本学術振興会, 平成8年度科学研究費補助金, 東京大学
  • 奨励研究(A), 1995年04月, 1996年03月, 研究代表者, エラスティックメモリコンシステンシモデルに関する研究, 松本 尚, 日本学術振興会, 平成7年度科学研究費補助金, 東京大学
  • 奨励研究(A), 1994年04月, 1995年03月, 研究代表者, キャッシュインジェクション機構の定量評価, 松本 尚, 日本学術振興会, 平成6年度科学研究費補助金, 東京大学
  • 1994年07月, 1995年02月, 研究分担者, 超並列オペレーティングシステムカーネルSSS-COREの研究., 松本 尚, 情報処理振興事業協会, 独創的情報技術育成事業に係わる開発
  • 奨励研究(A), 1993年04月, 1994年03月, 研究代表者, 密結合マルチプロセッサ上のElastic Barrierの性能評価, 松本 尚, 日本学術振興会, 平成5年度科学研究費補助金, 東京大学

Ⅲ.社会連携活動実績

1.公的団体の委員等(審議会、国家試験委員、他大学評価委員,科研費審査委員等)

  • 日本学術振興会, 審査第二部会情報学小委員会科学研究費委員会専門委員, 2016年01月, 2016年12月, 学協会
  • 日本学術振興会, 審査第二部会情報学小委員会科学研究費委員会専門委員, 2015年01月, 2015年12月, 学協会


Copyright © MEDIA FUSION Co.,Ltd. All rights reserved.