JAIST Repository >
Research Center for Advanced Computing Infrastructure >
Conference Papers >
Conference Papers >

Please use this identifier to cite or link to this item: http://hdl.handle.net/10119/12252

Title: 大規模データセンターにおける運用ノウハウ共有による障害再発防止方式の提案
Authors: 西野, 博之
坂下, 幸徳
敷田, 幹文
Keywords: ノウハウ共有
障害発生理由
大規模サーバ
障害原因解析
運用管理
Sharing Know-How
Failure Reason
Large-scale Servers
Root Cause Analysis (RCA)
System Management
Issue Date: 2013-12-05
Publisher: 情報処理学会
Magazine name: インターネットと運用技術シンポジウム2013論文集
Volume: 2013
Start page: 87
End page: 94
Abstract: 仮想化技術の普及に伴い,今日のデータセンターは大規模化複雑化が進んでいる.サーバやストレージ,ネットワークといった複数分野の機器を同時に運用することが求められる一方で,それらの運用管理を行う人材の不足は深刻化し,担当者の不在等により普段の担当とは違う分野の運用に携わる機会が増えている.担当外の管理者が設定変更操作を行った際,把握しきれていない他の設定や仕様との連携により予期せぬ障害が生じる事がある.管理者は実際の運用業務を通して複雑なシステムの構成を理解しなくてはならないが,実際の障害時になぜその障害が発生したかを判断するためには経験や勘を要する.そのため,担当外の管理者だけで復旧作業を行い,経験や勘をノウハウとして習得することは困難である.復旧作業を支援する障害原因解析を行う様々な手法が提案されているが,なぜ障害が生じたのかを類推する部分に関しては熟練管理者依存となっている.そこで,本研究では管理者の操作履歴を用い,操作によって障害が発生した理由を明確化する.また,それらの理由を該当操作時にノウハウ情報として提示することで,担当外の管理者のノウハウ形成を支援し,操作による障害再発を抑制する手法を提案する. : Due to the development of virtualization technologies data centers are more and more becoming huge. Therefore Keeping the plural apparatuses like servers, storages and routers in good working order is needed. On the other hand, shortage of server managers is serious. This is the reason why the opportunity for server managers to operate outside machines of their expertise are increasing. Those managers are likely to cause unexpected obstacles when they operate outside machines of their expertise. Although the managers must understand system configuration while maintaining servers, empirical intuition are needed to specify the cause of obstacles when obstacles happen. On this account, It is hard to do the repair work and learn know-how only in managers who do not have expertise about where applicable. As a technique to support repair work, there are some RCA methods. However it depends on the skilled managers to estimate why the obstacle happened. This proposal method supports managers who is outside of his/her area of expertise with using operation logs as a know-how-information. it can finally inhibit operation mistakes.
Rights: 社団法人 情報処理学会, 西野 博之, 坂下 幸徳, 敷田 幹文, インターネットと運用技術シンポジウム2013論文集, 2013, pp.87-94. ここに掲載した著作物の利用に関する注意: 本著作物の著作権は(社)情報処理学会に帰属します。本著作物は著作権者である情報処理学会の許可のもとに掲載するものです。ご利用に当たっては「著作権法」ならびに「情報処理学会倫理綱領」に従うことをお願いいたします。 Notice for the use of this material: The copyright of this material is retained by the Information Processing Society of Japan (IPSJ). This material is published on this web site with the agreement of the author (s) and the IPSJ. Please be complied with Copyright Law of Japan and the Code of Ethics of the IPSJ if any users wish to reproduce, make derivative work, distribute or make available to the public any part or whole thereof. All Rights Reserved, Copyright (C) Information Processing Society of Japan.
URI: http://hdl.handle.net/10119/12252
Material Type: publisher
Appears in Collections:e11-1. 会議発表論文 (Conference Papers)

Files in This Item:

File Description SizeFormat
20927.pdf1658KbAdobe PDFView/Open

All items in DSpace are protected by copyright, with all rights reserved.

 


Contact : Library Information Section, Japan Advanced Institute of Science and Technology