■ 編者按
有這么幾股力量都在推動(dòng)具有經(jīng)濟(jì)效益的現(xiàn)貨組件的(COTS)高實(shí)用性的通信系統(tǒng)發(fā)展。放寬管制、融合語(yǔ)音和數(shù)據(jù)網(wǎng)絡(luò)、Internet,更不用說(shuō)脆弱的經(jīng)濟(jì)了,所有這些都需要增值業(yè)務(wù),而增值業(yè)務(wù)的迅速發(fā)展,更容易實(shí)現(xiàn)并且可以帶來(lái)逐漸增長(zhǎng)的用戶數(shù),并改善業(yè)務(wù)提供商整體投資的回報(bào)(ROI)。平衡這些需求對(duì)于業(yè)務(wù)提供商、系統(tǒng)開發(fā)商和類似的組件供應(yīng)商來(lái)說(shuō)都代表著新的挑戰(zhàn)。
繼續(xù)使用COTS組件,是符合當(dāng)今需求的通信解決方案,并且已經(jīng)證明由于規(guī)模經(jīng)濟(jì)和增長(zhǎng)的互操作性,COTS組件能夠降低整體系統(tǒng)成本。通信設(shè)備制造商(TEM)可以解放出來(lái)集中精力整合現(xiàn)貨組件并增加具體的垂直服務(wù),這就產(chǎn)生了更短的方案開發(fā)時(shí)間。由于其利用了可獲得的,廣泛使用的成熟組件,因此COTS方法也降低了風(fēng)險(xiǎn)。
既然解決方案仍然需要滿足現(xiàn)存專用設(shè)備的系統(tǒng)實(shí)用性、質(zhì)量和性能特性,COTS方法也引起了一些有意思的困難。需要大量的分析工作來(lái)決定組件是否正確安裝,當(dāng)被捆綁時(shí),這些組件將產(chǎn)生足夠的價(jià)格點(diǎn)。但是,如果所有的組件能夠共同工作以提供可估計(jì)的可靠性水平,這才是唯一有效的。這一策略代表了可升級(jí)和可靠性從單塊集成電路的分離,其從一開始就被設(shè)計(jì)并完全在方案開發(fā)者的控制之下。
這種二分法是有挑戰(zhàn)性的,但是可以通過(guò)直接方式來(lái)分析,并顯示了其遵從基本的技術(shù)和經(jīng)濟(jì)原理。
這篇文章的目的就是提供對(duì)市場(chǎng)部門和形成產(chǎn)業(yè)的這一重要的技術(shù)力量的深入了解。其將含蓋實(shí)用性的基本內(nèi)容,包括它是如何被測(cè)量的;發(fā)生故障的最常見的原因和避免故障熟知的方法;網(wǎng)絡(luò)、系統(tǒng)和組件實(shí)用性的差別;以及故障群和冗余的概念。也將推薦8個(gè)最常見和最經(jīng)濟(jì)的高實(shí)用性結(jié)構(gòu),并提供每一個(gè)結(jié)構(gòu)的優(yōu)缺點(diǎn)。"高實(shí)用性經(jīng)濟(jì)"概念被提出以對(duì)決定每一結(jié)構(gòu)實(shí)用性代價(jià)背后的技術(shù)和科學(xué)提供最大的理解。這篇文章包括了每一個(gè)設(shè)計(jì)者在選擇COTS組件并規(guī)劃一個(gè)高實(shí)用性但是節(jié)約成本的通信系統(tǒng)結(jié)構(gòu)時(shí),應(yīng)該熟記在心?quot;10條實(shí)用性理論"。
■ 定義高實(shí)用性需求
對(duì)于業(yè)務(wù)提供者來(lái)說(shuō),在節(jié)約成本系統(tǒng)上的高實(shí)用性業(yè)務(wù)對(duì)于他們的成功是至關(guān)重要的。放寬管制和更為激烈的競(jìng)爭(zhēng)使得他們更加關(guān)注于其方案的經(jīng)濟(jì)性,但是他們也不愿意犧牲原系統(tǒng)的決定性作用。
幾個(gè)因素在業(yè)務(wù)提供者產(chǎn)生業(yè)務(wù)產(chǎn)值方面扮演了重要的作用
- 延長(zhǎng)一個(gè)已有方案在市場(chǎng)中的時(shí)間;尤其是在網(wǎng)絡(luò)從TDM時(shí)期轉(zhuǎn)移到數(shù)據(jù)包(或者IP)時(shí)期的時(shí)候
- 改善方案的實(shí)用性;當(dāng)它們不能有效運(yùn)作時(shí),也不能贏利。
- 盡可能快的把一個(gè)新業(yè)務(wù)推向市場(chǎng),在盡可能節(jié)約成本的情況下拓展現(xiàn)存系統(tǒng)的能力和性能。創(chuàng)新性新業(yè)務(wù)將增加業(yè)務(wù)提供者的用戶數(shù)量,并允許他們把他們一般的固定管理費(fèi)用集成在大量的增值用戶群上。
業(yè)務(wù)提供商一直在尋找縮減提供業(yè)務(wù)整體成本的方法--或者整體擁有成本,包括采購(gòu)、開發(fā)、配置和運(yùn)行的成本。為了能夠滿足這些要求,他們要求甚至更加便宜并且更靈活的系統(tǒng),這些系統(tǒng)仍然可以滿足現(xiàn)存專用設(shè)備的實(shí)用性、質(zhì)量和性能特性。這增加了它們提供者的壓力--就是通常叫成TEM的通用設(shè)備制造商。
傳統(tǒng)上,關(guān)鍵的通信應(yīng)用存在于昂貴的、專用單塊集成電路系統(tǒng)上,這些系統(tǒng)使用特定的硬件和軟件建立,并從根本上設(shè)計(jì)來(lái)產(chǎn)生高層次的實(shí)用性和決定性。但是,建設(shè)、配置、維護(hù)和運(yùn)行這些系統(tǒng)的高成本是和低成本、開放標(biāo)準(zhǔn)方法不可比擬的,這種方法最初在臺(tái)式電腦領(lǐng)域出現(xiàn),現(xiàn)在建模在Internet后的下一代基于IP的網(wǎng)絡(luò)中已變得普遍深入。因此,許多TEM們已經(jīng)開始注意COTS方法。
已經(jīng)被廣泛接受的一點(diǎn)是COTS組件可以降低系統(tǒng)整體成本。COTS可以使得業(yè)務(wù)提供商和TEM們產(chǎn)生收入,并保持競(jìng)爭(zhēng)力,這是因?yàn)榻M件成本被優(yōu)化了,投入市場(chǎng)的時(shí)間縮短了,并由于增加的競(jìng)爭(zhēng)力、多組件資源、較少的開發(fā)風(fēng)險(xiǎn)、可升級(jí)和可預(yù)計(jì)的可靠性及性能(或者決定性)的驅(qū)動(dòng)而使性能得到了改善。
COTS組件開發(fā)者擁有專業(yè)技能來(lái)建立水平的、成本優(yōu)化的構(gòu)建模塊,這些模塊可以應(yīng)用于廣泛的垂直解決方案中。例如,一個(gè)良好規(guī)劃的構(gòu)建模塊,比如一個(gè)網(wǎng)絡(luò)接口,可以用在通信交換、語(yǔ)音郵件應(yīng)用和互動(dòng)語(yǔ)音應(yīng)答(IVR)應(yīng)用中。因此,供應(yīng)商可以把產(chǎn)品賣給幾個(gè)TEM,以更少的成本實(shí)現(xiàn)更多相同的事情。在傳統(tǒng)的模型中,每一個(gè)TEM需要專業(yè)技能來(lái)建立這些一般功能建設(shè)模塊,并且由于他們的專業(yè)化將建立更少的模塊。應(yīng)用COTS建設(shè)模塊方法,TEM們可以集中來(lái)增加專業(yè)化垂直商業(yè)邏輯在通用建設(shè)模塊的上面以滿足他們用戶的需要。這就極大地縮減了他們整體開發(fā)的工作量和開發(fā)更低成本的組件。已經(jīng)不斷地顯示出,開放的標(biāo)準(zhǔn)COTS組件可以從根本上降低TEM的開發(fā)成本和投入市場(chǎng)時(shí)間,這些組件可以與方案中其它元素高度地相互操作。
由于建設(shè)模塊可以從多種資源獲得,TEM們也可以在從供應(yīng)商間的競(jìng)爭(zhēng)中獲益時(shí)避免制造商封閉,這種競(jìng)爭(zhēng)將帶來(lái)更低的價(jià)格和迅速的組件改善。
對(duì)于業(yè)務(wù)提供商來(lái)說(shuō),既然他們擁有降低的方案開發(fā)成本和更低的配置和操作成本,COTS可以有助于最小化TCO。
■ 實(shí)用性計(jì)算
許多時(shí)候經(jīng)常把可靠性和實(shí)用性等同起來(lái),當(dāng)然兩個(gè)概念對(duì)于高實(shí)用性概念來(lái)說(shuō)都是十分重要的。所以當(dāng)定義實(shí)用性時(shí),注意到術(shù)語(yǔ)間細(xì)微的差別是十分有用的:
- 可靠性是某件事在一段具體時(shí)間內(nèi)不會(huì)失敗的可能性
- 實(shí)用性是一項(xiàng)業(yè)務(wù)可以獲得的時(shí)間和整體時(shí)間的比率。換句話說(shuō):
實(shí)用性=MTTF/(MTTF+MTTR),此處MTTF代表故障的平均時(shí)間而MTTR代表修復(fù)的平均時(shí)間。
當(dāng)MTTF增加到無(wú)限,MTTR減少到零時(shí),實(shí)用性接近100%;百分比越高,越好。

正如表中建議的那樣,實(shí)用性尤其在非常接近1的區(qū)間內(nèi)才被討論。盡管99%的正常運(yùn)行時(shí)間看起來(lái)很好,它仍然將導(dǎo)致每年超過(guò)3天半的故障時(shí)間。大部分方案不會(huì)被認(rèn)為是高可用的,直到它們接近99.9%的運(yùn)行時(shí)間--大概每年9個(gè)小時(shí)的故障時(shí)間。但是,通信行業(yè)使用4個(gè)9級(jí)別到5個(gè)9級(jí)別范圍的實(shí)用性。
問(wèn)題是越高的實(shí)用性,將要求提供業(yè)務(wù)越高的成本。對(duì)業(yè)務(wù)提供商、他們系統(tǒng)和組件供應(yīng)商的這個(gè)大的挑戰(zhàn)要求實(shí)用性和成本間的平衡。
系統(tǒng)整體的實(shí)用性可以通過(guò)把系統(tǒng)分解成獨(dú)立的組件來(lái)決定--這些組件包含硬件和軟件。硬件的實(shí)用性可以進(jìn)一步?jīng)Q定于平臺(tái)的實(shí)用性和I/O板的實(shí)用性,軟件也是一樣。
數(shù)學(xué)上:
系統(tǒng)實(shí)用性=(硬件實(shí)用性)與(軟件實(shí)用性)
硬件實(shí)用性=(平臺(tái)實(shí)用性)與(I/O板實(shí)用性)
軟件實(shí)用性=(操作系統(tǒng)實(shí)用性)與(中間件實(shí)用性)與(軟件實(shí)用性)與(應(yīng)用實(shí)用性)
并不是網(wǎng)絡(luò)中每一個(gè)組件都必須提供相同級(jí)別的實(shí)用性;尤其,9的數(shù)量由終端用戶具體要求而定。組件供應(yīng)商不需要提供所有組件都是5個(gè)9,但是他們必須產(chǎn)生可以使得業(yè)務(wù)滿足高實(shí)用性要求的組件。組件在系統(tǒng)中被整合的方式對(duì)于實(shí)用性有很大的影響,正如系統(tǒng)在網(wǎng)絡(luò)中被安排的方式一樣。
◎ 網(wǎng)絡(luò)對(duì)實(shí)用性的影響
網(wǎng)絡(luò)中設(shè)備的位置也會(huì)影響實(shí)用性。隨著設(shè)備向公共網(wǎng)絡(luò)的核心框架的接近,實(shí)用性也就要求的越嚴(yán)格;當(dāng)處于邊緣的時(shí)候,實(shí)用性要求將更加輕松。例如,本地環(huán)路沒有很多的內(nèi)建保護(hù)以防止故障。實(shí)際上,Telcordia把本地交互網(wǎng)絡(luò)實(shí)用性具體為99.93%1,其被認(rèn)為代表了利潤(rùn)和成本間的平衡,而且用戶發(fā)現(xiàn)這種平衡也是可以接受的。但是,互聯(lián)這些本地交換的核心網(wǎng)絡(luò)必須提供更好的實(shí)用性。
對(duì)于不同業(yè)務(wù)類型的實(shí)用性預(yù)期值也是不同的。關(guān)鍵和重要的業(yè)務(wù),比如119,要求比其它非關(guān)鍵業(yè)務(wù)更高的實(shí)用性級(jí)別。
在決定系統(tǒng)或者組件實(shí)用性要求的首要考慮因素是決定組件在網(wǎng)絡(luò)中應(yīng)該位于什么地方,被用來(lái)做什么和對(duì)于最終終端用戶方案將怎樣與其它系統(tǒng)組合。
◎ 實(shí)用性的"邏輯性"
測(cè)量硬件實(shí)用性要求考慮獨(dú)立組件,組成了整合電路、晶體管、二極管,電阻器、電容器、中繼、交換機(jī)、連接器以及其它東西構(gòu)成的系統(tǒng)。
有很多現(xiàn)成的方法來(lái)估計(jì)硬件可靠性和硬件組件的實(shí)用性;谶@個(gè)考慮,不同的硬件提供商通過(guò)Bellcore算法提供整合的平臺(tái)級(jí)和電話板塊級(jí)MTTF數(shù)據(jù)。他們的數(shù)據(jù)用作輸入和開始點(diǎn),但不會(huì)基于獨(dú)立電子組件來(lái)決定可用特性。

組件組合的方式對(duì)于方案整體的實(shí)用性有很大的影響。
如果組件串行組合,方案依靠所有組件的實(shí)用性,并且整體系統(tǒng)的實(shí)用性比最差組件的實(shí)用性還要低。當(dāng)如果組件被并行集成在一起,獨(dú)立組件實(shí)用性級(jí)別將有一些不同。整體系統(tǒng)實(shí)用性可能甚至比最優(yōu)組件的實(shí)用性還要高。
開發(fā)者另一個(gè)需要考慮的就是盡可能地使用并行實(shí)用性。尤其,規(guī)劃一個(gè)并行實(shí)用性方案不會(huì)增加對(duì)整個(gè)方案的成本,因?yàn)槌杀驹诓⑿薪M件實(shí)際被加上后才體現(xiàn)出來(lái)。業(yè)務(wù)提供商可以在起初沒有并行組件的情況下配置系統(tǒng),然后當(dāng)其能證明合理時(shí)輕松地增加實(shí)用性。
由于冗余被引入系統(tǒng),系統(tǒng)的可用特性發(fā)生了重大的改變。實(shí)用性計(jì)算變成了一種費(fèi)力并且容易出錯(cuò)的工作,因?yàn)橛?jì)算必須考慮冗余的效果,失效切換到冗余組件的成功率,MTTR失效組件的效率及相似的問(wèn)題。使用平臺(tái)和電話板塊MTTF數(shù)據(jù)作為輸入和使用可靠模塊圖(RBD)2以正確決定系統(tǒng)級(jí)別可用特性可以獲得更好的結(jié)果。
使用RBD,互聯(lián)的模塊可以被建立來(lái)顯示和分析系統(tǒng)中任何組件失效的效果。RBD也可以說(shuō)明成功失效轉(zhuǎn)移的概率,在帶有操作要素的系統(tǒng)中建立冗余,這些要素比如缺乏立即可用的空閑部分。比如來(lái)自Relex
Software Corporation*的軟件可以用來(lái)產(chǎn)生系統(tǒng)級(jí)可用特性。這些包計(jì)算了整體的失敗路徑以在成千上萬(wàn)的失效場(chǎng)景中決定系統(tǒng)整體的可靠性和實(shí)用性。既然失效路徑的數(shù)量隨著系統(tǒng)組件數(shù)量的增加而成指數(shù)增長(zhǎng),軟件運(yùn)行Monte
Carlo仿真3為不同滿意級(jí)別獲得不同的可靠性指數(shù)。
開發(fā)者第三個(gè)應(yīng)該考慮的因素就是擁有這些相對(duì)不太昂貴的工具并在不同實(shí)用性配置選擇下完整地分析他們方案的可用特性。這樣的測(cè)試要求嚴(yán)格的方法來(lái)決定系統(tǒng)特定的可用特性。

■ 故障原因
◎ 過(guò)載
業(yè)務(wù)中斷的主要一個(gè)原因就是系統(tǒng)或者網(wǎng)絡(luò)的過(guò)載:過(guò)少的資源處理過(guò)多的呼叫。這樣的例子包括一個(gè)新業(yè)務(wù)的初始推出或者突然出現(xiàn)業(yè)務(wù)高峰。
當(dāng)新業(yè)務(wù)被推出時(shí),預(yù)測(cè)終端用戶的反映或者業(yè)務(wù)將在實(shí)際條件下如何運(yùn)行是很困難的。建模是很有用的;但是經(jīng)常的發(fā)生的情況是,當(dāng)試圖預(yù)測(cè)一個(gè)復(fù)雜系統(tǒng)的實(shí)際表現(xiàn)時(shí),整體要素可能被忽略。
使用的業(yè)務(wù)高峰發(fā)生在廣告戰(zhàn)役時(shí)或者是節(jié)假日期間,比如母親節(jié)。
除非系統(tǒng)可以正確地設(shè)計(jì)來(lái)解決用戶的大量涌入或者減輕負(fù)載,否則它們將失敗。精確地決定出哪一個(gè)組件首先失敗是很困難的。有時(shí)問(wèn)題變得更加復(fù)雜,很小的故障經(jīng)常導(dǎo)致災(zāi)難性的事件,因?yàn)槟J(rèn)管理系統(tǒng)本身變得過(guò)載了。
確保系統(tǒng)被設(shè)計(jì)來(lái)解決過(guò)載問(wèn)題是開發(fā)者第四個(gè)應(yīng)該考慮的問(wèn)題。系統(tǒng)必須提供一些負(fù)載緩沖并在出錯(cuò)時(shí)允許大量的業(yè)務(wù)返回。操作、管理和維護(hù)(OA&M)系統(tǒng),經(jīng)常被用來(lái)協(xié)助防止過(guò)載,而且也必須高可用和容錯(cuò)。否則,它們可能會(huì)拖垮整個(gè)系統(tǒng)或者使實(shí)用性問(wèn)題變得復(fù)雜。
◎ 有計(jì)劃和無(wú)計(jì)劃停機(jī)
停機(jī)可以是有計(jì)劃的或者是無(wú)計(jì)劃的。有計(jì)劃的停機(jī)是要進(jìn)行升級(jí),加入新功能或者進(jìn)行預(yù)防性維護(hù)而引起的。
無(wú)計(jì)劃停機(jī)是由于系統(tǒng)故障或者操作者錯(cuò)誤引起的,操作者錯(cuò)誤經(jīng)常是由于很糟糕的培訓(xùn),過(guò)于復(fù)雜化,不正確使用或者技術(shù)粗糙的員工引起的。
根據(jù)來(lái)自網(wǎng)絡(luò)可靠性指導(dǎo)委員會(huì)(NRSC)的研究,對(duì)于33%報(bào)告的業(yè)務(wù)中斷,程序出錯(cuò)是根本原因。程序中斷的頻率有上升的趨勢(shì),正如在右面圖中顯示的那樣。
產(chǎn)業(yè)分析顯示人為或者處理問(wèn)題引起了大概80%4的非計(jì)劃關(guān)機(jī),而剩下的是因?yàn)楫a(chǎn)品的問(wèn)題。

◎ 非計(jì)劃關(guān)機(jī)的人為因素
人是易犯錯(cuò)的,也經(jīng)常犯錯(cuò)。來(lái)自Gartner Group5的研究報(bào)告,同時(shí)也經(jīng)常被引用的數(shù)據(jù)是, 40%的非計(jì)劃關(guān)機(jī)應(yīng)歸咎于單獨(dú)的操作者錯(cuò)誤。這包括操作者、維護(hù)者和每一個(gè)在物理上和通信系統(tǒng)接觸的人。發(fā)生程序錯(cuò)誤的人往往是半技術(shù)人員,他們更熟悉硬件安裝和鋪設(shè)線路。擁有廣泛技術(shù)經(jīng)驗(yàn)的維護(hù)者往往遠(yuǎn)程解決更為復(fù)雜的任務(wù)。
業(yè)務(wù)提供商也精通于這些問(wèn)題,并通過(guò)這些考慮來(lái)設(shè)計(jì)他們的網(wǎng)絡(luò)。他們不喜歡解決復(fù)雜的線路問(wèn)題,他們喜歡能夠進(jìn)行遠(yuǎn)程診斷被控環(huán)境安全方面的問(wèn)題--保持盡可能多的對(duì)實(shí)際系統(tǒng)的操作。此外,綜合培訓(xùn),認(rèn)證和培訓(xùn)課程可以有助于提高技術(shù)知識(shí)和減少一般的人為錯(cuò)誤。
對(duì)人類操作的依靠可能增加系統(tǒng)的MTTR。人員不得不出現(xiàn)在現(xiàn)場(chǎng)(這并不是總能確保的),并且人類的反映時(shí)間也經(jīng)常慢于自動(dòng)恢復(fù)處理過(guò)程。此外,人經(jīng)常會(huì)犯錯(cuò),并可能降低系統(tǒng)中其它組件的MTTF或者阻止失敗組件的MTTR。盡管系統(tǒng)設(shè)計(jì)者十分努力來(lái)把人為因素從業(yè)務(wù)中盡可能地去除掉,但是,為了實(shí)現(xiàn)最小化MTTR的接口,他們必須首先決定是否成為默認(rèn)管理過(guò)程的一部分。
當(dāng)設(shè)計(jì)一個(gè)綜合可用策略時(shí)第五個(gè)建議是已經(jīng)充分考慮了人為因素。正如每一個(gè)NRSC建議的那樣,高實(shí)用性系統(tǒng)必須努力從業(yè)務(wù)過(guò)程中把人類因素去除掉。如果發(fā)生了一個(gè)錯(cuò)誤,系統(tǒng)必須能夠捕獲正確的診斷信息并在不等待人為介入時(shí)迅速把系統(tǒng)返回到業(yè)務(wù)中。這不僅防止了人的錯(cuò)誤,而且由于需要更少的人員和輪班,也減少了勞動(dòng)力成本。越多的任務(wù)需要越少的人,越便宜的勞動(dòng)力成本就可以維護(hù)系統(tǒng)。
當(dāng)系統(tǒng)正在運(yùn)行時(shí),確保您的系統(tǒng)可以使業(yè)務(wù)提供商測(cè)試更新的軟件版本是減少人為錯(cuò)誤可能性的另一個(gè)好方法。這種測(cè)試允許他們非常容易地更新到新軟件上。如果檢測(cè)到新軟件版本上出現(xiàn)問(wèn)題,系統(tǒng)可以被恢復(fù)成軟件熟知的穩(wěn)定版本。
◎ 管理非計(jì)劃關(guān)機(jī)
即使擁有最好的組件和最好的質(zhì)量控制程序,組件錯(cuò)誤也是不可避免的,并且默認(rèn)檢測(cè)和默認(rèn)維修都會(huì)影響MTTR。錯(cuò)誤被檢測(cè)的速率直接影響系統(tǒng)恢復(fù)所需要的時(shí)間。如果一個(gè)備份組件可用并能夠承擔(dān)至少一些失敗組件的功能,則可以保持業(yè)務(wù)實(shí)用性級(jí)別。如果失敗組件沒有備份或者負(fù)載分擔(dān)功能,那么可能發(fā)生業(yè)務(wù)中斷。
為了恰當(dāng)管理非計(jì)劃關(guān)機(jī),系統(tǒng)必須有一個(gè)故障管理計(jì)劃。故障管理是一個(gè)典型的五級(jí)過(guò)程,是一些決定了MTTR效率的原則。
檢測(cè)--故障被注冊(cè),但是故障組件不會(huì)被定位
診斷--決定哪一個(gè)組件已經(jīng)發(fā)生故障了
分離--確保一個(gè)故障不會(huì)引起系統(tǒng)失敗。(分離不必使得系統(tǒng)功能正常。)
恢復(fù)--把系統(tǒng)恢復(fù)到預(yù)期的行為
維修--恢復(fù)系統(tǒng)的所有功能,包括所有的冗余
故障通知必須能夠在這一過(guò)程的許多時(shí)刻都能夠進(jìn)行。通知事件例子包括系統(tǒng)拓?fù)涞母淖?-當(dāng)板卡被脫離出業(yè)務(wù)時(shí),放回至業(yè)務(wù)中,從系統(tǒng)中刪除或者插入到系統(tǒng)中。在上面五步的每一步之間必須有一個(gè)到下一步或者過(guò)程中各步的通知。在故障檢測(cè)時(shí),通知可能被發(fā)送到診斷和分離步驟,或者同時(shí)恢復(fù)軟件組件。
或許業(yè)務(wù)提供商最大的需求是對(duì)系統(tǒng)更好的可視性。他們要求可視性是為了決定系統(tǒng)是否正常,預(yù)測(cè)未來(lái)可能的失敗和實(shí)施故障檢測(cè)、診斷、分離和修復(fù)。當(dāng)系統(tǒng)中有組件發(fā)生改變而超過(guò)一個(gè)特定的門限值時(shí),業(yè)務(wù)提供商需要預(yù)先的指示,并也要求遠(yuǎn)程通知和報(bào)警功能。
故障管理的最后一部分是故障預(yù)測(cè)。故障預(yù)測(cè)是故障檢測(cè)的可選形式,故障檢測(cè)包括內(nèi)建診斷。根據(jù)可預(yù)測(cè)故障,系統(tǒng)操作者可以有機(jī)會(huì)率先實(shí)施在線修復(fù)而不是等待事故發(fā)生。
對(duì)于開發(fā)高實(shí)用性系統(tǒng)第六點(diǎn)需要考慮的因素是選擇其產(chǎn)品中含有足夠技術(shù)支持的組件供應(yīng)商,這樣可以獲得充足的信息來(lái)重建系統(tǒng)狀態(tài)并在短時(shí)間內(nèi)修復(fù)故障。
◎ 老化組件的影響
理解不同組件隨時(shí)間發(fā)生失效的統(tǒng)計(jì)率可能是在設(shè)計(jì)系統(tǒng)為最大實(shí)用性方面非常強(qiáng)大的工具。
通常,硬件遵循所謂"浴缸曲線"--故障率在系統(tǒng)投入使用的前幾個(gè)月降低,但是在一定時(shí)間后再一次增加。最初的降低是因?yàn)?quot;強(qiáng)化試驗(yàn)",較差的組件失效的相對(duì)較快,而被去除掉。較穩(wěn)定的組件在系統(tǒng)中保留下來(lái)。一段時(shí)間后,它們開始變差,最終失效。硬件行為在下面的圖中由點(diǎn)線表示。
另一方面,軟件在最初階段得到改善,也是由于"強(qiáng)化試驗(yàn)",但是隨著時(shí)間的推移不會(huì)顯示相同的衰減模型。理論上,軟件行為在圖中由破折線表示。但是實(shí)際上,軟件行為表現(xiàn)的更像是如實(shí)線那樣,在升級(jí)或者錯(cuò)誤修復(fù)時(shí)顯示峰值。最后,軟件將無(wú)限地穩(wěn)定和平滑下去。
應(yīng)該記住一個(gè)好的公理--當(dāng)配置的軟件硬化時(shí),配置的硬件軟化。

■ 高實(shí)用性配置
防止系統(tǒng)級(jí)故障的關(guān)鍵因素是冗余性。組件冗余的類型和數(shù)量決定了系統(tǒng)的故障特性。這篇文章將討論8種不同的高實(shí)用性結(jié)構(gòu),并指出它們的優(yōu)缺點(diǎn),確定它們的可用特性。必須注意8個(gè)框架的不同在于冗余性和系統(tǒng)如何從故障中恢復(fù)。
◎ 聚類
在聚類時(shí),整個(gè)計(jì)算機(jī)或者系統(tǒng)將被復(fù)制,這樣如果/當(dāng)一個(gè)聚類中的系統(tǒng)發(fā)生故障時(shí),系統(tǒng)的操作被移交到空閑系統(tǒng)。提供的空閑系統(tǒng)的數(shù)量可以從2N(每一個(gè)提供的系統(tǒng)都有一個(gè)空閑系統(tǒng))到N+1(對(duì)N個(gè)系統(tǒng)只有唯一一個(gè)空閑系統(tǒng))變化?臻e系統(tǒng)可以被配置成激活/備用模式,比如空閑備用系統(tǒng)將準(zhǔn)備運(yùn)行,但是當(dāng)前處于空閑狀態(tài)。較重要的地方可以配置激活/激活配置;所有系統(tǒng),包括備用系統(tǒng),將和相互的活動(dòng)同步,動(dòng)態(tài)負(fù)載分擔(dān)也變得可能。激活/激活配置將更難實(shí)現(xiàn),但是如果可以獲得負(fù)載分擔(dān),比如所有系統(tǒng)都在運(yùn)行時(shí),整個(gè)系統(tǒng)能力可以最大化并且硬件不會(huì)處于空閑來(lái)等待故障,其恰恰可以提供經(jīng)濟(jì)上的補(bǔ)償。
聚類的優(yōu)勢(shì)在于可以和任何基于PC的系統(tǒng)工作,適合尺寸輕巧的PCI,并使用標(biāo)準(zhǔn)網(wǎng)絡(luò)連接以保持系統(tǒng)可以相互通知,最重要的是,它適合地理上的多樣性。如果在自然災(zāi)害的情況下,比如洪水、大火或者地震,聚類可以繼續(xù)業(yè)務(wù)的實(shí)用性。聚類的缺點(diǎn)包括價(jià)格昂貴外設(shè)的復(fù)制和隨著時(shí)間的推移相對(duì)長(zhǎng)的故障時(shí)間(秒級(jí)別,而其它一些方法是毫秒級(jí))。故障后重新同步系統(tǒng)也是這一結(jié)構(gòu)的一個(gè)缺點(diǎn)--有時(shí)它們不得不從線路上拆下來(lái)以把聚類恢復(fù)成必要的冗余狀態(tài)。
◎ 硬件容錯(cuò)
硬件容錯(cuò)是CPU處理邏輯的復(fù)制,同時(shí)6執(zhí)行相同的指令設(shè)置。
比較在容錯(cuò)機(jī)制中從復(fù)制的CPU的輸出結(jié)果以決定結(jié)果中是否存在差別。假如從2個(gè)處理器產(chǎn)生兩個(gè)不同的結(jié)果,不可能迅速和有效地決定產(chǎn)生錯(cuò)誤的CPU,所以實(shí)行三模塊冗余技術(shù)(TMR)。TMR運(yùn)行3個(gè)處理器,考慮了更為有效的故障分離過(guò)程,假如一個(gè)CPU的輸出和其它兩個(gè)CPU的輸出不匹配,這個(gè)CPU被認(rèn)為產(chǎn)生了錯(cuò)誤,并被業(yè)務(wù)中去除,然后進(jìn)行在線修復(fù)。
這一機(jī)制的主要優(yōu)點(diǎn)是在應(yīng)用級(jí)別透明的情況下,防止了硬件故障。如果硬件故障在一套組件上被檢測(cè)出,那些組件可以被迅速并容易地去除掉,而不用要求在應(yīng)用級(jí)軟件中有任何特定失效轉(zhuǎn)移邏輯。業(yè)務(wù)的用戶不會(huì)注意到任何的業(yè)務(wù)降級(jí),甚至是瞬間的降級(jí)。但是這種配置不會(huì)防止軟件錯(cuò)誤和失效。錯(cuò)誤軟件指針可能使得整個(gè)復(fù)制系統(tǒng)崩潰。相似地,這些系統(tǒng)的PCI實(shí)現(xiàn)不能適應(yīng)互聯(lián)媒體處理外設(shè)卡的故障,這是因?yàn)镃T總線帶狀線路的局限性。除了容錯(cuò)機(jī)制外,要求這些外設(shè)卡的系統(tǒng)也需要實(shí)現(xiàn)聚類或者一個(gè)cPCI結(jié)構(gòu)。
◎ 外設(shè)熱插拔和冗余
外設(shè)熱插拔(PHS)允許在線維修、更新或者在cPCI機(jī)箱中增加外設(shè),而不需要關(guān)閉整個(gè)系統(tǒng)。外設(shè)可以是電話板卡、磁盤驅(qū)動(dòng)、風(fēng)扇、電源供應(yīng)、管理和報(bào)警模塊以及其它一些設(shè)備。外設(shè)熱插拔對(duì)于降低關(guān)機(jī)時(shí)間有重要的影響,這種關(guān)機(jī)無(wú)論是計(jì)劃中的還是計(jì)劃外的。
盡管外設(shè)熱插拔在降低維修時(shí)間上十分有效,但是其單獨(dú)不能防止操作中關(guān)機(jī)或者花費(fèi)在獲得空閑設(shè)備和分派技術(shù)人員進(jìn)行維修的時(shí)間。為了防止操作中關(guān)機(jī),提出了外設(shè)的冗余性。擁有外設(shè)冗余,如果一個(gè)外設(shè)發(fā)生故障,空閑外設(shè)可以接管故障外設(shè)的操作,而不需要操作者的介入。技術(shù)人員然后可以不用那么迅速被分派去恢復(fù)系統(tǒng)的冗余性。
不僅PHS可以在最小關(guān)機(jī)時(shí)間內(nèi)拆除失效組件,而且考慮了預(yù)防性維護(hù)。知道了系統(tǒng)低效運(yùn)行應(yīng)該發(fā)生了故障,外設(shè)冗余也可以使得業(yè)務(wù)提供商更好地增加系統(tǒng)能力。
◎ 冗余系統(tǒng)插槽
冗余系統(tǒng)插槽(RSS)系統(tǒng)在cPCI系統(tǒng)中提供了冗余的,可熱插拔的單板卡計(jì)算機(jī)(SBC)。通過(guò)在故障時(shí)消除SBC,這一系統(tǒng)擁有外設(shè)熱插拔cPCI系統(tǒng)的能力。
每一個(gè)SBC有一個(gè)分離的操作系統(tǒng)和應(yīng)用的實(shí)例。SBC可能處于激活/備份模式下,這樣激活的SBC控制機(jī)箱中的兩個(gè)cPCI總線部分。如果激活的SBC關(guān)機(jī),備份SBC接管故障SBC的處理任務(wù),并控制兩個(gè)cPCI總線部分。在激活/激活模式中,兩個(gè)SBC是激活的,并控制其自己的總線部分。但是,如果一個(gè)SBC關(guān)機(jī),另一個(gè)SBC將控制前一個(gè)SBC控制的總線部分,系統(tǒng)的操作將繼續(xù)。
RSS的主要好處是只在故障時(shí)拆除SBC,并在不需復(fù)制昂貴的外設(shè)和大量的應(yīng)用改變的條件下可以被實(shí)現(xiàn)。此外,為了滿足外設(shè)實(shí)用性,實(shí)現(xiàn)帶有RSS的外設(shè)冗余是可能的,其提供了一個(gè)高級(jí)別的系統(tǒng)實(shí)用性。負(fù)面效果是,依靠選擇在失效轉(zhuǎn)移中使用的重起模式,降低重起的時(shí)間是非常明顯的。而且,RSS標(biāo)準(zhǔn)(PICMG
2.13)還不曾修訂,許多cPCI平臺(tái)制造商有自己的所有版權(quán),在當(dāng)今的市場(chǎng)中也擁有不兼容的解決方案。
◎ 群集在一個(gè)箱中(也叫做"鎖定總線")
在群集于一個(gè)箱內(nèi)(CIB)的配置中,在一個(gè)cPCI機(jī)箱中有兩個(gè)或者更多的邏輯系統(tǒng)。每一個(gè)邏輯系統(tǒng)是一個(gè)完整的計(jì)算機(jī),其包含自己的獨(dú)立cPCI和H.110總線、自己的SBC、外設(shè)卡、操作系統(tǒng)和應(yīng)用。在一個(gè)方案中組合群集和外設(shè)熱插拔是相似的。類似于多機(jī)箱群集,如果SBC卡關(guān)機(jī),整個(gè)邏輯系統(tǒng)也將關(guān)機(jī)并且對(duì)于系統(tǒng)中的I/O卡由另一個(gè)節(jié)點(diǎn)的SBC卡管理也是不可能的。在一個(gè)機(jī)箱中的系統(tǒng)是相互獨(dú)立的,只是共享同一個(gè)卡的框架、電源供應(yīng)系統(tǒng)和制冷系統(tǒng)。
群集在一個(gè)箱中的主要優(yōu)勢(shì)是尺寸靈巧的cPCI,其允許外設(shè)在失效時(shí)被熱插拔。至于RSS和PHS,它們只擁有更少的共享資源,所以單一地方故障可被最小化。由于排列的原因,失效轉(zhuǎn)移的次數(shù)可能好于多機(jī)箱群集系統(tǒng)的失效轉(zhuǎn)移次數(shù);但是,排列消除了地理位置多樣性的優(yōu)勢(shì)。
◎ 整合外設(shè)(也叫做"一個(gè)插槽中的計(jì)算機(jī)")
當(dāng)前,整合外設(shè)是尺寸精巧的cPCI卡,包括嵌入式的主處理器,典型的就是在一個(gè)外設(shè)卡上作為一個(gè)子板。嵌入式主處理器子卡應(yīng)用于這樣的操作環(huán)境中,包含操作系統(tǒng)、電話驅(qū)動(dòng)器、庫(kù)、API和電話應(yīng)用--功能類似于在其它配置中由SBC實(shí)施的功能。
整合外設(shè)的好處是它是在一個(gè)插槽中完整的(主機(jī)+外設(shè))備份計(jì)算機(jī)。每一個(gè)外設(shè)和主處理器是獨(dú)立于其它外設(shè)的,這些外設(shè)存在于同一個(gè)機(jī)箱中。當(dāng)發(fā)生故障時(shí),其被分離成單外設(shè)卡,只有那個(gè)外設(shè)和其主機(jī)需要被恢復(fù)或者拆除。重起的外設(shè)對(duì)機(jī)箱中其它外設(shè)沒有任何影響。負(fù)面效果是,由于沒有PCI或者TDM總線可以資源共享,卡上的資源限制了應(yīng)用的能力。換句話說(shuō),每一個(gè)整合的外設(shè)卡只能實(shí)現(xiàn)卡上擁有的資源的功能。要求多卡的方案(比如一個(gè)是為傳真,一個(gè)為會(huì)議等)使用這種結(jié)構(gòu)不能很容易地實(shí)現(xiàn)功能。而且,每一個(gè)卡需要操作系統(tǒng)的一個(gè)備份,這可能是十分昂貴的,并且盡管被局限在一個(gè)卡上,軟件的弱點(diǎn)依然存在。
◎ 包交換背板
數(shù)據(jù)包背板配置把一個(gè)冗余的高速數(shù)據(jù)包總線引入到系統(tǒng)的背板中,以適應(yīng)高帶寬流量比如控制、媒體或者數(shù)據(jù)。這樣一個(gè)背板可以代替并/或者實(shí)現(xiàn)cPCI總線或者TDM總線,以改善吞吐量和實(shí)用性。
包交換背板(PSB),正如定義在PICMG2.16中那樣,把一個(gè)基于包的以太網(wǎng)結(jié)構(gòu)放置在cPCI背板上。規(guī)劃為4線單冗余或者8線雙冗余星型拓?fù)浣Y(jié)構(gòu),數(shù)據(jù)通過(guò)路由IP包到目的地來(lái)傳送數(shù)據(jù),使得從每一個(gè)插槽到兩個(gè)冗余以太網(wǎng)交換板卡的每一個(gè)的連接成為可能。系統(tǒng)處理器、PCI和TDM總線作為系統(tǒng)中單點(diǎn)故障而被拆除。數(shù)據(jù)包背板配置的其它變量也被建議,包括StarFabric、InfiniBand*和其它。
但是,多個(gè)松散配對(duì)的CPU可能很難做為一個(gè)單一系統(tǒng)來(lái)管理,所以需要額外的軟件來(lái)在雙以太網(wǎng)情況下失效轉(zhuǎn)移。支持這一結(jié)構(gòu)的產(chǎn)品現(xiàn)在正開始投入市場(chǎng),所以使用這種方法建立復(fù)雜方案時(shí),完整的系統(tǒng)可能并不常見。
◎ 網(wǎng)絡(luò)路由
網(wǎng)絡(luò)路由是一種有效的高實(shí)用性配置方法,因?yàn)楹艚锌赡鼙宦酚傻酵耆煌脑O(shè)備上,使得以非?煽康姆绞浇档蜆I(yè)務(wù)中斷。此外,根據(jù)網(wǎng)絡(luò)中不同層(包括物理層、系統(tǒng)層、邏輯層和業(yè)務(wù)層)業(yè)務(wù)中斷的生存能力,網(wǎng)絡(luò)被分成了水平的各個(gè)層次(類似于OSI模型)。
但是,使用在這些層的技術(shù)是不同的。一些用來(lái)避免網(wǎng)絡(luò)中斷的技術(shù)包括:保存能力、系統(tǒng)多樣性、地理位置多樣性、尺寸限制、動(dòng)態(tài)路由、恢復(fù)路由,自愈保護(hù)路由和其它的技術(shù)。
網(wǎng)絡(luò)路由結(jié)構(gòu)在今天通過(guò)SS7上面的智能網(wǎng)(IN)已經(jīng)廣泛地配置。當(dāng)其努力獲得越來(lái)越高的與公共交換電話網(wǎng)絡(luò)(PSTN)相當(dāng)?shù)恼w實(shí)用性時(shí),也擁有Internt擴(kuò)建的動(dòng)力。這一結(jié)構(gòu)很有前途,也是下一代網(wǎng)絡(luò)中繼續(xù)研究的一個(gè)領(lǐng)域。
■ 實(shí)用性法則
基于獨(dú)立的研究,通常被接受的實(shí)用性原理,市場(chǎng)規(guī)則和經(jīng)驗(yàn),這篇文章建議下面的實(shí)用性法則。
- 高實(shí)用性的關(guān)鍵是冗余性
- 增加組件的冗余將增加整體系統(tǒng)的實(shí)用性
- 在N+M組件冗余中,隨著M的增加,實(shí)用性的增加反而降低(比如N+1經(jīng)常是最有效的)
- 系統(tǒng)的實(shí)用性直接與其組件的實(shí)用性相關(guān)
- 降低MTTR也可以增加實(shí)用性;例子包括最小化啟動(dòng)時(shí)間,改善診斷和實(shí)現(xiàn)快速升級(jí)
- 整體上說(shuō),從解決操作中關(guān)機(jī)時(shí)間來(lái)看,CompactPCI(cPCI)比PCI更有效。
- 任何時(shí)間點(diǎn),用戶都可以縮短關(guān)機(jī)時(shí)間,通常指的是"買回時(shí)間"
- 隨著時(shí)間的推移,軟件硬化,硬件軟化
- 隨著實(shí)用性增加,系統(tǒng)成本增加的更快
- 一旦達(dá)到了某種尺寸大小的機(jī)箱,密度對(duì)實(shí)用性/成本的比率幾乎沒有什么影響。隨著信道的增加,大部分配置可以線性測(cè)量
■ 結(jié)論
上面討論的在配置方面的強(qiáng)調(diào)重點(diǎn)已經(jīng)轉(zhuǎn)移到了系統(tǒng)的可用特性上。但是,公共網(wǎng)絡(luò)由幾個(gè)這樣的系統(tǒng)整合而成。而且,除了系統(tǒng)的可用特性,幾個(gè)其它因素也可以決定整體系統(tǒng)的可用特性。自然災(zāi)害、恐怖活動(dòng)以及人類錯(cuò)誤的影響,比如偶然的光纜疊接、網(wǎng)絡(luò)擁塞等必須被了解和考慮。
網(wǎng)絡(luò)設(shè)計(jì)在網(wǎng)絡(luò)實(shí)用性方面有很重要的作用。檢測(cè)故障和產(chǎn)生告警的技術(shù)在抑制中斷持續(xù)時(shí)間方面是關(guān)鍵的第一步。除了檢測(cè)過(guò)程,診斷、分離、恢復(fù)和修復(fù)過(guò)程在下面的步驟中也是十分重要的。作為恢復(fù)策略的一部分,設(shè)計(jì)網(wǎng)絡(luò)時(shí)可以附加額外的容量。如果這些額外容量,在修復(fù)進(jìn)行時(shí),能夠持續(xù)實(shí)現(xiàn)一個(gè)用戶的需求,那么就不會(huì)認(rèn)為是一次斷電。
究竟哪一個(gè)高實(shí)用性配置對(duì)于具體業(yè)務(wù)提供商來(lái)說(shuō)是恰當(dāng)?shù),是一個(gè)難題,其要求對(duì)特定商業(yè)模型和IT框架額外的分析。這篇文章被設(shè)計(jì)來(lái)確定、比較和對(duì)比可實(shí)現(xiàn)的8個(gè)高實(shí)用性配置以期讀者可以更好地了解這些,并決定選擇哪一個(gè)配置。
需要額外的信息或者幫助來(lái)決定什么配置是最恰當(dāng)?shù)模驮鯓咏⒕唧w的高實(shí)用性網(wǎng)絡(luò),請(qǐng)和Dialogic?技術(shù)銷售代表聯(lián)系,電話1-800-755-4444,并向操作者詢問(wèn)購(gòu)買。
|