3. Які інші розподіли застосовуються в теорії надійності?

1.3. Методи забезпечення надійності

З точки зору забезпечення надійності будь-якого обладнання (не обов’язково електронного) принциповою є можливість (чи неможливість) відновлення працездатності об’єкту в разі його відмови. Тому в теорії надійності всі об’єкти поділяють на два великих класи: відновлювані об’єкти (восстанавливаемые, ремонтируемые – рос.) і невідновлювані (невосстанавливаемые, неремонтируемые – рос.). Чому ця ознака є принциповою? Виходячи з того, що уникнути відмов компонентів при тривалій експлуатації неможливо, підхід до забезпечення надійності відновлюваних і невідновлюваних об’єктів зовсім різний. Для перших очевидний шлях полягає в організації ефективного ремонту обладнання з мінімальними затратами часу, для інших – у нейтралізації несправностей окремих компонентів у разі їх виникнення.

Для відновлюваних об’єктів за існуючими стандартами основним показником надійності прийнято вважати коефіцієнт готовності – це коефіцієнт, що визначає частину корисного часу , протягом якого об’єкт нормально працює, по відношенню до загального часу експлуатації, тобто

(1.10)

де – час, який витрачено на відновлення працездатності. Цей час містить, в свою чергу, принаймні дві складові: - час, що витрачається на пошук несправності; - час власне відновлення (ремонту). Характерною особливістю сучасного електронного обладнання є його модульна побудова, тому відновлення найчастіше може бути здійснено простою заміною несправного модуля (блоку) справним. Ця процедура не вимагає великих затрат часу. Пошук же несправності здебільшого є трудомісткою процедурою, яка може тривати досить довго. Тому на коефіцієнт готовності у найбільшій мірі впливає саме цей час, як головний чинник втрат часу при відновленні працездатності. І тому основними методами забезпечення надійності відновлюваної електронної апаратури слід вважати:

- –створення максимально сприятливих умов для прискорення ремонту – конструкція приладу повинна бути ремонтопридатною. Це означає, що має бути забезпечено зручний доступ для заміни несправних компонентів, з’єднання між типовими елементами заміни (ТЕЗ) бажано передбачити на основі роз’ємів і т. і.;

- –застосування методів автоматизації пошуку несправностей на основі апаратного і (або) програмного самоконтролю функціювання апаратури, тестового діагностування та використання спеціальних автоматизованих систем контролю та діагностики.

Тепер про невідновлювані об’єкти. Передусім з'ясуємо, чому такі об’єкти не підлягають відновленню (ремонту). Це може бути зумовлено конструктивними особливостями або умовами експлуатації. Навряд чи прийде кому в голову ремонтувати інтегральну мікросхему або кінескопи – це приклади невідновлюваних об’єктів за конструктивною ознакою. Об’єкти, що працюють у важко доступних середовищах (бортова і космічна апаратура, морські буї, глибоководне та підземне обладнання, тощо), у більшості випадків не можуть бути відремонтовані і відновлені при розумних затратах на проведення таких операцій. Для них стратегія забезпечення надійності зовсім інша.

Із попереднього розгляду та й із самої природи надійності, зрозуміло., що запобігти виникненню несправностей принципово неможливо. Тому ситуацію, коли деякі компоненти об’єкту втрачають працездатність, потрібно сприймати як очікувану і нормальну. До того ж необхідно враховувати досить сильну залежність надійності від складності об’єкту. Так, якщо ймовірність безвідмовної роботи одного компонента позначити через , то відповідна ймовірність для системи, яка складається із таких компонентів, буде

за умови, що кожен компонент необхідний для забезпечення працездатності системи, тобто для її функціювання повинні бути працездатні всі компонентів.

Припустимо (для прикладу), що =0,99. Тоді можна обчислити зменшення при зростанні кількості компонентів (табл. 1.1).

Таблиця 1.1

1 10 20 30 40 50 60 70
0,99 0,9 0,81 0,73 0,65 0,58 0,52 0,47
80 90 100 200 300 400 500...  
0,43 0,38 0,34 0,12 0,04 0,0136 0,0046...  

Як бачимо, вже при =70 наша система стає практично непрацездатною (навряд чи кому потрібен прилад, який має ймовірність безвідмовної роботи меншу, ніж 0,5). Виникає питання, чому ми отримали такі невтішні цифри? Щоб пояснити це, уявімо собі для аналогії фабрику, чи завод, на якому працює, наприклад, 100 робітників, і робота організована так, що в будь-який день кожен із 100 робітників конче необхідний для нормальної роботи закладу. Важко уявити собі, що ніхто із робітників ніколи не хворіє, не запізнюється. Ясно, що такий заклад майже ніколи не зміг би нормально функціювати. Але ж сотні фабрик і заводів навіть із значно більшою кількістю робітників працюють, не дивлячись на те, що частина персоналу щодня не виходить на роботу. Справа в тому, що при розумній організації виробничого процесу завжди повинні бути передбачені надлишкові (“зайві”) працівники, з тим, що навіть неповний склад робітників зміг би нормально виконати заплановану роботу. Коли хтось захворіє, інший робітник повинен виконати його функцію. Саме в цьому полягає центральна ідея побудови електронних систем із компонентами з обмеженою надійністю.

Такий підхід отримав назву методу структурної надлишковості (избыточности – рос.) і полягає у введенні у структуру системи деякої кількості надлишкових компонентів, які грають роль запасу (або резерву) на випадок відмови основного обладнання. Тут можна провести ще одну аналогію, на цей раз із механічними конструкціями, в яких роль надлишковості грає запас міцності. Така аналогія є досить глибокою, оскільки і в тому, і в другому випадку мова йде по суті про надійність.

Надлишковість може бути і часовою, коли за рахунок великої швидкості виконання тих, чи інших операцій їх можна виконати двічі або тричі і порівняти результат з тим, щоб переконатися в його правильності.

Але ж і інформація, яка є вихідною для обчислень або утворення керуючих впливів у системах управління, може містити помилки. Для того, щоб нейтралізувати їх дію, використовують третій вид надлишковості – інформаційну надлишковість. У цьому випадку застосовуються спеціальні методи кодування, які дозволяють виявляти і (або) виправляти помилки. У подальшому ми детально розглянемо застосування таких кодів та інформаційної надлишковості загалом.

Як вже зазначалось, у класичній теорії надійності всі технічні об’єкти традиційно поділяються на два класи: відновлювані і невідновлювані. Однак, строго кажучи, електронні пристрої та комп’ютерні системи, які використовуються для управління реальними об’єктами (а саме в цих застосуваннях виникає проблема надійності), не можуть бути віднесені однозначно до жодного із зазначених класів. Справа в тому, що такі системи здебільшого є відновлюваними, але, з іншого боку – максимальний час їх відновлення обмежений технологічними вимогами з боку об’єкту управління. Якщо, наприклад, таким об’єктом є літак, то, по-перше, весь період відновлення система управління польотом повинна безумовно залишатися працездатною і, по-друге, час відновлення має бути максимально коротким з точки зору безпеки у разі виникнення несправностей інших компонентів системи управління польотом. З цього витікає, що арсенал методів, які використовуються для забезпечення надійності, повинен включати у свій склад як методи, застосовувані для невідновлюваних систем (структурну надлишковість), так і методи, що прискорюють пошук несправностей.

Загальна ідея структурної надлишковості винятково проста і була відома задовго до появи не тільки комп’ютерів, а й навіть самої електроніки. Д. Ладнер у статтях про обчислювальну машину Бебіджа ще у 1834 р. (!) писав: “Найбільш конкретний і ефективний спосіб контролю помилок, що виникають у процесі обчислень, полягає в тому, щоб забезпечити виконання тих самих розрахунків на різних, не зв’язаних один з одним, обчислювачах; цей контроль виявляється ще більш ефективним, якщо обчислення виконуються різними способами”.

Звісно, у ті далекі часи автор не передбачав автоматичного виконання запропонованого алгоритму контролю, і реалізація його певною мірою стала можливою лише в останні десятиліття.

Початок строгим науковим дослідженням у цій області було покладено Дж. фон Нейманом у його класичній праці “Синтез надійних організмів із ненадійних компонентів”, де вперше була доведена принципова можливість побудови як завгодно надійних пристроїв із компонентів з обмеженою надійністю шляхом цілеспрямованого введення структурної надлишковості. Однак тривалий час застосування мажоритарного методу, запропонованого Дж. фон Нейманом, було обмежене через необхідність мінімум 3-кратного збільшення апаратних витрат (ваги, габаритів, вартості). З розвитком технології та, у першу чергу, мікроелектроніки це обмеження поступово перестало бути суттєвим, і на сьогодні методи, що базуються на структурній надлищковості, стають ледве не стандартним засобом забезпечення надійності цифрорвих пристроїв та комп’ютерних систем промислового і спеціального призначення.

Так, у системі автоматичного керування польотом (автопілотом) літака Boueng 737/300 стандартний блок складається з двох каналів обчислень, реалізованих трьома різними центральними процесорами. Один з них забезпечує всю систему програмного керування польотом, а інші два – тільки критичні функції. Цей стандартний блок резервований, нейтралізація помилок виконується за допомогою моніторів, що порівнюють сигнали, а в кожному стандартному блоці – два таких монітори.

Метою введення структурної надлищковості є збереження можливості системою виконувати задані функції при наявності помилок через несправності самої системи. Помилки при цьому виявляються і усуваються, а постійні несправності ліквідуються у процесі технічного обслуговування апаратури. Це досягається завдяки застосуванню спеціальних алгоритмів виявлення помилок, методів технічної діагностики, алгоритмів відновлення працездатності за рахунок резервних ресурсів. Усі перераховані складові є невід’ємними частинами стійкої до відмов системи і можуть бути реалізовані апаратним, програмним чи змішаним апаратно-програмним способом.

Принциповою особливістю таких систем є багаторазові обчислення. Вони реалізуються шляхом -кратного повторення обчислювального процесу в трьох розрізах: часовому (повторний рахунок), просторовому (на інших апаратних засобах) та інформаційному (з використанням інших програм і даних). У випадку багатоканальної архітектури обчислення проводяться рівноцінним виконанням екземплярів однієї і тієї ж програми в апаратних каналах. Прикладом може служити система керування космічним кораблем багаторазового використання “Шатл” НАСА, де =4, або система DEDIX Каліфорнійського університету з числом каналів від 2 до 20. Перелік аналогічних прикладів можна продовжувати досить довго.

Для захисту інформації від помилок при її збереженні в корпоративних та банківських мережах сьогодні досить широко застосовуються інтелектуальні системи з архітектурою RAID (redundant array of inexpensive disks – матриця недорогих дисків із надлишковістю), що не тільки зберігають дані, але і захищають їх від збоїв та надають важливу інформацію про технічний стан твердих дисків.

RAID-система складається з керуючої програми або контролера і групи твердих дисків, що працюють спільно для забезпечення більш високої, у порівнянні з окремим диском, продуктивності, а також стійкості до збоїв. Відмовостійкість може досягатися завдяки простому “дзеркальному” дублюванню інформації на двох окремих дисках, як це передбачено стандартом RAID рівня 1. Відмовостійкість може забезпечуватись також збереженням інформації за рахунок корекції помилок за допомогою завадостійких кодів (специфікації RAID рівня 3 і 5), що дозволяє навіть відновити втрачені дані у випадку відмови одного з дисків.

Завершуючи цей розділ, не можна не згадати про біологічні системи, в яких природа широко і щедро використовує структурну надлишковість. Мова йде не тільки про дублювання органів (очі, вуха, легені, нирки), а, головним чином, про надлишковість на рівні окремих клітин і нейронів головного мозку. За даними нейрофізіології ця надлишковість має дуже високий рівень – є підстави вважати, що в головному мозку людини кількість нейронів в тисячі раз більша, ніж це мінімально необхідно. Чи замислювались ви коли-небудь над таким фактом? Людина функціонує в середньому 60...70 років, не дивлячись на те, що труїть себе тютюном, алкоголем, не завжди слухає лікарів, тощо. В той же час комп’ютер або телевізор, які на багато порядків простіші, ніж мозок людини, навряд чи можуть безперервно функціювати кілька років. За рахунок саме надлишковості відмирання частини нейронів не впливає суттєво на роботу мозку (їх так багато, що вистачає на все життя). До того ж на клітинному рівні відбуваються процеси самовідновлення. Все це дозволяє забезпечити дуже високий рівень надійності у порівнянні з технічними об’єктами.Відомий вражаючий історичний приклад, який свідчить про високий рівень надійності людини. У 1848 році американському залізничнику Ф. Гейджу в результаті аварії було пробито металевою палицею голову наскрізь. Через деякий досить короткий час Ф. Гейдж одужав і продовжував виконувати роботу залізничника. Будь-яких помітних змін у поведінці і психіці Ф. Гейджа не сталося. Металева палиця зараз експонується у Гарвардському університеті як символ виключно високої надійності людського мозку.

Перейдемо тепер до більш детального розгляду методів і засобів забезпечення надійності.

Контрольні питання

1. На які два класи можна поділити всі технічні об’єкти з точки зору надійності?