Důležité je se z "chyby" poučit. Což jste udělali. Zato Vám jeden palec nahoru. Druhý palec nahoru máte za bleskové řešení problému. Jsem docela zvedav co se se serverem stalo :-/ Doufám že nepolevíte a takovéto úsilí budete vynakládat i nadále :-) Jsem rád že používám právě fakturyonline.eu
Aby se to neopakovalo
Po včerejší obnově už se nám snad podařilo vyřešit všechny problémy související s obnovou a je na čase se z výpadku poučit.
Zálohovací mechanismus neselhal, co se týká rychlosti obnovy fungoval na výbornou. Koupit a nainstalovat vše potřebné na nový server se nám podařilo za méně než dvě hodiny a bylo úspěšně obnoveno 99,6% uložených faktur. Objevily se drobné komplikace, ale ty se dotkly jen zlomku uživatelů a byly do večera kompletně vyřešeny. Předcházející prodleva byla způsobena snahou spusit původní server, protože jsme si byli vědomi, že ztráta i těch zdánlivě zanedbatelých 0,4% faktur není rozhodně nic příjemného. Nicméně jsme se rozhodli správně, protože stále není jasné, co se s původním serverem stalo a v jakém stavu jsou data na něm.
Co selhalo byl návrh zálohovacího mechanismu společně s velkou dávkou smůly. Byl navrhován v době, kdy se za den vytvořilo tolik faktur, jako dnes během několika minut. Pracoval zcela bezproblémů a společně s absolutní spolehlivostí serveru nás ukolébal v domnění, že je stále dostatečný. Bohužel v situaci, kdy server selhal takovým způsobem, že všechna vnitřní zabezpečení byla k ničemu, došlo na externí zálohy. Ty byly naštěstí v pořádku, ale kvůli jejich velké náročnosti mohly být prováděny jen v době minimální zátěže serveru, tj. kolem 4. hodiny ranní. Tzn. další by byla provedena těsně poté, co k výpadku došlo. Tím se bohužel projevila jeho největší slabost v maximální možné míře.
Jak jsme se poučili?
Dosavadní mechanismus zůstane zachován, ale budou k němu doplněny inkrementální zálohy, které se budou provádět nepřetržitě s cca 5 minutovými prodlevami. Nový server je rychlejší a využívá RAID 10 diskového pole, takže by nemělo dojít k výraznému poklesu odezvy. Tím pádem by i při totožném selhání mělo dojít ke ztrátě maximálně posledních 10 minut dat. Zavést nový zálohovací mechanismus není otázka jednoho dne, je potřeba důkladně otestovat, zda je opravdu funkční a bude možno se na něj při výpadku spolehnout. Už je částečně v provozu, do dnešního večera bude kompletně, ale ještě několik následujících dnů a týdnů bude testován a laděn.
Názory
Myslím, že každý, kdo administruje svůj vlasntí server, toto někdy zažil, nebo dříve či později zažije, takže držme palce, ať se již takový "pech" nekoná :o)
Váš názor
Pouze přihlášení uživatelé mohou přidávat své názory.