carlosmorenoh

blog de articulos tecnicos de informatica Technical IT blog

31 October 2005

Plan de contingencias informatico, breve resumen

Introducción

Como es obvio ya para todos, la informática cumple un papel transversal en todas las organizaciones humanas, luego una contingencia en informática puede comprometer a toda una organización y convertirse en un desastre si no existen planes para afrontarlas.

Todos los planes de contingencia informática apuntan a las actividades a desarrollar para evitar o minimizar el impacto de una contingencia y a recuperar el mayor porcentaje posible de nuestra plataforma informática dañada por alguna razón.

Esto es muy importante ya que una contingencia mal enfrentada puede conducir a perdidas monetarias importantes e incluso al cierre de la empresa.

Estadisticas de EEUU nos muestran que el 75% de las compañías han experimentado alguna vez una interrupción de operaciones informáticas debido a una contingencia, como sigue:

72% por fallas eléctricas
52% por problemas de Hardware
46% por fallas de telecomunicaciones
43% por fallas de software

Lo tragico de todo esto, es que un 43% de dichas compañías nunca reabrieron sus operaciones, el 29% cerraron en los siguientes tres años y un 93% de las compañías que sufrieron una pérdida de datos significativa cerraron operaciones en los siguientes cinco años.


Definición de Actividades de Contingencia

El ABC de una contingencia se reduce a tres puntos fundamentales, siendo estos, en orden de importancia:

1.Que la contingencia no ocurra o que su probabilidad de ocurrir sea la mas baja posible => Actividades preventivas.
2.Si la contingencia llega a ocurrir su impacto sea el menor posible => Actividades de mitigación.
3.En caso de contingencia la recuperación sea en el mínimo tiempo y al mínimo costo => Actividades de recuperación.


Actividades Preventivas

Las actividades preventivas apuntan siempre hacia que la contingencia no ocurra o sea muy remota su ocurrencia, estas son las actividades más importantes dentro de un plan de contingencias y son además las más fáciles de implementar y de muy bajo costo.


Ejemplo típico 1

Un ejemplo de actividad preventiva típica es la relacionada con la energía eléctrica, la cual puede causar daños desde mínimos a severos en caso de un corte de energía local o sectorial o global e incluso en caso de una variación del voltaje de la red publica o interna de energía.

Las soluciones preventivas más comunes son:

1.Contar con equipos de UPS con estabilizadores de voltaje, que funcionan en base a baterías, los cuales aseguran la continuidad de la operación de los equipos computacionales por un lapso de tiempo suficiente como para poder minimizar los riesgos ante un corte energía. Tiempo suficiente como para bajar software que este corriendo en un computador determinado y para bajar el sistema operativo sin daños.
2.Contar con generadores propios de energía eléctrica que complementariamente a las UPS puedan asegurar la continuidad del funcionamiento de los equipos computacionales en caso de un corte de energía.
3.Contar con más de un proveedor de energía eléctrica o estar conectado a más de una red eléctrica pública.

Ejemplo típico 2

El borrado accidental o a propósito de archivos de datos o programas de explotación es un problema que todas las instalaciones informáticas han tenido más de una vez, y es siempre costoso el recuperar datos de respaldos o re ingresar aquellas transacciones o datos que no se alcanzaron a respaldar.

Las soluciones preventivas más comunes son las siguientes:

1.Separación lógica y física, si es posible, de los datos y programas de explotación de aquellos datos y programas usados en desarrollo y mantención de sistemas.
2.Sistema de protección de los datos y programas de explotación de manera que nadie pueda dañarlos, los sistemas operativos profesionales más comunes tienen formas de proteger directorios de datos y programas de manera tal que su borrado accidental o a propósito sea casi imposible.


Actividades de mitigación

Las actividades de mitigación apuntan siempre hacia que la contingencia una vez ocurrida, produzca el menor daño posible en las actividades informáticas de la empresa o que le daño producido por la ocurrencia de la contingencia tenga un impacto mínimo. Como las actividades de prevención, estas actividades son de suma importancia pero de mayor costo que las ya nombradas.


Ejemplo típico 1

La actividad más representativa de las actividades de mitigación es la actividad de respaldos de archivos y programas de explotación y también de desarrollo y mantención de sistemas.

Estos respaldos contribuyen a que el impacto de la contingencia, en este caso una perdida de archivos (de datos o programas), sea mínima y su costo se reduzca a la subida de los archivos de respaldo que permitan recuperar la contingencia.

Ahora la organización de bajada de respaldos y la posterior subida de ellos debido a una contingencia es un tema no trivial y depende de muchas variables atingentes a cada instalación computacional, sistema involucrado e incluso a archivos involucrados.

Como se puede ya haber deducido, la actividad de subir un respaldo para superar una contingencia es en si misma una actividad de recuperación.

Los respaldos no solo se remiten a archivos y datos. De acuerdo a la importancia y criticidad de la plataforma informática, hay caos en que el respaldo de la plataforma completa con hardware, software, periféricos y demás instalaciones es una opción no descartable.

Ejemplo típico 2

Otra actividad de mitigación también típica es la que apunta a sofocar un incendio en las dependencias de la plataforma informática.

Para esto se utilizan sistemas de sofocación de incendios que minimizan el daño a los equipos, frecuentemente se usan extinguidores automáticos o manuales de gas halón, que extingue un fuego sin dañar los equipos electrónicos.

Actividades de recuperación

Estas actividades de un plan de contingencia, son las más arduas y costosas de realizar ya que involucran la recuperación de un sistema dañado por alguna causa y los sistemas actuales son inter dependientes entre sí y su interacción es a veces muy compleja.

Las actividades de recuperación apuntan a recuperar, con la mejor relación tiempo/costo, la funcionalidad de una instalación informática, de un sistema informático e incluso de un archivo, dañados por algún tipo de contingencia.

Estas actividades deben siempre, aparte de ser bien diseñadas, ser probadas constantemente para verificar que la actividad funcione.


Ejemplo típico 1

Como ya lo mencionamos, una actividad típica de recuperación es la subida de un respaldo de archivos debido al daño de estos debido a una contingencia.

Frecuentemente se desea tener la última versión del archivo dañado que permita recuperar en un 100% el archivo, dependiendo de las políticas de respaldos, esto no siempre es posible. Luego en sistemas críticos, se recurre al denominado respaldo en línea o espejamiento (actividad de mitigación), en el cual los archivos están siempre duplicados y en su última versión, de esta manera la actividad de recuperación puede restaurar los archivos en un 100%, a mayor costo por supuesto.

Ejemplo típico 2

Otro ejemplo típico es la recuperación de una falla de hardware, por ejemplo la falla de una CPU que no permite él seguir procesando en dicho equipo.

Dependiendo, como siempre, de las condiciones del sistema, la actividad de recuperación puede ser:

1.Reemplazar la CPU defectuosa por una nueva y hacer funcionar el equipo nuevamente.
2.Tener un equipo con CPU´s redundantes para que ante una falla de la CPU, otras toman su trabajo y la fallada pueda ser cambiada en caliente.
3.Tener equipos de respaldo que tomen la labor del fallado.


Criterios de Tiempo-Costo

Estos son los criterios más difíciles de establecer ya que dependerá de la importancia relativa del sistema con respecto al accionar de la empresa y del tiempo crítico del mismo.

Tiempo crítico se denomina al ciclo de operación del sistema involucrado en un plan de contingencia, así por ejemplo en el caso del sistema de cuentas corrientes de un banco, su ciclo de operación máximo es de horas, esto debido a que las cuentas corrientes deben estar actualizadas cada mañana, su tiempo crítico entonces son horas. En el caso de un sistema de contabilidad, que lleva contabilidad mensual, su tiempo crítico es un mes o un tiempo cercano a eso.

Luego el tiempo que utilizaremos para poder evaluar los criterios de tiempo/costo, serán los tiempos críticos.

En el tema de los costos, estan por un lado los costos de mantener el sistema funcionando (costos conocidos) , y por otro lado los costos generados por el no funcionamiento del sistema (que podrian ser impagables) que son los que tenemos que considerar.

Para esto debemos poder discretizar los costos de no funcionamiento del sistema para poder determinar nuestra variable de tiempo-costo.

Lo complejo se genera en la conformación de los sistemas de información, gestión y operacionales que corren en una plataforma computacional de cualquier empresa. Los sistemas van desde sistemas de ciclo de operación de horas, hasta sistemas de información con ciclos de operación del orden del mes, combinado con costos altos y bajos del no funcionamiento de los sistemas.

La forma de afrontar esta complejidad se hace mediante una matriz de costo tiempo, donde podemos al menos tener un orden de los sistemas en los cuales tenemos que dar mayor importancia a la contingencia y donde tenemos que invertir mas dinero para asegurar su funcionamiento.

0 Comments:

Post a Comment

<< Home