SAPOTI: Servidor de APlicações cOnfiáveis Tcp/Ip

Egon Hilgenstieler, Emerson F. F. Carara, Roverli P. Ziwich, Luis C. E. Bona, Elias P. Duarte Jr.
XXI Simpósio Brasileiro de Redes de Computadores (SBRC'2003), Salão de Ferramentas,
Vol. II, pp. 933-940, Natal, RN, Brazil, May, 2003.  [pdf]



Resumo

Este trabalho apresenta o SAPOTI (Servidores de APlicações cOnfiáveis Tcp/Ip), uma ferramenta distribuída que garante a alta disponibilidade de servidores de aplicações TCP/IP aplicada em particular para a implementação de um servidor Web tolerante a falhas. A ferramenta é baseada no protocolo SNMP e é executada em um conjunto de máquinas que são monitoradas por uma ferramenta de gerência confiável e distribuída baseada no algoritmo de diagnóstico hierárquico Hi-ADSD with Timestamps. Através da identificação de falhas em um servidor Web, o serviço é recuperado na máquina sem-falha de maior prioridade da rede, ficando disponível mesmo quando apenas uma máquina está sem-falha. Experimentos são descritos nos quais em configurações de rede com máquinas onde ocorreram até 210 falhas distribuídas entre as máquinas, a disponibilidade foi de no nínimo 97,3%. Em outra configuração de rede, onde ocorreram 27 falhas, a disponibilidade foi de 99,5% no tempo do experimento.


Abstract

This work presents the SAPOTI (Servidores de APlicações cOnfiáveis Tcp/Ip - Dependable TCP/IP Application Servers) tool, a distributed tool that guarantees the availability of TCP/IP application servers applied particularly to the implementation of a fault-tolerant Web server. The tool is based on the SNMP framework and is executed on a set of machines that are monitored by a dependable distributed management tool based on the hierarchical diagnosis algorithm Hi-ADSD with Timestamps. After the Web server becomes faulty and this event is diagnosed, the service is recovered by the fault-free machine with the highest priority, so that the service is available when only one machine is fault-free. Experiments are described in which with network configurations with machines where occurred up to 210 faults distributed among the machines, the availability was at least 97.3%. In another network configuration, where 27 faults occurred, the availability was 99.5% in the experiment time.


Referências

[1]   D. E. Comer, Internetworking with TCP/IP – Principles, Protocolos, and Architectures, Prentice Hall, 4a ed., Vol. 1, 1995.

[2]   E. P. Duarte Jr., and L. C. E. Bona, “A Dependable SNMP-based Tool for Distributed Network Management”, IEEE/IFIP International Conference on Dependable Systems and Networks (DSN’2002), 2002. IEEE Computer Society Press, 2002. pp.279-284.

[3]   E. P. Duarte Jr., A. Brawerman, and L. C. P. Albini, “An Algorithm for Distributed Hierarquical Diagnosis of Dynamic Fault and Repair Events”, Proceedings of the IEEE International Conference on Parallel and Distributed Systems, 2000.

[4]   G. Masson, D. Blough, and G. Sullivan, System Diagnosis in Fault-Tolerant Comuter System Design, ed. D. K. Pradhan, Prentice-Hall, 1996.

[5]   The NET-SNMP Project Home Page, http://www.net-snmp.org. Acesso em 21/01/2003.

[6]   The Linux Home Page at Linux on Line, http://www.linux.org. Acesso em 21/01/2003.

[7]   The Apache Software Foundation, http://www.apache.org. Acesso em 21/01/2003.

[8]   Bash, http://www.gnu.org/software/bash/bash.html. Acesso em 21/01/2003.

[9]   IP-Alias, http://www.ibiblio.org/pub/Linux/docs/HOWTO/mini/IP-Alias. Acesso em 21/01/2003.

[10] RSYNC, http://www.rsync.org. Acesso em 21/01/2003.

[11] PHP Hypertext Preprocessor, http://www.php.net. Acesso em 21/01/2003.

[12] Debian GNU/Linux, The Universal Operating System, http://www.debian.org. Acesso em 21/01/2003.