Crônicas de um troubleshoot - Episódio 1

Peguei minha Honda XRE-300 modelo 2011 e fui para o trabalho, tento sempre chegar alguns minutos antes das 8 da manhã para que eu consiga bater o ponto exatamente às 8, assim consigo sair às 17h, isso se fizer uma hora de almoço. Andar de moto em uma cidade como Belo Horizonte é um desafio diário, a galera não dá seta pra nada.

Chego a tempo, bato meu ponto e vou para a sala de operação de rede WAN que por algum motivo que desconheço recebeu a sigla de GORI, não preciso ligar o meu computador por que ele sempre fica ligado, às tomadas da sala fazem parte do circuito do DC e estão atrás do grupo gerador, ou seja, nunca falta energia, a sala da GORI não tem janelas e fica escondida próxima ao DC, para chegar nela você precisa passar por outras três portas e duas outras salas, é uma sala dentro de outra sala, e como eu gosto desta sala, tranquila e isolada (na maior parte do tempo).

Checo meus e-mails, pego uma cápsula de café e coloca na máquina, nada de especial, nenhum ticket importante e aparentemente os gráficos de utilização dos nossos links de internet e backbone estão normais, hoje o dia será calmo.

Não trabalho sozinho, tenho mais 6 colegas na sala e cada um está fazendo suas atividades sem maior stress, começamos bem. 

Estranho, algumas máquinas de uma unidade que atendemos não estão pegando IP e a equipe Microsoft que cuida dos servidores DHCP estão colocando a culpa na rede. O pessoal da rede LAN verificou que todos os switches L2 estão operacionais e quem já havia recebido IP continua navegando normalmente, isso é estranho penso eu.

O ticket cai na fila da rede WAN, é chutado sem piedade para nós, se não é LAN é WAN, na nossa rede cada conexão com alguma localidade no nosso backbone é considerado WAN, temos uma rede fibrada própria com muitos quilômetros de extensão que atende mais de 900 localidades.

Começo o tshoot pelo básico, a localidade realmente está conectada? Checo o gateway, faço um ping básico e tudo funciona, entro na caixa e consulto a tabela arp, vejo centenas de endereços IPs de clientes, faço um ping para alguns e também funciona, faço um ping de dentro da caixa para o IP do servidor DHCP que se encontra no DC1 e também funciona, estranho eu penso, será que é algo no relay DHCP configurado na interface L3 que serve de gateway para a rede?

Checo a configuração e ela está normal, reporto para o pessoal do DC que está tudo normal do ponto de vista da rede, a conectividade existe e está funcionando.

Como sempre, eles insistem que o problema é rede. O problema começa a se repetir em várias outras localidades, vários hosts não conseguem obter endereço IP via DHCP. Para provar que o problema não é de rede, peço para a equipe local configurar algumas máquinas que não conseguem pegar IP via DHCP com IP fixo, e para surpresa de zero pessoas elas começam a funcionar, o problema é no servidor DHCP.

A equipe que cuida dos servidores continua colocando a culpa na rede, o que esses caras precisam para assumir esse B.O? Aposto que nem os logs dos servidores eles olharam. Insisto que o problema é deles mas como sempre temos que provar que o problema não é nosso. 

Como posso provar que o DHCP discover dos hosts que estão com problema está chegando no servidor DHCP e o servidor é que não está mandando um OFFER sem ter acesso ao servidor? Já sei, vou pedir para a equipe de rede do DC1 espelhar a porta desse servidor em outra porta vaga do switch topo de rack que alimenta os servidores, assim consigo espetar um notebook lá com um sniffer de rede, realizo uma captura de pacotes e provo que o DHCP discover está chegando corretamente.

Setup montado, porta espelhada, notebook conectado e peço para alguém de alguma unidade com problema forçar o DHCP discover, batata, vejo o pacotinho chegando lindamente, faço a coleta, junto outras evidências e mando para o pessoal que administra os servidores.

Primeiro negaram que aquilo era uma evidência de que a rede estava funcionando, depois de muito custo perceberam que havia algo errado com os servidores, no fim das contas fizeram alguma coisa e tudo voltou a funcionar.

Não era problema de rede, mas fiquei a manhã inteira nisso e agora vou almoçar, bato meu ponto e vou comer.

Quantos PINGs você dá para esse texto?

Faça Login ou Inscrever-se para participar de pesquisas.

Aproveitando o post para fazer o jabá dos meus cursos que na semana do consumidor estamos com excelentes condições:

 R$500 de desconto no plano anual e nos cursos individuais até o dia 21/03 - 23h!

Além disso, temos 1 ano de acesso extra no plano anual, isso significa que você terá acesso à plataforma por 24 meses, ou seja, dois anos! Acesso aos cursos atuais e futuros por apenas uma fração do preço original. O preço cheio é de R$1397, com desconto vai pra R$897 e se dividir por dois anos de acesso você na verdade estará pagando R$448,50 por ano, é muito barato, sério mesmo e você ainda pode parcelar em 12x sem juros.

Treinamentos CCNA ou CCNP RiscoZero e também a série Descomplicando, BGP. MPLS e OSPF e o Fortigate 7.x - NSE4/FCP. Em breve também teremos novos cursos, inclusive Linux.

Acesse o https://gustavokalau.com.br e aproveite.

Obrigado!