Hey, Você Já Configurou Seu Robots.txt ? – Melhorando o SEO e a Segurança da Sua Aplicação em Um Minuto

17:13 Carlos Santiago 0 Comentarios


Quando desenvolvemos uma aplicação web, desde um pequeno site até uma grande loja virtual, temos que ter uma atenção redobrada em relação ao arquivo robots.txt. Este arquivo é responsável por dizer aos buscadores, como o Google, qual conteúdo (páginas, arquivos, etc) da nossa aplicação devem ou não ser indexados pelos buscadores. Se este arquivo for mal configurado, podemos ter informações sensíveis da nossa aplicação disponíveis por simples pesquisas no Google, além de um mau posicionamento nas páginas do Google, por exemplo.

Como os motores de busca indexam um site através de aplicações web (sites, lojas virtuais, etc), eles se deparam com informações confidenciais e sensíveis das aplicações e lojas virtuais. Assim, qualquer informação, acidentalmente acessível através de uma aplicação web ou servidor web vai rapidamente ser indexado pelo Google.

As informações confidenciais podem ser desde números de cartão de crédito e senhas até informações técnicas sensíveis, tais como arquivos de servidores, banco de dados, entre outros. Além disso, o Google indexa informações que podem expor vulnerabilidades das aplicações, tais como mensagens de erro contidas na aplicação, listas de diretórios abertas entre outras. Toda esta informação sensível está disponível para qualquer um ver através dos termos de pesquisa apropriados.

BLINDANDO NOSSA APLICAÇÃO
Para não ficarmos vulneráveis a este tipo de falha devemos configurar corretamente nosso arquivo robots.txt. Este arquivo é responsável por criar uma política de acesso para quais páginas devem ser indexadas pelos buscadores, como o Google. Lembrando que se bem configurado, este arquivo consegue melhorar o SEO da nossa aplicação.

EXEMPLO
Vamos utilizar como exemplo uma loja virtual e não desejamos que o conteúdo que tenha dentro da página de login (www.lojaexemplo.com.br/login) dos nossos clientes seja indexada pelos buscadores, para não expor as credenciais de acesso. Para isto, devemos inserir o comando "Disallow: /login” no arquivo robots.txt, sendo assim, os buscadores não indexaram esta página em específico.

Outro exemplo muito interessante é não permitir que os boletos gerados pela nossa loja virtual sejam indexados para não expor dados sensíveis que ficam registrados nos boletos como CPF e endereço de entrega. Para isto, devemos utilizar o comando "Disallow:/boletos” (seguindo o exemplo; www.lojaexemplo.com.br/boletos).

A seguir, deixamos um exemplo de um arquivo robots.txt

User-agent: *
Allow: /
Disallow: /login
Disallow: /boletos

#Blindadica
Devemos ter atenção redobrada na criação do nosso arquivo robots,  pois o caminho de acesso para as áreas restritas da nossa aplicação acabam sendo divulgadas neste arquivo, com o propósito de buscadores não indexarem o conteúdo.

Um invasor para entender melhor a aplicação vai em busca desse arquivo para descobrir quais os diretórios existentes.

O correto é sempre bloquearmos todos os diretórios da nossa aplicação e começarmos habilitando quais os diretórios que devem ser indexados, entretanto, essa tarefa acaba tornando-se desgastante para uma grande aplicação. Por esse motivo, proteja seus diretórios de vulnerabilidades como “listagem de diretórios” e não permita acesso público para esses diretórios.

0 comentários: