Mysql
 sql >> Base de Dados >  >> RDS >> Mysql

Principais técnicas para evitar a 'raspagem de dados' de um banco de dados de um site


Embora não haja nada que impeça uma determinada pessoa de extrair conteúdo disponível publicamente, você pode fazer algumas coisas básicas para mitigar as preocupações do cliente:

  • Limite de taxa por conta de usuário, endereço IP, agente de usuário, etc... - isso significa que você restringe a quantidade de dados que um determinado grupo de usuários pode baixar em um determinado período de tempo. Se você detectar uma grande quantidade de dados sendo transferidos, encerre a conta ou o endereço IP.

  • Exigir JavaScript - para garantir que o cliente tenha alguma semelhança com um navegador interativo, em vez de uma aranha básica...

  • RIA - disponibilize seus dados através de uma interface Rich Internet Application. As grades baseadas em JavaScript incluem ExtJs, YUI, Dojo, etc. Ambientes mais avançados incluem Flash e Silverlight como 1kevgriff menções .

  • Codifique dados como imagens. Isso é bastante intrusivo para usuários comuns, mas você pode codificar algumas de suas tabelas de dados ou valores como imagens em vez de texto, o que derrotaria a maioria dos analisadores de texto, mas não é infalível, é claro.

  • robots.txt - para negar web spiders óbvios, agentes de usuários de robôs conhecidos.

    Agente de usuário:*

    Não permitir:/

  • Use metatags de robô. Isso iria parar de conformar aranhas. Isso impedirá que o Google indexe você, por exemplo:



Existem diferentes níveis de dissuasão e a primeira opção é provavelmente a menos intrusiva.