Embora não haja nada que impeça uma determinada pessoa de extrair conteúdo disponível publicamente, você pode fazer algumas coisas básicas para mitigar as preocupações do cliente:
-
Limite de taxa por conta de usuário, endereço IP, agente de usuário, etc... - isso significa que você restringe a quantidade de dados que um determinado grupo de usuários pode baixar em um determinado período de tempo. Se você detectar uma grande quantidade de dados sendo transferidos, encerre a conta ou o endereço IP.
-
Exigir JavaScript - para garantir que o cliente tenha alguma semelhança com um navegador interativo, em vez de uma aranha básica...
-
RIA - disponibilize seus dados através de uma interface Rich Internet Application. As grades baseadas em JavaScript incluem ExtJs, YUI, Dojo, etc. Ambientes mais avançados incluem Flash e Silverlight como 1kevgriff menções .
-
Codifique dados como imagens. Isso é bastante intrusivo para usuários comuns, mas você pode codificar algumas de suas tabelas de dados ou valores como imagens em vez de texto, o que derrotaria a maioria dos analisadores de texto, mas não é infalível, é claro.
-
robots.txt - para negar web spiders óbvios, agentes de usuários de robôs conhecidos.
Agente de usuário:*
Não permitir:/
-
Use metatags de robô. Isso iria parar de conformar aranhas. Isso impedirá que o Google indexe você, por exemplo:
Existem diferentes níveis de dissuasão e a primeira opção é provavelmente a menos intrusiva.