você deve dar uma olhada em codificação utf8
você pode postar qual codificação está sendo usada pelo seu banco de dados e sua tabela? (você pode postar a estrutura do seu banco de dados?)
EDIT:Para responder a sua pergunta em seu comentário, a diferença básica é que utf8_general_ci é mais rápido, mas não se importa com algumas comparações específicas de idioma. Você pode ler mais sobre isso no link que enviei acima no meu post. Na verdade, afeta o comportamento de classificação e pesquisa.
Não importa como você gostaria que seu banco de dados se comportasse, todos esses agrupamentos são úteis em diferentes ambientes. No seu caso, eu não usaria utf8_bin, pois ele apenas compara strings usando seus valores binários.