05/05/2010

Em quatro anos Twitter acumula dez bilhões de mensagens

Em quatro anos Twitter acumula dez bilhões de mensagens









Os usuários do Twitter agora publicam 55 milhões de tweets por dia. Em apenas quatro anos, cerca de 10 bilhões dessas breves mensagens se acumularam. Várias delas são apenas besteiras. Mas, consideradas como um todo, elas provavelmente serão de utilidade considerável para futuros historiadores. As mensagens contêm mais observações gravadas por mais pessoas ao mesmo tempo do que qualquer outro meio já preservou antes.




"O Twitter tem dezenas de milhões de usuários ativos. Não existe nenhum arquivo com dezenas de milhões de diários", disse Daniel J. Cohen, professor associado de história da Universidade George Mason e coautor de um livro de 2006, Digital History. Além disso, ele disse, "o Twitter é algo de momento; é onde as pessoas são mais honestas".






No mês passado, o Twitter anunciou que iria doar seu arquivo de mensagens públicas à Biblioteca do Congresso americano, fornecendo atualizações contínuas. Diversos historiadores disseram que o legado tem imenso potencial. "Minha reação inicial foi, 'Quando olhamos tweet por tweet, parece só lixo', disse Amy Murrell Taylor, professora associada de história da Universidade Estadual de Nova York, Albany. "Mas pode ser realmente valioso se olharmos isso como um conjunto".






Taylor está trabalhando num livro sobre fugas de escravos durante a Guerra Civil americana; o projeto envolve montanhas de documentos em papel. "Não tenho uma ferramenta de busca para filtrar isso", ela disse. O arquivo do Twitter, que "nasceu digital", como dizem arquivistas, será facilmente pesquisado à máquina - diferente de cartas de família e diários que acumulam poeira em sótãos.






Como um registro escrito, os tweets se aproximam muito dos pensamentos originais. "Muitas de nossas fontes são escritas após o fato, mediadas pela memória - às vezes, uma falsa memória", Taylor disse. "E os jornais são mediados pelos editores. Os tweets nos levam direto ao momento de uma forma que nenhuma outra fonte consegue. É isso que é tão entusiasmante".






As mensagens do Twitter preservam os relatos das testemunhas de uma variedade extraordinária de acontecimentos em todo o planeta. "No passado, algumas pessoas conseguiam, in loco, escrever ou retratar um acontecimento testemunhado, como o enforcamento de John Brown", disse William G. Thomas III, professor de história da Universidade de Nebraska-Lincoln. "Mas isso é um arquivo histórico muito raro e excepcional".






Dez bilhões de mensagens do Twitter ocupam pouco espaço de armazenamento: cerca de cinco terabytes de dados. (Um disco rígido de dois terabytes pode ser encontrado por menos de US$ 150.) E o Twitter afirma que o arquivo a ser enviado à biblioteca será um pouco menor. Antes de transferi-lo, a companhia irá remover mensagens de usuários que optaram por designar sua conta como "protegida", quando apenas pessoas expressamente autorizadas podem seguir a conta de um usuário.






Um usuário do Twitter também pode escolher usar um pseudônimo e não compartilhar informações de identificação pessoal. O Twitter não acrescenta tags de identidade que ligam seus usuários a pessoas reais. Cada mensagem é acompanhada de algumas informações suplementares, como o número de seguidores que o autor tinha na época e quantos usuários o autor seguia. Embora Cohen tenha dito que seria útil para um historiador saber as identidades dos seguidores e dos seguidos, essa informação não é incluída no tweet em si.






Mas não existe nada privado sobre quem segue quem entre os usuários das contas públicas não protegidas do Twitter. Essa informação é mostrada tanto no próprio site do Twitter quanto nos aplicativos desenvolvidos por terceiros que têm autorização do Twitter para explorar seu banco de dados.






Alexander Macgillivray, conselheiro jurídico do Twitter, disse, "desde o começo, o Twitter foi um serviço público e gratuito". A política de privacidade do Twitter declara: "Nossos serviços são primordialmente desenvolvidos para ajudar você a compartilhar informação com o mundo. A maior parte da informação fornecida ao Twitter é a informação que você pede que tornemos pública".






Macgillivray acrescentou, "é por isso que quando revisamos nossa política de privacidade, brincamos com a ideia de chamá-la de 'política pública'". Ele disse que a companhia só não adotou o termo porque a lei da Califórnia exige que o Twitter tenha uma "política de privacidade" sob a mesma designação.






Embora os tweets públicos tenham sempre tido a intenção de serem expostos aos olhos de todos, a Biblioteca do Congresso hesita em lidar com qualquer coisa que se aproxime da controvérsia. Martha Anderson, diretora do Programa Nacional de Infraestrutura e Preservação de Informação Digital da biblioteca, disse, "existe uma preocupação sobre questões de privacidade a médio prazo e temos consciência dessas preocupações".






A biblioteca irá bloquear as mensagens por seis meses após sua publicação original. Se isso não for suficiente para resolver as questões de privacidade, ela disse, "teremos que filtrar certas coisas ou esperar mais tempo para disponibilizá-las". A biblioteca planeja conceder acesso ao arquivo do Twitter apenas a aqueles que Anderson chamou de "pesquisadores qualificados".






Mas as restrições da biblioteca sobre o acesso não terão importância. Macgillivray, do Twitter, disse que sua companhia também iria ceder cópias de seu arquivo público a Google, Yahoo e Microsoft. Essas companhias já recebem um fluxo instantâneo de mensagens atuais do Twitter. Quando o arquivo de tweets mais antigos for adicionado aos seus bancos de dados, eles terão um arquivo completo e constantemente atualizado, e os usuários não irão encontrar um embargo de seis meses.






O Google já oferece aos seus usuários o Replay, a opção de restringir uma busca por palavra-chave apenas a tweets e períodos de tempo específicos. Ele é rapidamente acessado a partir das páginas de resultados da busca. (Clique em "mostrar opções", depois em "Atualizações", e selecione um período específico).






Uma ferramenta como o Google Replay é útil para focar um tópico. Mas o Replay mostra apenas 10 tweets de cada vez. Para pesquisar 10 bilhões de mensagens - vejamos, estimando seis segundos para uma olhada rápida em cada tela -, seriam necessários cerca de 190 anos sem dormir.






Cohen incentiva historiadores a encontrar novas ferramentas e métodos para explorar "o arquivo histórico incrivelmente grande" de tweets. Isso irá exigir uma abordagem diferente, ele disse, uma que abra mão da "história episódica" e direta. No final das contas, talvez a qualidade seja obtida por meio da enorme quantidade.

0 comentários:

Postar um comentário

 
;