quarta-feira, 30 de junho de 2010

Que tal escanear um livro de 200 páginas em 1 minuto?

Para digitalizar o conteúdo do Google Books são utilizados serviços de scan farms na Índia, onde centenas de pessoas escaneiam manualmente cópias físicas de livros. Não é um trabalho rápido nem barato, como todo mundo que teve a brilhante idéia de digitalizar a própria biblioteca e ter tudo em formato digital descobri quando tentei.

Alterar esse quadro sem criar equipamentos custando milhões de dólares não é fácil, mas ninguém melhor para manipular centenas de páginas em alta velocidade do que um povo afeito a tentáculos como os japoneses. Daí a invenção de Takashi Nakashima e Yoshihiro Watanabe, da Universidade de Tóquio, que deve ter despertado atenção do Google, se eles lerem o Neatorama.

O conceito é simples e óbvio, como toda idéia genial: Que tal simplesmente folhear um livro? A gambiarra (no bom sentido) criada por eles utiliza uma câmera de alta velocidade que fotografa 500 quadros por segundo, em resolução de 1280×1024, mais que suficiente para fins de OCR.

“Ah, mas fica tudo torto e não vai dar pra reconhecer o texto”

CALMA TROLLZINHO. Os japas sabem o que fazem. Após cada frame é emitido um laser que gera um padrão geométrico na página. De posse das duas imagens, trigonometria básica é utilizada e a imagem é reposicionada, a página torta se torna reta. Daí é só mandar pro OCR e ser feliz. Veja e admire-se:

Nenhum comentário: