reCAPTCHA: mucho más de lo que aprecias a simple vista

José Manuel Alarcón Aguín Seguir 𝕏 Seguir
Gallego de Vigo, amante de la tecnología, la música y la lectura. Ingeniero industrial y empresario. Autor artículos y libros desde 1996. YouTuber. Hablo de tecnología, Inteligencia Artificial, software y frikadas en general

Cualquiera que navegue por Internet se habrá topado infinidad de veces con algún CAPTCHA. Este acrónimo de Completely Automated Public Turing test to tell Computers and Humans Apart (Prueba de Turing pública y completamente automática para diferenciar máquinas de humanos) hace referencia a las famosas imágenes con palabras deformadas que debemos resolver para dar de alta una cuenta en GMail, o para dejar un comentario en miles de Webs y Blogs.

Se trata de un sistema muy interesante ya que, entre otras cosas, evita la mayor parte del spam que de otra forma inundaría los comentarios de los blogs, y evita que los spammers creen millones de cuentas de correo en servicios gratuitos para luego inundarnos de correo no deseado al resto de usuarios.

Se puede decir que, aunque la mayor parte de la gente no les presta atención, los CAPTCHA son parte fundamental del buen funcionamiento de Internet.

De los 200 millones de CAPTCHA que se resuelven al día en todo el mundo (¡guau!), cerca de la mitad (100 millones) se corresponden con el servicio pionero de este sistema: reCAPTCHA.

ReCAPTCHA_Logo

Desde finales de 2009 pertenece a Google (como casi todo lo interesante en Internet, que siempre acaba bajo sus garras), pero originalmente este sistema se desarrolló en la Universidad Carnegie-Mellon en Pittsburgh, Pennsylvania. Lo utilizan los principales servicios de Internet como Facebook o Twitter, medios de comunicación, blogs (yo mismo lo utilizo en este mismo blog), tiendas on-line, etc... Está por todas partes.

Estupendo, pero ¿qué interés económico puede haber detrás de un servicio así? La respuesta es muy sencilla: digitalizar libros.

El negocio de reCAPTCHA

reCAPTCHA es utilizado para digitalizar automáticamente millones de documentos y libros. Por ejemplo, esperan tener digitalizado para finales de este año 2010 el fondo completo del archivo del New York Times (casi nada teniendo en cuenta que se lleva publicando ininterrumpidamente todos los días desde el 18 de septiembre de 1851. Echa números...). También, desde que lo posee Google, se usa para el proyecto de digitalización de esta empresa que tanta controversia ha generado. Este es su negocio, ni más ni menos.

¿Y cómo hacen estas imágenes deformadas para digitalizar libros y documentos?. El proceso es el tradicional del negocio, es decir, se "escanean" los documentos y a las imágenes resultantes se les aplica un software de reconocimiento óptico de caracteres (OCR) para identificar las palabras que contienen y pasarlas a un formato textual.

Inciso: Para hacer el escaneado se utilizan unas máquinas rapidísimas que son capaces hasta de pasar las hojas de los libros. Yo he tenido la oportunidad de verlas en funcionamiento hace unos años y son increíbles.

El problema es que el software de OCR no es infalible y suele confundirse bastante en algunas palabras, sobre todo en documentos que no están en buen estado y llevan palabras poco claras. Por ello cada imagen digitalizada se somete al veredicto de dos algoritmos de OCR diferentes.

Este es un ejemplo de digitalización obtenido de la propia página de reCAPTCHA:

reCAPTCHA_ejemploOCR

Aquellas palabras en las que ambos están de acuerdo se dan por buenas y pasan al archivo digitalizado. Pero aquellas otras en las que no hay consenso, se consideran dudosas y pasan al repositorio de palabras para reCAPTCHA (las subrayadas en la figura anterior).

Cuando entramos en una página protegida con reCAPTCHA vemos un elemento similar a este:

reCAPTCHA_Ejemplo

En él se nos muestran dos palabras deformadas y debemos escribir en el cuadro de texto de debajo lo que creemos que ponen. Si las vemos muy complicadas podemos solicitar otras dos o, para gente con problemas de vista, se ofrece también la posibilidad de escuchar un fragmento de audio y escribir lo que has oído (esto no ayuda con los libros pero demuestra consideración con estas personas por su parte).

De las dos palabras que hay en el desafío una es conocida por el sistema y la otra no. La conocida se utiliza como palabra de control y debemos introducirla correctamente. Le ayuda a saber al sistema que no te estás inventando lo que pones ya que si ambas fueran desconocidas no tendría forma de saberlo.

Nota: Este es el motivo de que a veces, aunque pongas una de las dos palabras mal, pases la validación igualmente.

La otra palabra desconocida es la que utiliza para averiguar qué pone realmente en la imagen original. Cada texto introducido por un usuario se considera un "voto" hacia un determinado valor. Así, inicialmente, a cada interpretación de una palabra dudosa obtenida por el OCR se le asigna una puntuación de 0,5. Cada vez que alguien escribe un texto propuesto para la imagen de una palabra ésta obtiene 1 punto más. Al llegar a 2,5 se considera que la palabra está resuelta y pasa al archivo digital.

Como ellos mismos reconocen es un sistema increíblemente efectivo de digitalizar documentos.

Por regla general las dos palabras que se muestran para la prueba no están así de ilegibles en el documento original. Se deforman y se les incluye rayas, fondos u otros elementos para hacer más difícil su procesamiento por parte de software OCR. De este modo evitan que los spammers puedan saltarse la protección y sean siempre personas las que contesten, que es el objeto de todo el negocio.

Vías de ingresos

El fin inicial de reCAPTCHA no podría ser más altruista: digitalizar libros y documentos antiguos para preservarlos, hacerlos indexables y accesibles para las generaciones venideras. Sin embargo dudo que la cosa se quede ahí y menos ahora que Google está detrás.

Aparte de ayudar a Google en su objetivo de la dominación mundial y a ganar mucho dinero por publicidad en las búsquedas dentro de libros digitalizados, seguro que se le puede sacar mucho dinero por otros medios 😉

En el futuro reCAPTCHA puede generar un negocio importante poniendo a disposición de otras empresas sus vastas bases de datos de digitalización de texto. No olvidemos que, con cada nueva palabra resuelta, no sólo se pasa a texto una imagen digitalizada, sino que los sistemas OCR utilizados mejoran su precisión. Es probable que el sistema OCR más perfeccionado del mundo sea ahora mismo el de reCAPTCHA.

Un servicio Web ofrecido a otras empresas para ayudarles a reconocer texto en cientos de idiomas diferentes es un buen negocio se vea por donde se vea.

Existen otros modelos de CAPTCHA basados en imágenes (por ejemplo contar gatos, con ASIRRA de Microsoft), en texto animado, en vídeo o en resolución de problemas matemáticos sencillos, que son más efectivos a la hora de detener a los spammers, pero no tienen un modelo de ingresos detrás.

A Google hoy por hoy le interesa sobre todo usarlo para digitalizar libros, pero hay otras empresas que han pensado en modelos alternativos basados en la publicidad. Se trata de un concepto interesante desarrollado por la empresa Solve Media.

Su propuesta consiste en utilizar los CAPTCHA para enviar mensajes publicitarios a los usuarios, utilizando slogans y nombres de marcas en lugar de palabras sacadas de libros. Este vídeo ilustra bien el concepto:

No tardaremos en ver sistemas similares inundándonos de publicidad en muchos sitios.

Mientras tanto otra gente prefiere usar los CAPTCHA para hacer arte 😃

Páginas ilegales y su relación con los CAPTCHAS

Esta es otra de las muchas cuestiones de las que no son conscientes la mayor parte de los usuarios de Internet: ¿qué ganan los sitios ilegales de descargas y vídeos colgando todo ese material ilegal en Internet?

Alguna gente visita páginas de descargas ilegales, vídeos con copyright, portales pornográficos, etc... sin pararse a pensar qué los motiva, qué hace que pongan a disposición de todo el mundo todo eso de manera gratuita. Algunos tienen publicidad como complemento, pero el verdadero negocio de todos muchos de esos sitios es romper CAPTCHAs. Increíble pero cierto.

Aunque cueste creerlo el negocio de spam mueve cantidades ingentes de dinero, tanto por correo electrónico que es el principal, como en comentarios en blogs, trackbacks falsos, redes sociales, etc... Cuesta creerlo porque ¿quién va a comprar nada de lo que anuncian estos tipos? Esta fantástica tira cómica de DorkTower ilustra muy bien lo que los spammers deben de pensar de nosotros:

thewayspamthink

Dejando la gracia a un lado, lo cierto es que mucha gente en todo el mundo acaba picando en mensajes de spam, y por tanto los acicates económicos para seguir haciéndolo son muy grandes, por muchas barreras que se les pongan.

Así que, resolviendo CAPTCHAs los spammers consiguen:

Dejar comentarios con publicidad engañosa en blogs y medios de comunicación
Crear miles de cuentas de correo en servicios gratuitos para luego enviarnos millones de correos electrónicos no deseados
Atacar sitios web de empresas
Conseguir dinero mediante tickets de promociones u otros fraudes aprovechando marketing de otros (Gracias a Martín Pérez de Jobsket por este enlace).
Etc...

Aparte de todo el ánimo de lucro de empresas y particulares que hay detrás del spam, existen estudios de empresas de seguridad que relacionan parte del spam existente en Internet (sobre todo el que se usa para phishing y diseminar troyanos) con la **financiación de grupos terroristas y ciber-ataques **a gobiernos.

Por eso existen en gran medida muchas de esas páginas gratuitas. Y por eso también, incluso, existen "sweat shops" en Asia con gente explotada que se dedica a resolver CAPTCHAs todo el día 😦

A partir de ahora piénsatelo más antes de entrar en según qué sitios y ayudarles a llenar de porquería el ciberespacio 😉

martes, 12 octubre, 2010

Sígueme:

reCAPTCHA: mucho más de lo que aprecias a simple vista

El negocio de reCAPTCHA

Vías de ingresos

Páginas ilegales y su relación con los CAPTCHAS

↓ Explorar →↓