José Manuel Alarcón

geek, author, speaker, entrepreneur, web guy

MENÚ - Blog de José Manuel Alarcón

reCAPTCHA: mucho más de lo que aprecias a simple vista

Cualquiera que navegue por Internet se habrá topado infinidad de veces con algún CAPTCHA. Este acrónimo de Completely Automated Public Turing test to tell Computers and Humans Apart (Prueba de Turing pública y completamente automática para diferenciar máquinas de humanos) hace referencia a las famosas imágenes con palabras deformadas que debemos resolver para dar de alta una cuenta en GMail, o para dejar un comentario en miles de Webs y Blogs.

Se trata de un sistema muy interesante ya que, entre otras cosas, evita la mayor parte del spam que de otra forma inundaría los comentarios de los blogs, y evita que los spammers creen millones de cuentas de correo en servicios gratuitos para luego inundarnos de correo no deseado al resto de usuarios.

Se puede decir que, aunque la mayor parte de la gente no les presta atención, los CAPTCHA son parte fundamental del buen funcionamiento de Internet.

De los 200 millones de CAPTCHA que se resuelven al día en todo el mundo (¡guau!), cerca de la mitad (100 millones) se corresponden con el servicio pionero de este sistema: reCAPTCHA.

ReCAPTCHA_Logo

Desde finales de 2009 pertenece a Google (como casi todo lo interesante en Internet, que siempre acaba bajo sus garras), pero originalmente este sistema se desarrolló en la Universidad Carnegie-Mellon en Pittsburgh, Pennsylvania. Lo utilizan los principales servicios de Internet como Facebook o Twitter, medios de comunicación, blogs (yo mismo lo utilizo en este mismo blog), tiendas on-line, etc... Está por todas partes.

Estupendo, pero ¿qué interés económico puede haber detrás de un servicio así? La respuesta es muy sencilla: digitalizar libros.

El negocio de reCAPTCHA

reCAPTCHA es utilizado para digitalizar automáticamente millones de documentos y libros. Por ejemplo, esperan tener digitalizado para finales de este año 2010 el fondo completo del archivo del New York Times (casi nada teniendo en cuenta que se lleva publicando ininterrumpidamente todos los días desde el 18 de septiembre de 1851. Echa números...). También, desde que lo posee Google, se usa para el proyecto de digitalización de esta empresa que tanta controversia ha generado. Este es su negocio, ni más ni menos.

¿Y cómo hacen estas imágenes deformadas para digitalizar libros y documentos?. El proceso es el tradicional del negocio, es decir, se "escanean" los documentos y a las imágenes resultantes se les aplica un software de reconocimiento óptico de caracteres (OCR)  para identificar las palabras que contienen y pasarlas a un formato textual.

Inciso: Para hacer el escaneado se utilizan unas máquinas rapidísimas que son capaces hasta de pasar las hojas de los libros. Yo he tenido la oportunidad de verlas en funcionamiento hace unos años y son increíbles.

El problema es que el software de OCR no es infalible y suele confundirse bastante en algunas palabras, sobre todo en documentos que no están en buen estado y llevan palabras poco claras. Por ello cada imagen digitalizada se somete al veredicto de dos algoritmos de OCR diferentes.

Este es un ejemplo de digitalización obtenido de la propia página de reCAPTCHA:

reCAPTCHA_ejemploOCR

Aquellas palabras en las que ambos están de acuerdo se dan por buenas y pasan al archivo digitalizado. Pero aquellas otras en las que no hay consenso, se consideran dudosas y pasan al repositorio de palabras para reCAPTCHA (las subrayadas en la figura anterior).

Cuando entramos en una página protegida con reCAPTCHA vemos un elemento similar a este:

reCAPTCHA_Ejemplo

En él se nos muestran dos palabras deformadas y debemos escribir en el cuadro de texto de debajo lo que creemos que ponen. Si las vemos muy complicadas podemos solicitar otras dos o, para gente con problemas de vista, se ofrece también la posibilidad de escuchar un fragmento de audio y escribir lo que has oído (esto no ayuda con los libros pero demuestra consideración con estas personas por su parte).

De las dos palabras que hay en el desafío una es conocida por el sistema y la otra no. La conocida se utiliza como palabra de control y debemos introducirla correctamente. Le ayuda a saber al sistema que no te estás inventando lo que pones ya que si ambas fueran desconocidas no tendría forma de saberlo.

Nota: Este es el motivo de que a veces, aunque pongas una de las dos palabras mal, pases la validación igualmente.

La otra palabra desconocida es la que utiliza para averiguar qué pone realmente en la imagen original. Cada texto introducido por un usuario se considera un "voto" hacia un determinado valor. Así, inicialmente, a cada interpretación de una palabra dudosa obtenida por el OCR se le asigna una puntuación de 0,5. Cada vez que alguien escribe un texto propuesto para la imagen de una palabra ésta obtiene 1 punto más. Al llegar a 2,5 se considera que la palabra está resuelta y pasa al archivo digital.

Como ellos mismos reconocen es un sistema increíblemente efectivo de digitalizar documentos.

Por regla general las dos palabras que se muestran para la prueba no están así de ilegibles en el documento original. Se deforman y se les incluye rayas, fondos u otros elementos para hacer más difícil su procesamiento por parte de software OCR. De este modo evitan que los spammers puedan saltarse la protección y sean siempre personas las que contesten, que es el objeto de todo el negocio.

Vías de ingresos

El fin inicial de reCAPTCHA no podría ser más altruista: digitalizar libros y documentos antiguos para preservarlos, hacerlos indexables y accesibles para las generaciones venideras. Sin embargo dudo que la cosa se quede ahí y menos ahora que Google está detrás.

Aparte de ayudar a Google en su objetivo de la dominación mundial y a ganar mucho dinero por publicidad en las búsquedas dentro de libros digitalizados, seguro que se le puede sacar mucho dinero por otros medios ;-)

En el futuro reCAPTCHA puede generar un negocio importante poniendo a disposición de otras empresas sus vastas bases de datos de digitalización de texto. No olvidemos que, con cada nueva palabra resuelta, no sólo se pasa a texto una imagen digitalizada, sino que los sistemas OCR utilizados mejoran su precisión. Es probable que el sistema OCR más perfeccionado del mundo sea ahora mismo el de reCAPTCHA.

Un servicio Web ofrecido a otras empresas para ayudarles a reconocer texto en cientos de idiomas diferentes es un buen negocio se vea por donde se vea.

Existen otros modelos de CAPTCHA basados en imágenes (por ejemplo contar gatos, con ASIRRA de Microsoft), en texto animado, en vídeo o en resolución de problemas matemáticos sencillos, que son más efectivos a la hora de detener a los spammers, pero no tienen un modelo de ingresos detrás.

A Google hoy por hoy le interesa sobre todo usarlo para digitalizar libros, pero hay otras empresas que han pensado en modelos alternativos basados en la publicidad. Se trata de un concepto interesante desarrollado por la empresa Solve Media.

Su propuesta consiste en utilizar los CAPTCHA para enviar mensajes publicitarios a los usuarios, utilizando slogans y nombres de marcas en lugar de palabras sacadas de libros. Este vídeo ilustra bien el concepto:

No tardaremos en ver sistemas similares inundándonos de publicidad en muchos sitios.

Mientras tanto otra gente prefiere usar los CAPTCHA para hacer arte :-)

Páginas ilegales y su relación con los CAPTCHAS

Esta es otra de las muchas cuestiones de las que no son conscientes la mayor parte de los usuarios de Internet: ¿qué ganan los sitios ilegales de descargas y vídeos colgando todo ese material ilegal en Internet?

Alguna gente visita páginas de descargas ilegales, vídeos con copyright, portales pornográficos, etc... sin pararse a pensar qué los motiva, qué hace que pongan a disposición de todo el mundo todo eso de manera gratuita. Algunos tienen publicidad como complemento, pero el verdadero negocio de todos muchos de esos sitios es romper CAPTCHAs. Increíble pero cierto.

Aunque cueste creerlo el negocio de spam mueve cantidades ingentes de dinero, tanto por correo electrónico que es el principal, como en comentarios en blogs, trackbacks falsos, redes sociales, etc... Cuesta creerlo porque ¿quién va a comprar nada de lo que anuncian estos tipos? Esta fantástica tira cómica de DorkTower ilustra muy bien lo que los spammers deben de pensar de nosotros:

thewayspamthink

Dejando la gracia a un lado, lo cierto es que mucha gente en todo el mundo acaba picando en mensajes de spam, y por tanto los acicates económicos para seguir haciéndolo son muy grandes, por muchas barreras que se les pongan.

Así que, resolviendo CAPTCHAs los spammers consiguen:

Aparte de todo el ánimo de lucro de empresas y particulares que hay detrás del spam, existen estudios de empresas de seguridad que relacionan parte del spam existente en Internet (sobre todo el que se usa para phishing y diseminar troyanos) con la financiación de grupos terroristas y ciber-ataques a gobiernos.

Por eso existen en gran medida muchas de esas páginas gratuitas. Y por eso también, incluso, existen "sweat shops" en Asia con gente explotada que se dedica a resolver CAPTCHAs todo el día :-(

A partir de ahora piénsatelo más antes de entrar en según qué sitios y ayudarles a llenar de porquería el ciberespacio ;-)

Jose M. Alarcon José Manuel Alarcón
Ingeniero industrial y empresario. Fundador de Krasis.com, especialistas en e-learning. Autor de varios libros y cientos de artículos. Gallego de Vigo, amante de la ciencia, la tecnología, la sociología, la música y la lectura. Mi último libro: "Tres Monos, Diez Minutos".
Más sobre mi...

Comentarios (37) -

Genial artículo. Muchas gracias, José Manuel, super interesante. Un vistazo a una esquinita de nuestra vida diaria que como ocurre hoy en día con todo, tiene un mundo detrás!
El único problema ha sido cierto escalofrío al ir a resolver el captcha para poder publicar este post... ya no es algo tan trivial como hasta ahora.
Un abrazo!

Responder

Hola José, hoy en día Google tambien lo usa para escanear documentos que adjuntas a gMail, pero creo que la principal ventaja que tiene va a ser para las empresas.

Imaginate que ofrece a las empresas, poner sus documentos digitalizados y que estos sean automaticamente analizados e indexados, permitiendo a los empleados hacer busquedas.

Contabilidad de la empresa desde el año 0 xD
Proyectos
Resumenes de reuniones etc..

Creo que en una era que se esta pasando del papel a un medio digital, reCaptcha ofrece un servicio dificil de igualar.

PD: Ya veo que nos has puesto un ejemplo práctico para validar los comentarios.

Responder

Hola Eduardo:

Interesante. No me había dado cuenta de que probablemente los adjuntos de GMail que te ofrece la posibilidad de verlos como HTML también los analizaban con este software.
Las ideas que indicas para monetizar el servicio son también muy interesantes.

Estos de Google no dan puntada sin hilo y la verdad es que cada vez dan más miedito. Un día tengo que escribir sobre el miedo que me da Google (aunque sea fiel usuario de ellos) :-)

Saludos,

Responder

Desde luego que me he quedado de piedra. No tenía ni la más remota idea de lo que aquí explicas y ciertamente me parece muy interesante.

Curioso que alguna vez me ha dado la sensación de que la palabra que escribía no era la correcta y sin embargo, el sistema me ha aceptado el captcha.
También me preguntaba porqué una de las dos palabras se veía bien y la otra tan borrosa.
Ahora ya sé el motivo de todo y me alegra saberlo.

Muchas gracias!!!

Responder

Genial el artículo. Un 10.
gracias.

Responder

Fenomenal artículo. Ha sido realmente instructivo y siempre me habia preguntado en donde estaba la capacidad de recaptcha para ofrecer tanto tráfico ya que estaba claro que todo se ofrece desde sus servers. Alucinante. Muchas gracias.

Por cierto, a nivel publishers la solución de solvemedia tiene buena pinta.

Responder

Simplemente felicitarte por un artículo tan entretenido como didáctica.
Gracias

Responder

Spain angusdenovo

Hola, sólo comentarte, un poco al margen de reCAPTCHA,  que los captchas tambien se utilizan en páginas de descarga de archivos y existen programas como jdownloader que resuelven captcha's con bastante éxito...

Responder

que interesante...

Responder

Muy interesante el articulo... aunque ahora me toca rellenar el Captcha para darte mi opinion. Que mal rollo....
La verdad es que nadie sabe donde puede acabar todo esto.
A todo esto queria poner que estoy en china donde me pregunta mi Country y.... directamente no aparece.... Tiene que ver con el rollito que hay Google-China??
Venga un saludo

Responder

Interesantísimo artículo,

La gente piensa... es muy revelador. Cosas que nos parecen normales encierran mucho más de lo que pensamos.

Gracias!
Javi.

Responder

Muy interesante el artículo. Ya sabía que los recaptcha son un gran negocio para Google y por eso rechazo resolverlos por completo. Siempre resuelvo solamente una de las 2 palabras, normalmente necesita entre 1 y 3 intentos para conseguirlo.

Responder

@angusdenovo

jdownloader solo puede resolver el captcha simple, pero no el recaptcha.

Responder

Si ha salido este comentario publicado he resuelto sólo el captcha más legible.

Responder

Fillstrup: jajajaja, me parto!!!

Responder

GUUAAAUUU! Me has iluminado compañero. Me parece muy fuerte todo esto. La mayoría lo desconocen.
Y digo yo, en realidad Google está haciéndonos trabajar para ellos de forma gratuita y sin nosotros saberlo, ya que yo nunca he leído que el captcha que yo introduzco lo utilicen luego ellos con fines lucrativos. ¿Y no será eso un poco ilegal? No me parece nada bien...

Responder

Yo sin embargo seguire odiando el captcha
Me hace perder mucho tiempo, en ocasiones me hecha para atras, ya que no suelo llegar a pasarlo hasta el 3º intento
El spam se puede borrar, pero una visita perdida es una visita perdida.
PD: mierda, ahi abajo esta el maldito captcha

Responder

Muy interesante tu artículo, te menearé en meneame. Un saludo

Responder

Fantástico articulo amigo. Me ha encantado de principio a fin.Te acabas de ganar un seguidor. Mil gracias por la explicación.

PD: Voy a introducir el recaptcha en tu blog pero espero que no sea en realidad una tapadera terrorista ;-)

Responder

Se me ha borrado el comentario o esta en la cola de moderacion?
Bueno como dije, odio el captcha.
¿Es mejor perder spam o perder a un visitante?
El spam se puede borrar, al visitante no se le puede traer de vuelta.

Creo que he puesto el codigo mal y se me a borrado el mensaje anterior, o no.
De media pongo el captcha mal unas 3 veces antes de acertar. Y por ejemplo no uso nunca servidores de descarga en los que tenga que escribir captcha de dos palabras. Lo odio. Y no creo que sea el unico! o no se igual es que soy un poco dislexico y no lo se

Responder

wow que interesante, no conocia la historia detras de lso captchas y meha parecido muy amena y divertida...entre todos contribuimos a digitalizar el conocimiento!!! Aunque a veces me he topado con un captcha que no habia dios que lo escribiera correctamente

saludos!

Responder

Spain Victor Moral

Excelente artículo. Lo enviaré por correo a unos cuantos para que se aprendan algo más. Gracias por el esfuerzo.

Responder

fantástico! no sabia que era empleado de google... ahora si voy a fardar!

Responder

Es la primera vez que caigo aquí y con esta sola entrada tu blog se ha ido derechito a mis Marcadores (sí: FF). Me estaré dando las vueltas por acá cada que mi horóscopo me pronostique alguna ambigüedad.
Ahora, con tu permiso, paso a contribuir con la digitalización...

Responder

¿Es malo tener ahora la tentación de escribir mal siempre la palabra borrosa?

Responder

Interensate artículo

Responder

Y no sólo para el spam sirve el resolver los captchas. Y si no que se lo digan a estos: www.wired.com/threatlevel/2010/10/hacking-captcha/  

Un saludo.

Responder

Martín:

Super-interesante el enlace. Gracias. Lo añadiré al post :-)

¡Nos vemos!

JM

Responder

Si sale este comentario, funciona escribir sólo la palabra más clara e inventarse la otra

Responder

Interesante artículo, jamás habría pensado que esas letritas inofensibas, movieran tanta información/dinero. Un saludo =)

Responder

Japan Jackie Chan

Muy bueno. ^_^

Responder

Para aquellos que quieran seguir conociendo cuestiones sobre el tema, os dejo un post barrapunto.com/article.pl?sid=10/11/25/0832240 que apunta a un estudio de la Universidad de California sobre La economía sumergida de la resolución de CAPTCHAs .

Responder

Estos reCAPTCHA a veces te lo onen dificil, hay algunos ciertamente atn complicados de leer que ni aunque le des al boton de refrescar 12 veces logras apuntarte al foro de las naric...
Pero bueno hay que reconocer que es muy util par evitar SPAM automatizado...aunque solo vale un dolar y poco resolver automaticamente mil reCAPTCHA de estos...

Responder

Interesante

Responder

Spain José Manuel Alarcón

Me hacen llegar esta entrevista con el inventor de los CAPTCHAS, que por lo visto es Guatemalteco:

www.lanacion.com.ar/1431615-luis-von-ahn-el-inventor-silencioso

Responder

Spain José Manuel Alarcón

Este servicio utiliza trabajadores "distribuidos por todo el mundo" (entiendo que en el tercer mundo básicamente, dado el precio que pagan) que resuelve CAPTCHAS por menos de un dólar por cada 1.000 :-O

http://antigate.com/

Tiene que haber de todo...

Responder

Pingbacks and trackbacks (2)+

Agregar comentario