Microsoft está enseñando sistemas para leer, responder e incluso hacer preguntas.

La Inteligencia Artificial en todo su potencial.

Publicado el 23/11/2018

Microsoft está enseñando sistemas para leer, responder e incluso hacer preguntas.

Los investigadores de Microsoft ya han creado una tecnología que puede realizar dos tareas difíciles tanto como una persona: identificar imágenes y reconocer palabras en una conversación .

Ahora, los principales expertos en inteligencia artificial de la compañía están trabajando en sistemas que pueden hacer algo aún más complejo: leer pasajes de texto y responder preguntas sobre ellos.

"Estamos tratando de desarrollar lo que llamamos una máquina alfabetizada: una máquina que puede leer texto, entender texto y luego aprender a comunicarse, ya sea escrito u oral", dijo Kaheer Suleman, cofundador de Maluuba , un Quebec basado en el inicio de aprendizaje profundo que Microsoft adquirió a principios de este año.

El equipo de Maluuba es uno de los varios grupos de Microsoft que están abordando el desafío de la lectura automática. Otros dos equipos de investigación, uno en la sede de la compañía en Redmond, Washington, y el otro en su laboratorio de investigación de Beijing, China, lideran actualmente una competencia dirigida por la Universidad de Stanford que usa información de Wikipedia para probar qué tan bien los sistemas de inteligencia artificial pueden responder preguntas sobre pasajes de texto.

El llamado conjunto de datos SQuAD es el punto de referencia central para el campo emergente de la lectura automática, y muchos equipos académicos y de la industria líderes lo están utilizando para probar sus sistemas. Es similar a la competencia de ImageNet que impulsó los avances en la visión por computadora.

Los investigadores de Microsoft y otros expertos de la industria y académicos también compiten por los mejores resultados utilizando otro conjunto de datos, llamado MS MARCO , que utiliza datos reales y anónimos de las consultas de búsqueda de Bing para probar la capacidad de un sistema para responder una pregunta.

Los equipos dicen que es un desafío adicional porque se basa en las preguntas del mundo real de las personas. Las pruebas en ese tipo de datos ayudan a garantizar que los sistemas que están construyendo finalmente serán útiles para los clientes reales.

“No solo vamos a construir un montón de algoritmos para resolver problemas teóricos. Los estamos utilizando para resolver problemas reales y probándolos en datos reales ", dijo Rangan Majumder, gerente de programas de un grupo asociado dentro de la división Bing de Microsoft. Está trabajando estrechamente con el equipo de investigación de lectura de máquinas de Redmond y lideró el desarrollo del conjunto de datos MS MARCO.

Cognición versus percepción

En general, los expertos en inteligencia artificial dicen que la lectura automática es más difícil que otras tareas de inteligencia artificial, como el reconocimiento de imágenes, porque hay mucha más ambigüedad.

Ming Zhou, director gerente adjunto de Microsoft Research Asia en Beijing, quien dirige el Grupo de Investigación en Lenguaje Natural, dijo que las habilidades como el reconocimiento de imágenes son tareas de percepción: el sistema utiliza un algoritmo de aprendizaje automático para reconocer una imagen basada en todas las imágenes que ha visto antes .

La lectura de máquinas es más una tarea cognitiva: requiere que el sistema también tome una visión de conjunto, busque el contexto de las palabras que está leyendo y quizás incluso aporte algunos conocimientos previos que ya tiene sobre el tema.

"Algunas palabras pueden significar cosas diferentes, y las mismas cosas pueden mencionarse de diferentes maneras", dijo Zhou.

Otra complicación: la respuesta puede no contener todas, o incluso ninguna, de las palabras de la pregunta.

Por ejemplo, digamos que alguien hace la pregunta: "¿Cuál es la ciudadanía de John Smith?" La respuesta podría ser "John Smith nació en los Estados Unidos" o "Tiene un pasaporte de los Estados Unidos". En cualquier caso, el sistema debe tener un aspecto Para, y use, información que se relaciona con una pregunta sobre ciudadanía pero que no puede decir explícitamente esa palabra.

"Tiene que generar una respuesta, no es como si la respuesta ya estuviera ahí", dijo Jianfeng Gao, gerente de investigación asociado en el Centro de tecnología de aprendizaje profundo de Microsoft.

Suleman, el cofundador de Maluuba, señaló que esto es exactamente cómo las personas prueban si otras personas han aprendido algo: hacen preguntas, comenzando cuando los humanos son bebés y continúan durante la mayor parte de la educación de una persona.

Fue un análisis más profundo de cómo aprendió la gente lo que llevó a su equipo a llevar la tarea de lectura automática un paso más allá: están trabajando en un sistema que puede leer un pasaje y formular una pregunta al respecto, en lugar de una respuesta. El trabajo se inspiró en una investigación a principios de la década de 1980 que mostraba que a los estudiantes a los que se les pedía que escribieran preguntas sobre un tema en general les iba mejor en las pruebas de preguntas y respuestas.

"Lo que es interesante es que realmente necesita una comprensión mucho más profunda del texto para generar una pregunta en lugar de una respuesta", dijo Suleman.

El fin del buscador como lo conocemos.

La lectura de máquinas es un desafío seductor porque podría ser muy útil para muchas personas.

Por ejemplo, un sistema eficaz de lectura de máquinas podría mejorar el funcionamiento de los motores de búsqueda. En lugar de escribir una consulta y obtener una lista de enlaces azules para ordenar, un sistema avanzado de lectura de máquinas podría responder de la misma forma que lo haría una persona muy informada cuando se le formula una pregunta.

"Ofrece la información de forma natural", dijo Gao.

Eso es algo que la mayoría de los motores de búsqueda solo pueden hacer para consultas muy básicas en este momento, y no es algo que ningún humano pueda replicar para toda la información del mundo.

Los sistemas de lectura mecánica también podrían ayudar a los médicos, abogados y otros expertos a superar con más rapidez la monotonía de cosas como leer documentos para hallazgos médicos específicos o un precedente legal enrarecido. Eso dejaría a los expertos más tiempo para enfocarse en tratar a los pacientes o formular defensas legales.

También podría ayudar a las personas a encontrar más rápidamente información oculta en los manuales de automóviles o en las regulaciones fiscales, ahorrando tiempo y frustración.

"Hay mucha información en todo el mundo, especialmente en Internet", dijo Gao. “Para que sea útil, necesitas convertir la información en conocimiento. La tecnología que puede cerrar esa brecha es la lectura automática ".

Décadas de investigación, avances recientes.

Las raíces del trabajo de lectura automática de Microsoft se remontan a casi dos décadas, al trabajo inicial que los investigadores de la empresa hicieron en el campo del procesamiento del lenguaje natural. En ese momento, Bill Dolan, un investigador principal de Microsoft que trabaja en el procesamiento del lenguaje natural, bromeó diciendo que los sistemas "funcionaban a la perfección, pero no muy a menudo".

Aún así, ese trabajo fundamental ahora se está incorporando en los algoritmos que el equipo de Redmond está utilizando para sus avances más recientes en lectura mecánica, y también ha sido la base de otro trabajo innovador que Dolan y su equipo han logrado en el procesamiento del lenguaje natural.

Al igual que muchos avances de AI en los últimos años, la lectura automática se ha beneficiado de la tríada de mejores algoritmos de aprendizaje profundo, un aumento masivo en el poder de computación basada en la nube para ejecutar esos algoritmos y enormes cantidades de datos para aprender y probar.

Los investigadores dicen que esas capacidades, junto con los avances en los métodos de aprendizaje profundo del trabajo en áreas como la imagen y el reconocimiento de voz, los han llevado a un punto en el que se sienten seguros de que hay avances significativos en la lectura de máquinas en el horizonte. Eso es algo de lo que muchos aún se maravillan.

"Es un sueño a largo plazo para los investigadores en el procesamiento del lenguaje natural e incluso para la inteligencia artificial", dijo Furu Wei, investigador principal del Grupo de Procesamiento del Lenguaje Natural en Microsoft Research Asia.

Sin embargo, los investigadores advierten que todavía hay mucho trabajo por hacer para crear sistemas que puedan comprender verdaderamente las peticiones humanas, tanto en términos de lenguaje como de matices.

En general, los sistemas de inteligencia artificial todavía son buenos en tareas muy específicas. Pueden encontrar la respuesta correcta a una pregunta, identificar correctamente una raza de perro o el estado emocional de una persona, o entender las palabras en una conversación. Pero, señalan los investigadores, eso no significa que comprendan la información de la misma manera que lo haría una persona, con todos los matices sutiles y el contexto que hemos aprendido desde el nacimiento.

Wei notó que incluso si los equipos de lectura automática pueden llegar a un punto en el que sus sistemas se desempeñen tan bien como una persona en el conjunto de datos SQuAD, esto no significará que los sistemas puedan realmente leer y comprender como una persona. Eso es un reto para el futuro.

"Este es un pequeño paso hacia el enorme desafío de la comprensión del lenguaje natural", dijo Zhou.

fuente: Microsoft