Aprendizaje por refuerzo o cómo la psicología conductista está cambiando la IA

Autor: | Posteado en Noticias Sin comentarios

aprendizaje por refuerzoaprendizaje por refuerzo

La inteligencia artificial es especialmente distinto a la inteligencia humana. Y, aun así, entrambos comparten varias similitudes.

aprendizaje por refuerzo

Nuestro cerebro se estructura alrededor de neuronas que reciben y envían documentos de forma simultánea. Pero en una IA, ambos procesos están bien diferenciados. En el órgano humano no existe separación entre hardware y software, ni tampoco hay una infraestructura de archivamiento parecido a un disco duro. Además, el cerebro se articula en el caos y esta organizado para adaptarse a un entorno imprevisible.

A nivel estructura, no parece haber mas que diferencias. Lo mismo sucede si examinamos su funcionamiento. La capacidad operacional, la rapidez y la precisión de la IA jamás podrán ser alcanzadas por una inteligencia humana. Sin embargo, la IA (por ahora) flaquea si la sacamos de trabajos monótonos y si no cuenta con documentos con cierta estructura. Además, el argumento y las emociones tampoco son lo suyo.

Pero es en la forma de estudiar donde hallamos ciertas similitudes. No en vano, quienes diseñan las inteligencias artificiales se inspiran en la ciencia del aprendizaje humano. Y así es como la psicología conductista se coló en el desarrollo del machine learning.

Una campana y una partida de Go

deep reinforcement learning en una partida de go

La historia del perro de Pávlov es, probablemente, una de las mas conocidas de la historia de la psicología. Esa que dice que Iván Pávlov demostró que un perro podía salivar ante el mero tañido de una campana (aunque, en realidad, nunca existió tal campana, fue un metrónomo) porque asociaba el sonido a comida. Es decir, probó que se podía reforzar la respuesta a un estímulo y se transformó en uno de los padres de la psicología conductista.

Casi un siglo mas tarde de los experimentos de Pávlov, una inteligencia artificial logró crear uso del conductismo y, en particular, del reforzamiento positivo, para ganar una partida de Go. En 2016, AlphaGo, construido por el distrito Google® DeepMind, sumaba la 1ª victoria de las máquinas a Go, un videojuego milenario que hasta ese instante se había resistido a la inteligencia artificial debido a su complejidad.

Esa victoria significó un antes y un después en el aprendizaje por refuerzo (RL, por sus siglas en inglés), un área de machine learning basada en el conductismo que busca que una IA sea apto de elegir determinadas acciones para alcanzar una recompensa. La inteligencia artificial prueba varias soluciones, analiza la reacción y obtiene adaptarse para elegir la preferible estrategia.

El futuro es del deep reinforcement learning

drl en conducción autónoma

El aprendizaje por refuerzo no es precisamente nuevo, sin embargo como todo lo vinculado con la inteligencia artificial se ha construido de forma exponencial en la ultima década. El potencial de este prototipo de machine learning reside en su capacidad para operar en entornos dificiles y adaptarse. Es decir, logra que la inteligencia artificial se parezca un poquito mas a la inteligencia humana.

La IA de AlphaGo logró ganar a Lee Sedol, uno de los mejores jugadores de Go del mundo, combinando el poder del aprendizaje por refuerzo con las redes neuronales, el llamado deep reinforcement learning o DLR. AlphaGo se entrenó mediante redes neuronales para imitar a los jugadores humanos y despues practicó consigo misma mediante aprendizaje por refuerzo hasta alcanzar ser practicamente imbatible.

Sobre la base del DLR se están fabricando hoy varias de las programas mas prometedoras de la inteligencia artificial.

La innovacion de la movilidad

Si pensamos en el futuro de la movilidad, el coche autónomo acapara casi toda nuestra imaginación. Para crear realidad la conducción autónoma, la IA tiene que estudiar a imitar el comportamiento humano al volante y, al mismo tiempo, aprender a reaccionar a un entorno complejo y cambiante, adaptándose a cada situación.

En este escenario, el deep reinforcement learning es uno de los enfoques mas utilizados por las industrias que lideran este nuevo sector, como Tesla. O la startup inglesa Wayve, que ha comprobado cómo, mediante DRL, se puede educar a un coche a conducir en menos de una hora. Como se puede visualizar en el vídeo, tras once correcciones humanas, la IA practica a llevar el coche en linea recta.

La empresa y la automatización

El entorno industrial además es complejo y cambiante. Para recorrer en la automatización real de las fábricas y en la participación entre individuos y robots, el aprendizaje por refuerzo esta cobrando cada vez mas importancia.

La startup Bonsai, comprada por Microsoft® hace 2 años, ha desarrollado, por ejemplo, una plataforma de DRL para que una fábrica concreta pueda entrenar inteligencias artificiales que cubran sus necesidades sin obligación de desarrollarla desde cero. El prototipo de aprendizaje asegurado además se esta usando para mejorar la experiencia de los robots y que así sean capaces de manipular todo tipo de objetos físicos sin riesgos.

El acceso del deep reinforcement learning no es el único en el futuro de la IA. Pero sí uno de los mas prometedores. Uno en el que la inteligencia artificial trata parecerse un poco mas a la inteligencia humana, sin perder las funciones que la crean única.

Por Juan F. Samaniego

Imágenes | Unsplash/Mina FC, Gabe Pierce, Pixabay/OrcaTec

The post(noticia) Aprendizaje por refuerzo o como la psicología conductista esta modificando la IA appeared first on El blogger de Orange.

El blogger de Orange



El mejor truco del día para Android


Todo material (imágenes, texto y vídeo) para crear este artículo, pertenece a la Fuente Original que aparece arriba.

(No hemos eliminado ningún enlace original)

También puedes revisar estas noticias relacionadas.

Agrega tu comentario