MolmoMotion: Predicción de movimiento 3D guiada por lenguaje
Se ha desarrollado un modelo de predicción de movimiento 3D guiado por lenguaje llamado MolmoMotion. Este modelo puede predecir el movimiento de objetos en 3D a partir de una imagen, puntos marcados en un objeto y una descripción escrita de la acción deseada.
El modelo MolmoMotion utiliza una representación de movimiento eficiente, basada en puntos 3D adjuntos a objetos en el espacio mundial. Esta representación es agnóstica de clase, estable en la vista y directamente utilizable por sistemas que necesitan razonar sobre el movimiento físico. El modelo puede describir motiones rígidas, articuladas y deformables sin asumir el tipo de objeto que se está moviendo.
“Los pesos del modelo, el conjunto de datos MolmoMotion-1M y el benchmark PointMotionBench se han publicado abiertamente para que la comunidad los estudie, mejore y personalice”
MolmoMotion se entrena en dos variantes: una autoregresiva que predice las coordenadas futuras paso a paso, y otra que predice la trayectoria completa de antemano. El modelo se evalúa utilizando un conjunto de datos llamado MolmoMotion-1M, que contiene 1,16 millones de videos con descripciones de acciones y trayectorias 3D de puntos. También se utiliza un benchmark llamado PointMotionBench, que contiene 2.700 clips de video validados por humanos para medir la precisión de la predicción de movimiento 3D.
El modelo MolmoMotion puede ser útil en una variedad de tareas, como la planificación de robots y la generación de videos condicionados por trayectorias. Los pesos del modelo, el conjunto de datos MolmoMotion-1M y el benchmark PointMotionBench se han publicado abiertamente para que la comunidad los estudie, mejore y personalice. El desarrollo de MolmoMotion puede tener un impacto significativo en la creación de sistemas que necesitan predecir y entender el movimiento en 3D, como robots y generadores de videos.
La empresa Allen Institute for Artificial Intelligence, que desarrolló MolmoMotion, es una organización de investigación sin fines de lucro que se enfoca en el desarrollo de inteligencia artificial y su aplicación en diversas áreas, como la robótica y la generación de videos. El modelo MolmoMotion es uno de los proyectos de la empresa, que busca avanzar en el estado del arte de la predicción de movimiento 3D y su aplicación en diversas industrias.
En resumen, MolmoMotion es un modelo de predicción de movimiento 3D guiado por lenguaje que puede predecir el movimiento de objetos en 3D a partir de una imagen, puntos marcados en un objeto y una descripción escrita de la acción deseada. El modelo tiene un gran potencial para ser utilizado en diversas tareas, como la planificación de robots y la generación de videos condicionados por trayectorias, y su desarrollo puede tener un impacto significativo en la creación de sistemas que necesitan predecir y entender el movimiento en 3D.