Apple lanza modelos de IA de código abierto que se ejecutan en el dispositivo

Apple lanzó hoy varios modelos de lenguajes grandes (LLM) de código abierto que están diseñados para ejecutarse en dispositivos en lugar de a través de servidores en la nube. Los programas LLM, llamados OpenELM (modelos de lenguaje eficiente de código abierto), están disponibles en La pieza central de la cara abrazada.una comunidad para compartir código de IA.

Como se muestra en el documento técnico. [PDF]Hay ocho modelos OpenELM en total, cuatro de los cuales están preentrenados utilizando la biblioteca CoreNet y cuatro son modelos ajustados por instrucciones. Apple utiliza una estrategia de escalado de capas destinada a mejorar la precisión y la eficiencia.

Apple proporcionó código, registros de entrenamiento y múltiples versiones en lugar de solo el modelo de entrenamiento final, y los investigadores detrás del proyecto esperan que esto conduzca a un progreso más rápido y «resultados más confiables» en el campo de la IA en lenguaje natural.

OpenELM, un modelo de lenguaje abierto en evolución. OpenELM utiliza una estrategia de escalado de capas para asignar parámetros de manera eficiente dentro de cada capa del modelo del transformador, lo que resulta en una precisión mejorada. Por ejemplo, con un presupuesto de parámetros de aproximadamente mil millones de parámetros, OpenELM muestra una mejora del 2,36% en la precisión con respecto a OLMo y requiere el doble de tokens para el entrenamiento previo.

Rompiendo con las prácticas anteriores que solo proporcionan pesos de modelo, código de inferencia y entrenamiento previo en conjuntos de datos privados, nuestra versión incluye el marco completo para entrenar y evaluar el modelo de lenguaje en conjuntos de datos disponibles públicamente, incluidos registros de entrenamiento, múltiples puntos de control y entrenamiento previo. puntos. Configuraciones de entrenamiento.

Apple dice que está lanzando modelos OpenELM para “potenciar y enriquecer la comunidad de investigación abierta” con modelos de lenguaje modernos. Compartir modelos de código abierto ofrece a los investigadores una forma de investigar los riesgos, los datos y los sesgos de los modelos. Los desarrolladores y las empresas pueden utilizar las plantillas tal cual o realizar modificaciones.

READ Las GPU GeForce representan el 80% de los ingresos de EVGA, pero de todos modos están cortando lazos con Nvidia

El intercambio abierto de información se ha convertido en una herramienta importante para que Apple reclute a los mejores ingenieros, científicos y expertos porque brinda oportunidades para trabajos de investigación que normalmente no se habrían publicado según las políticas de confidencialidad de Apple.

Apple aún tiene que incorporar este tipo de capacidades de IA a sus dispositivos, pero se espera que iOS 18 incluya una serie de nuevas funciones de IA, y los rumores sugieren que Apple planea ejecutar sus propios modelos de lenguaje grandes en el dispositivo por motivos de privacidad.

Simón Fraire

«Introvertido. Pensador. Solucionador de problemas. Especialista malvado en cerveza. Propenso a ataques de apatía. Experto en redes sociales. Fanático de la comida galardonado».

El CEO de Arrowhead se disculpa por el bombardeo de Helldivers 2 en Steam: «Sólo quiero hacer grandes juegos»

Manor Lords es lento y frustrante, y no puedo dejar de jugar

El Ferrari de 12 cilindros hace su debut con unos impresionantes 819 caballos de fuerza

El sur de Brasil estuvo expuesto a las peores inundaciones en más de 80 años. Al menos 39 personas murieron

La acusación formal alega que el representante Henry Cuellar y su esposa recibieron casi 600.000 dólares en sobornos.

¿Se le han salido las ruedas a Tesla?

Ryan Gosling tiene una objeción sobre cierta escena de La La Land

Deja una respuesta Cancelar la respuesta

More Stories