Apr 24, 2023
LlamaIndex agrega datos privados a grandes modelos de lenguaje
El otoño pasado, después de jugar con el modelo de IA generador de texto GPT-3 de OpenAI:
El otoño pasado, después de jugar con el modelo de IA generador de texto GPT-3 de OpenAI, el predecesor de GPT-4, el ex científico investigador de Uber, Jerry Liu, descubrió lo que describe como "limitaciones" en torno a la capacidad del modelo para trabajar con datos privados (por ejemplo, archivos personales). Para resolver esto, lanzó un proyecto de código abierto, LlamaIndex, diseñado para desbloquear las capacidades y casos de uso de modelos de lenguaje extenso (LLM) como GPT-3 y GPT-4.
"Los LLM ofrecen capacidades increíbles para la extracción de conocimiento y el razonamiento: pueden responder preguntas, resumir y extraer información e incluso tomar decisiones secuenciales con un entorno externo", dijo Liu a TechCrunch en una entrevista por correo electrónico. "Pero los LLM tienen límites".
A medida que el proyecto creció en popularidad (por una suma de 200,000 descargas mensuales), Liu unió fuerzas con Simon Suo, uno de sus antiguos colegas en Uber, para convertir LlamaIndex en una empresa de pleno derecho. Hoy, LlamaIndex (la empresa) ofrece un marco para ayudar a los desarrolladores a aprovechar las capacidades de los LLM además de sus datos personales u organizacionales.
"LlamaIndex [ayuda] a los desarrolladores a administrar sus datos para aplicaciones LLM", dijo Liu. "Nuestro conjunto de herramientas contiene la mayor profundidad en este aspecto y facilitamos la integración con otras herramientas que utiliza el desarrollador".
Créditos de imagen:LlamaIndex
El marco LlamaIndex permite a los desarrolladores conectar datos de archivos como PDF, PowerPoint, aplicaciones como Notion y Slack y bases de datos como Postgres y MongoDB a LLM. El marco incluye conectores para ingerir fuentes de datos y formatos de datos, así como formas de estructurar datos para que puedan usarse fácilmente con LLM.
Además, LlamaIndex presenta una interfaz de consulta y recuperación de datos que permite a los desarrolladores ingresar cualquier solicitud de entrada de LLM para obtener, como lo describe Liu, una salida de "contexto y conocimiento aumentado".
"Existen otros marcos de aplicación de LLM que ofrecen bloques de construcción básicos para aplicaciones y agentes de LLM", dijo Liu. "Lo que es específico de LlamaIndex es que nos enfocamos en conectar sus fuentes de datos con LLM, y tenemos herramientas extensas sobre la ingesta de datos, la gestión e indexación de datos y la recuperación de datos con respecto a las aplicaciones LLM".
La perspectiva de aumentar los LLM de esta manera atrajo a los inversores, que comprometieron $ 8,5 millones para LlamaIndex en una ronda de financiación inicial recientemente cerrada. Greylock lideró con la participación de inversionistas ángeles, incluidos Jack Altman, Lenny Rachitsky y Charles Xie.
Entonces, ¿en qué gastará el dinero LlamaIndex? Liu dice que se usará para construir una "solución empresarial" sobre el proyecto de código abierto LlamaIndex, que se lanzará más adelante este año. Una capacidad permitirá a los clientes usar conectores de datos de "grado de protección" para analizar y transportar grandes volúmenes de datos, mientras que otra capacidad relacionada les permitirá indexar datos "específicos del dominio".
"LlamaIndex no está vinculado a una tecnología específica, por lo que podemos seguir usándonos con LLM a medida que la tecnología evoluciona", dijo Liu. "La industria de la IA se está moviendo tan rápido que cualquier pila inicial que surja probablemente cambiará en el transcurso de los próximos meses".
Créditos de imagen: