Se informó que OpenAI está trabajando en un motor de búsqueda que desafiaría directamente a Google. Pero los detalles que faltan en el informe plantean dudas sobre si OpenAI está creando un motor de búsqueda independiente o si hay otra razón para el anuncio.
Informe de búsqueda web de OpenAI
El informe publicado en The Information relata que OpenAI está desarrollando un producto de búsqueda web que competirá directamente con Google. Un detalle clave del informe es que estará impulsado en parte por Bing, el motor de búsqueda de Microsoft. Aparte de eso, no hay otros detalles, ni siquiera si será un motor de búsqueda independiente o se integrará en ChatGPT.
Todos los informes señalan que será un desafío directo a Google, así que comencemos por ahí.
1. ¿OpenAI está representando un desafío para Google?
Se dice que OpenAI está utilizando la búsqueda de Bing como parte del rumoreado motor de búsqueda, una combinación de un GPT-4 con Bing Search, más algo en el medio para coordinar entre los dos.
En ese escenario, lo que OpenAI no está haciendo es desarrollar su propia tecnología de indexación de búsqueda, sino utilizar Bing.
Lo que le queda entonces a OpenAI para crear un motor de búsqueda es idear cómo interactúa la interfaz de búsqueda con GPT-4 y Bing.
Y ese es un problema que Bing ya ha resuelto utilizando lo que Microsoft llama capa de orquestación. Bing Chat utiliza generación de recuperación aumentada (RAG) para mejorar las respuestas agregando datos de búsqueda web para usarlos como contexto para las respuestas que crea GPT-4. Para obtener más información sobre cómo funcionan la orquestación y RAG, vea el discurso de apertura en el evento Microsoft Build 2023 de Kevin Scott, director de tecnología de Microsoft, en el minuto 31:45 aquí).
Si OpenAI está creando un desafío para la Búsqueda de Google, ¿qué le queda exactamente por hacer a OpenAI que Microsoft no esté haciendo ya con Bing Chat? Bing es una tecnología de búsqueda madura y experimentada, una experiencia que OpenAI no tiene.
¿OpenAI está desafiando a Google? Una respuesta más plausible es que Bing está desafiando a Google a través de OpenAI como proxy.
2. ¿OpenAI tiene el impulso para desafiar a Google?
ChatGPT es la aplicación de más rápido crecimiento de todos los tiempos, actualmente cuenta con alrededor de 180 millones de usuarios, logrando en dos meses lo que tomó años para Facebook y Twitter.
Sin embargo, a pesar de esa ventaja, la ventaja de Google es una colina empinada que debe escalar OpenAI. Considere que Google tiene aproximadamente entre 3 y 4 mil millones de usuarios en todo el mundo, eclipsando absolutamente los 180 millones de OpenAI.
Suponiendo que los 180 millones de usuarios de OpenAI realizaran un promedio de 4 búsquedas por día, el número diario de búsquedas podría alcanzar los 720 millones de búsquedas por día.
Statista estima que hay 6,3 millones de búsquedas en Google por minuto, lo que equivale a más de 9 mil millones de búsquedas por día.
Si OpenAI quiere competir, tendrá que ofrecer un producto útil con una razón convincente para usarlo. Por ejemplo, Google y Apple tienen una audiencia cautiva en el ecosistema de dispositivos móviles que los integra en la vida diaria de sus usuarios, tanto en el trabajo como en casa. Es bastante evidente que no basta con crear un motor de búsqueda para competir.
De manera realista, ¿cómo puede OpenAI alcanzar ese nivel de ubicuidad y utilidad?
OpenAI se enfrenta a una batalla cuesta arriba no sólo contra Google sino también contra Microsoft y Apple. Si contamos las aplicaciones y dispositivos de Internet de las cosas, agreguemos a Amazon a esa lista de competidores que ya tienen presencia en la vida diaria de miles de millones de usuarios.
OpenAI no tiene el impulso para lanzar un motor de búsqueda que compita con Google porque no tiene el ecosistema para respaldar la integración en la vida de los usuarios.
3. OpenAI carece de experiencia en recuperación de información
La búsqueda se conoce formalmente como recuperación de información (IR) en artículos de investigación y patentes. Ninguna búsqueda en el repositorio de artículos de investigación de Arxiv.org mostrará artículos escritos por investigadores de OpenAI relacionados con la recuperación de información. Lo mismo puede decirse de la búsqueda de patentes relacionadas con la recuperación de información (IR). La lista de trabajos de investigación de OpenAI también carece de estudios relacionados con las RI.
No es que OpenAI esté siendo reservado. OpenAI tiene una larga trayectoria en la publicación de artículos de investigación sobre las tecnologías que están desarrollando. La investigación sobre RI no existe. Entonces, si OpenAI realmente planea lanzar un desafío a Google, ¿dónde está el humo de ese incendio?
Es razonable suponer que la búsqueda no es algo que OpenAI esté desarrollando en este momento. No hay señales de que esté siquiera coqueteando con la creación de un motor de búsqueda, no hay nada ahí.
4. ¿Es el motor de búsqueda OpenAI un proyecto de Microsoft?
Existe evidencia sustancial de que Microsoft está investigando intensamente cómo utilizar los LLM como parte de un motor de búsqueda.
Todos los siguientes trabajos de investigación están clasificados como pertenecientes a los campos de recuperación de información (también conocida como búsqueda), inteligencia artificial y computación del lenguaje natural.
Aquí hay algunos artículos de investigación de 2024:
Mejora de la anotación humana: aprovechamiento de grandes modelos de lenguaje y procesamiento por lotes eficiente
Se trata de utilizar IA para clasificar consultas de búsqueda.
Extracción de entidades estructuradas utilizando modelos de lenguaje grandes
Este artículo de investigación descubre una forma de extraer información estructurada de texto no estructurado (como páginas web). Es como convertir una página web (datos no estructurados) a un formato comprensible para una máquina (datos estructurados).
Mejora de la incrustación de texto con modelos de lenguaje grandes (versión PDF aquí)
Este artículo de investigación analiza una forma de obtener incrustaciones de texto de alta calidad que pueden usarse para la recuperación de información (IR). Las incrustaciones de texto son una referencia a la creación de una representación de texto de una manera que los algoritmos puedan utilizar para comprender los significados semánticos y las relaciones entre las palabras.
El trabajo de investigación anterior explica el uso:
“Las incrustaciones de texto son representaciones vectoriales del lenguaje natural que codifican su información semántica. Se utilizan ampliamente en diversas tareas de procesamiento del lenguaje natural (PNL), como la recuperación de información (IR), la respuesta a preguntas, etc. En el campo de IR, la recuperación de la primera etapa a menudo se basa en incrustaciones de texto para recuperar de manera eficiente un pequeño conjunto de documentos candidatos de un corpus a gran escala utilizando técnicas de búsqueda aproximada del vecino más cercano”.
Hay más investigaciones realizadas por Microsoft relacionadas con la búsqueda, pero estas son las que están específicamente relacionadas con la búsqueda junto con modelos de lenguaje grandes (como GPT-4.5).
Seguir el rastro de las migas de pan conduce directamente a Microsoft como la tecnología que impulsa cualquier motor de búsqueda que se supone que OpenAI está planeando… si ese rumor es cierto.
5. ¿Está el rumor destinado a robarle la atención a Géminis?
El rumor de que OpenAI está lanzando un motor de búsqueda competidor se publicó el 14 de febrero. Al día siguiente, 15 de febrero, Google anunció el lanzamiento de Gemini 1.5, luego de anunciar Gemini Advanced el 8 de febrero.
¿Es una coincidencia que el anuncio de OpenAI eclipsara por completo el anuncio de Gemini al día siguiente? El momento es increíble.
A estas alturas el motor de búsqueda OpenAI es sólo un rumor.
Imagen destacada de Shutterstock/rafapress