Brave anunció su nuevo motor de búsqueda de IA centrado en la privacidad llamado Answer with AI que funciona con su propio índice de búsqueda de miles de millones de sitios web. Su motor de búsqueda actual ya atiende 10 mil millones de consultas de búsqueda por año, lo que significa que el motor de búsqueda impulsado por inteligencia artificial de Brave es ahora uno de los motores de búsqueda de inteligencia artificial más grandes en línea.
Muchos en las comunidades de marketing de búsqueda y comercio electrónico han expresado ansiedad sobre el futuro de la web debido a los motores de búsqueda de inteligencia artificial. El motor de búsqueda de IA de Brave todavía muestra enlaces y, lo más importante, no responde de forma predeterminada consultas comerciales o transaccionales con IA, lo que debería ser una buena noticia para los SEO y las empresas en línea. Brave valora el ecosistema web y monitoreará los patrones de visitas al sitio web.
Search Engine Journal habló con Josep M. Pujol, jefe de búsqueda de Brave, quien respondió preguntas sobre el índice de búsqueda, cómo funciona con la IA y, lo más importante, compartió lo que los SEO y los propietarios de empresas necesitan saber para mejorar las clasificaciones.
La respuesta con IA está impulsada por Brave
A diferencia de otras soluciones de búsqueda de IA, el motor de búsqueda de IA de Brave funciona completamente con su propio índice de búsqueda de sitios web rastreados y clasificados. Brave desarrolla toda la tecnología subyacente, desde el índice de búsqueda hasta los modelos de lenguaje grande (LLM) e incluso la tecnología de generación aumentada de recuperación (RAG). Esto es especialmente bueno desde el punto de vista de la privacidad y también hace que los resultados de búsqueda de Brave sean únicos, distinguiéndolos aún más de otras alternativas de motor de búsqueda yo también.
Tecnología de búsqueda
El motor de búsqueda en sí se realiza internamente. Según Josep M. Pujol, jefe de Búsqueda de Valiente:
“Tenemos acceso en tiempo de consulta a todos nuestros índices, más de 20 mil millones de páginas, lo que significa que estamos extrayendo información arbitraria en tiempo real (esquemas, tablas, fragmentos, descripciones, etc.). Además, somos muy detallados sobre qué datos usar, desde párrafos o textos completos en una página hasta oraciones individuales o filas en una tabla.
Dado que tenemos a nuestra disposición todo un motor de búsqueda, la atención no se centra en la búsqueda, sino en la selección y clasificación. Además, para las páginas de nuestro índice, tenemos acceso a la misma información que se utiliza para clasificar, como puntuaciones, popularidad, etc. Esto es vital para ayudar a seleccionar qué fuentes son más relevantes”.
Recuperación de Generación Aumentada (RAG)
La forma en que funciona el motor de búsqueda es que tiene un índice de búsqueda y grandes modelos de lenguaje, además de tecnología de recuperación de generación aumentada (RAG) intermedia que mantiene las respuestas actualizadas y basadas en hechos. Pregunté por RAG y Josep me confirmó que así funciona.
Él respondió:
“Tiene razón en que nuestra nueva función utiliza RAG. De hecho, ya hemos estado usando esta técnica en nuestra función de resumen anterior lanzada en marzo de 2023. Sin embargo, en esta nueva función, estamos ampliando tanto la cantidad como la calidad de los datos utilizados en el contenido del mensaje. “
Modelos de lenguaje grandes utilizados
Pregunté sobre los modelos de lenguaje que se utilizan en el nuevo motor de búsqueda de IA y cómo se implementan.
“Los modelos se implementan en instancias de AWS p4 con VLLM.
Utilizamos una combinación de Mixtral 8x7B y Mistral 7B como modelo principal de LLM.
Sin embargo, también ejecutamos múltiples modelos de transformadores entrenados personalizados para tareas auxiliares como la coincidencia semántica y la respuesta a preguntas. Esos modelos son mucho más pequeños debido a los estrictos requisitos de latencia (10-20 ms).
Esas tareas auxiliares son cruciales para nuestra función, ya que son las que seleccionan los datos que terminarán en el mensaje final de LLM; Estos datos pueden ser fragmentos de texto que dependen de la consulta, esquemas, datos tabulares o datos estructurados internos provenientes de nuestros fragmentos enriquecidos. No se trata de poder recuperar una gran cantidad de datos, sino de seleccionar los candidatos que se agregarán al contexto del mensaje.
Por ejemplo, la consulta “presidentes de Francia por partido” procesa 220 KB de datos sin procesar, incluidas 462 filas seleccionadas de 47 tablas y 7 esquemas. El tamaño del mensaje es de alrededor de 6500 tokens y la respuesta final es de apenas 876 bytes.
En resumen, se podría decir que con “Responder con IA” pasamos de 20 mil millones de páginas a unos pocos miles de tokens”.
Cómo funciona la IA con los resultados de búsqueda locales
A continuación pregunté cómo el nuevo motor de búsqueda mostrará la búsqueda local. Le pregunté a Josep si podía compartir algunos escenarios y consultas de ejemplo en las que el motor de respuestas de IA mostraría empresas locales. Por ejemplo, si pregunto por las mejores hamburguesas de San Francisco, ¿el motor de respuesta de IA me proporcionará una respuesta y enlaces a ella? ¿Será útil para las personas que hacen planes de viajes de negocios o de vacaciones?
Josep respondió:
“El índice Brave Search tiene más de mil millones de esquemas basados en la ubicación, de los cuales podemos extraer más de 100 millones de empresas y otros puntos de interés.
Responder con IA es un término general para Búsqueda + LLM + múltiples modelos y servicios de aprendizaje automático especializados para recuperar, clasificar, limpiar, combinar y representar información. Mencionamos esto porque los LLM no toman todas las decisiones. A partir de ahora, los usamos predominantemente para sintetizar información estructurada y no estructurada, lo que ocurre tanto en operaciones fuera de línea como en tiempo de consulta.
A veces, el resultado final parece muy influenciado por el LLM (este es el caso cuando creemos que la respuesta a la pregunta del usuario es un único punto de interés, por ejemplo, “checkin faro Cuisine”, y otras veces su trabajo es más sutil (por ejemplo, “las mejores hamburguesas”). sf”), generando una descripción de la empresa a través de diferentes referencias web o consolidando una categoría para la empresa en una taxonomía consistente”.
Consejos para clasificar bien
Luego le pregunté si el uso de datos estructurados de Schema.org era útil para ayudar a que un sitio tuviera una mejor clasificación en Brave y si tenía algún otro consejo para SEO y negocios en línea.
Él respondió:
“Definitivamente, prestamos especial atención a los datos estructurados de Schema.org al crear el contexto del mensaje LLM. Lo mejor es tener datos estructurados sobre su negocio (esquemas estándar de esquema.org). Cuanto más completos sean esos esquemas, más precisa será la respuesta.
Dicho esto, nuestra Respuesta con IA podrá mostrar datos sobre el negocio que no estén también en esos esquemas, pero siempre es recomendable repetir la información en diferentes formatos.
Algunas empresas sólo dependen de agregadores (Yelp, Tripadvisor, Páginas Amarillas) para obtener información comercial. Hay ventajas al agregar esquemas al sitio web empresarial, incluso aunque solo sea para robots de rastreo”.
Planes para la búsqueda con IA en The Brave Browser
Brave compartió que en algún momento en el futuro cercano integrarán la nueva función de búsqueda de IA directamente en Brave Browser.
Josep explicó:
“Planeamos integrar el motor de respuesta de IA con Brave Leo (el asistente de IA integrado en el navegador Brave) muy pronto. Los usuarios tendrán la opción de enviar la respuesta a Leo y continuar la sesión allí”.
Otros hechos
El anuncio de Brave también compartió estos datos sobre el nuevo motor de búsqueda:
“Las respuestas generativas de Brave Search no son solo texto. La profunda integración entre el índice y el modelo nos permite combinar enriquecimientos de entidades nombradas, contextuales y en línea (un proceso que agrega más contexto a una persona, lugar o cosa) a medida que se genera la respuesta. Esto significa que las respuestas combinan texto generativo con otros tipos de medios, incluidas tarjetas e imágenes informativas.
El motor de respuestas de Brave Search puede incluso combinar datos del índice y resultados geográficos locales para proporcionar información valiosa sobre puntos de interés. Hasta la fecha, el índice Brave Search tiene más de mil millones de esquemas basados en la ubicación, de los cuales podemos extraer más de 100 millones de empresas y otros puntos de interés. Estos listados, más grandes que cualquier conjunto de datos públicos, significan que el motor de respuestas puede proporcionar resultados completos e instantáneos para puntos de interés en todo el mundo”.
Pruebe la nueva búsqueda de IA en http://search.brave.com/