El profesional de la información


Diciembre 1995

Indices para realizar búsquedas en Internet

Por José A. Senso

El imparable crecimiento que ha experimentado Internet en los últimos años, y más concretamente el World Wide Web, ha sido el causante de que cada vez cueste más trabajo poder manejar la gran cantidad de información que hay en la Red.

En 1991 apareció el sistema gopher. Con él se abría un campo de posibilidades impresionante. Tanto fue así que, tras su vertiginosa progresión, hubo que idear un mecanismo que facilitase la búsqueda de información dentro de lo que se denominó el gopherespacio, y así nació Verónica.

De forma simultánea se fue generalizando el uso de WWW, que le superó en prestaciones (v. IWE-29, p. 25). Su crecimiento fue aún mayor, y en poco tiempo el número de páginas WWW alcanzó una cifra desorbitante. Es precisamente esa ingente cantidad de información la que hacía que fuese casi imposible conocer qué había en la Red sobre un tema en concreto.

Fue entonces cuando comenzaron a aparecer herramientas que, empleando sistemas similares a los utilizados por la industria online, permitían realizar búsquedas sobre temas concretos a lo largo y ancho del WWW.

De ahí surgieron conceptos como "robots", "arañas" y "errantes" o "vagabundos" (robots, spiders and wanderers) términos que, de hecho, vienen a significar la misma cosa.

Cada sistema tiene su propia forma de trabajar. Lo más común es que los robots recojan páginas WWW y las almacenen en una base de datos, que es la que se consulta cuando el usuario realiza la búsqueda.

Si alguien está interesado en obtener más información sobre la forma de funcionar de los robots existe un foro de discusión en Internet sobre el tema. Para suscribirse hay que enviar un mensaje a:

robots‑request ARROBA webcrawler.com

que contenga la palabra subscribe en el cuerpo del mensaje.

Durante el último año estos sistemas han proliferado, ofreciendo cada uno opciones y posibilidades diferentes. Por eso creo que es interesante examinar algunos de ellos para esclarecer qué nos pueden ofrecer a los documentalistas. No se trata de un repaso exhaustivo. Por eso índices como CUI, Niss, Nikos, Inktomi o Mibi (la aportación española), no aparecen analizados con detalle. No obstante creo que la lista es lo suficientemente representativa.

Webcrawler

Aunque fue diseñado por Brian Pinkerton para la Universidad de Washington, en la actualidad es America Online Inc la propietaria y encargada de su actualización y mantenimiento, a través de los Web Studios de San Francisco.

El programa encargado de ejecutar las búsquedas funciona sobre ocho ordenadores, conectados entre sí, con una capacidad de almacenamiento individual de 1,5 Gb y 128 Mb de memoria ram.

Esos mismos ordenadores son los encargados de almacenar una base de datos, utilizada para realizar las búsquedas solicitadas, que contiene más de dos millones de páginas WWW.

El sistema ofrece una única línea para introducir la búsqueda, que puede estar compuesta por varias palabras, que, por defecto, se unen por el operador and (existe la opción de utilizar también or).

No cabe la posibilidad de utilizar otros operadores, como los de proximidad. A pesar de que tampoco se contemple la posibilidad de realizar truncamientos, WebCrawler elimina automáticamente las terminaciones de las palabras, utilizando así sólo la raíz, y lo convierte todo en mayúsculas.

El resultado de nuestra búsqueda aparece como una lista de direcciones WWW (no proporciona resumen alguno) organizada según un índice de relevancia.

Para saber cuál es el resultado que más se acerca a nuestras necesidades, de entre todos aquellos documentos en los que aparece alguna vez la palabra o palabras que representan el contenido de la materia en la que estamos interesados, realiza una simple operación matemática: divide el número total de veces que aparece cada palabra por la que buscamos, entre el número total de palabras que tenga el documento.

Al documento que tenga el número mayor se le asigna el 100, y se establece una escala con los siguientes resultados. Estos números se colocan a la izquierda de cada dirección, de tal forma que la primera, que tendrá el número 100, será la que tiene más posibilidades de contener la información que buscamos.

Por las restricciones antes comentadas, WebCrawler puede resultar algo limitado. Sin embargo, es una de las mejores herramientas para realizar búsquedas que requieran el uso de operadores booleanos. Quizá el principal inconveniente que tiene es su éxito.

Savvy Search

Posiblemente la mayor ventaja que tenga el realizar búsquedas en Savvy es que permite elegir en cuál de sus numerosas bases de datos quieres que localice la información.

Estas bases de datos son de recursos WWW, informes técnicos, noticias, programas informáticos, entretenimiento, imágenes, etc.

Esta posibilidad, no obstante, puede ser el mayor inconveniente, especialmente si no tenemos demasiado claro en qué área temática se puede encuadrar lo que estamos buscando. A pesar de todo, realizar la búsqueda sobre la base de datos de los recursos WWW siempre aporta alguna información.

La estrategia de búsqueda puede estar formada por varias palabras que, por defecto, se unen con el operador and. El no ofrecer la posibilidad de usar el operador or supone una gran desventaja si lo comparamos con otros productos de la competencia.

Tampoco agrega ningún tipo de información adicional a las direcciones que responden a la búsqueda (resumen, índice de relevancia), lo que obliga a realizar búsquedas muy específicas, para evitar perder el tiempo conectándonos a direcciones que pueden resultarnos de poco interés.

The Open Text Index

Se trata de uno de los índices más potentes de cuantos existen. La empresa canadiense Uunet, encargada de su creación y mantenimiento, tiene previsto realizar diferentes versiones en francés, alemán, italiano y japonés.

Además se quieren añadir nuevas utilidades -como la posibilidad de almacenar la ecuación y los resultados de la búsqueda- para facilitar el refinamiento de la misma.

En la actualidad ofrece tres tipos de búsquedas. La más sencilla es la que aparece por defecto. Funciona de manera similar al resto de los índices.

La opción denominada power search mode permite el uso de operadores booleanos como and (usado por defecto), or, but not, y de proximidad: near y followed by.

La tercera variante es la denominada weighted search mode. En ella debemos indicar el peso que debe tener cada una de las palabras que buscamos. No existe un límite numérico, pero debemos ser coherentes y aplicar un valor proporcional a cada una de las palabras. Ese valor o peso debe ser positivo, y no se pueden poner decimales. El índice opera con cada uno de esos pesos de manera independiente, y luego los combina en el resultado final.

Si dentro de esta opción elegimos la modalidad de búsqueda por ocurrencia, a cada dirección se le asigna un índice de relevancia que se calcula por medio del producto del número de ocurrencias encontradas en cada página por su peso. Si, por el contrario, decidimos que utilice la modalidad denominada presencia o ausencia, a cada página que incluya la palabra por la que buscamos se le da una puntuación numérica con el mismo valor que su peso, independientemente del número de veces que dicha palabra aparezca en la página.

Sin duda alguna, se trata de un índice que contiene una gran variedad de opciones. Además, el robot de búsqueda actualiza constantemente la base de datos. Es uno de los más serios competidores de Lycos, WebCrawler, Infoseek y compañía.

NlightN

A pesar de que este servicio ya ha sido comentado anteriormente (v. IWE-39, p. 1), quiero volver a incidir sobre él ya que es uno de los índices más "espectaculares".

El sistema, denominado Universal Index, permite realizar las búsquedas, de forma simultánea, en 660 bases de datos, 14 agencias de noticias y más de tres millones de páginas WWW. Si estos números son llamativos, no lo es menos la lista de las bases de datos (ABI/Inform, Medline y Disclosure entre ellas) o la lista de los productores de bases de datos que ya han firmado convenios con la empresa creadora del servicio, Library Corporation (UMI, Library of Congress, Knight-Ridder, The British Library y un largo etcétera).

De momento las opciones de búsqueda son algo limitadas ya que sólo se contempla la posibilidad de usar operadores booleanos y restringir la búsqueda a determinados campos. No se cobra nada por la suscripción o por el tiempo de conexión, sólo por la información recuperada.

Virtual Yellow Pages

De cara al exterior, apenas existen diferencias entre este índice y los demás. Las búsquedas se hacen por defecto con el operador and. También se permite el uso de or. Los resultados se pueden ordenar alfabéticamente o por la calidad de las direcciones (otorgado por índices de relevancia), y poca cosa más.

La verdadera diferencia está en el sistema utilizado para realizar las búsquedas. Utiliza tecnología Readware, que se basa en alguno de los principios de la inteligencia artificial. A esta tecnología se le suma otro sistema de búsqueda, que participa de la filosofía del modelo de clustering, que agrupa términos por similitud (v. IWE-38, p. 19).

Todo esto, unido a una base de datos con un amplio vocabulario de varios idiomas, hace que nos encontremos ante la que será una de las más potentes herramientas de búsquedas en un futuro no muy lejano. De momento debe mejorar la calidad y la cantidad de la información que contiene la base de datos sobre la que trabaja.

Tribal Voice Search

Si Savvy sorprende por ser una de las pocas que se basan en un modelo de recuperación de información concreto y la utilización de alguno de los principios teóricos de inteligencia artificial, Tribal no se queda atrás. Este sistema, por defecto, realiza las búsquedas usando la lógica difusa.

Nos ha sido imposible verificar que este índice utiliza realmente lógica difusa en sus búsquedas, ya que el proceso es largo y complejo. Por este motivo no se puede garantizar que no se trate de una forma de marketing como otra cualquiera.

Por defecto une las palabras de la búsqueda con and, pero no se pueden introducir más de cuatro palabras por búsqueda. Además de permitir el uso del operador or, tiene una opción que une todas las palabras con and, pero combinadas en el orden especificado. Esta opción debe usarse con cuidado. El orden es vital para que no nos encontremos con un resultado tan selectivo que no obtengamos nada.

Tribal, de momento, es muy limitado, ya que trabaja sobre una base de datos bastante reducida y se encuentra todavía en construcción.

Yahoo

Poca cosa se puede decir de Yahoo que no hayamos experimentado todos, ya que se trata de uno de los índices más famosos de la Red. Al igual que otros, une los términos con and por defecto, y permite considerar las palabras de la búsqueda como cadenas independientes o como combinación de palabras ordenadas.

Las búsquedas las podemos realizar en los títulos, comentarios de cada página, o por URL (Uniform Resource Locator). Y los resultados aparecen en una lista alfabética que es todo lo larga que queramos.

También ofrece una serie de grupos temáticos que pueden ser de gran utilidad, ya que contienen las direcciones de los servidores WWW más significativos dentro de cada campo. Además de la versión gráfica, tiene una versión con sólo texto.

Recientemente se ha producido la fusión entre Yahoo y Open Text, que no causará la desaparición de ninguna de las dos. Como consecuencia de esto, ambas empresas intercambiarán tecnología e información. Así Yahoo logrará más versatilidad y posibilidades en su sistema de búsqueda, y Open Text una base de datos más grande sobre la que consultar.

Al igual que WebCrawler, su principal inconveniente es su éxito, lo que provoca que la conexión se convierta en una larga y lenta espera.

PLWeb

La aportación de PLS (Personal Library Software) al "mundo" de los índices en Internet se denomina Master Index, que se gestiona por medio del sistema PLWeb.

La estrategia de búsqueda se puede refinar por medio de los operadores booleanos and, or y not. También pueden utilizarse otros operadores, como near y adj. La posibilidad de usar un gran número de comodines es, sin ningún género de dudas, una de las grandes ventajas de PLWeb. Entre ellos destacamos:
e481534d8bb6fc47adc0f95c1ed757d4

Webcrawler
PLWeb
Opentext
Yahoo!
Magellan
Lycos
Altavista

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1995/diciembre/indices_para_realizar_bsquedas_en_internet.html