Esta sección es realmente un híbrido entre un Glosario real y las Preguntas Frecuentes, y su finalidad es la de intentar explicar algunos de los términos y
significados que son usados en la elaboración de este ranking.
Tamaño de la Base de Datos. El número de registros de las bases de datos de los motores de búsqueda que es accesible desde fuentes externas de forma pública.
No todos los robots analizan la web al mismo tiempo o con idénticos procedimientos, además, el procesado posterior a la recuperación de datos, añadido a los requerimientos comerciales
de cada buscador, dan como resultado final bases de datos con contenidos muy diferentes entre los motores más grandes. El tamaño actual, la composición y la evolución de las cifras,
son un punto relevante en el análisis webométrico.
Búsqueda delimitada. Esta es una característica clave de los motores de búsqueda que permite el análisis cibermétrico. Los operadores para delimitar
una búsqueda tienen una sintaxis específica y un significado que puede ser diferente entre los distintos motores. Estos proporcionan un número de registros (páginas web) que
satisfacen una cierta condición, filtrando los resultados según las cadenas de caracteres en la dirección (URL) u otras características (lenguaje, formato) de la página. Tiene
especial relevancia el delimitador link que puede ser usado en combinación con site u otros similares para calcular los enlaces entrantes.

Diferentes disciplinas. El ranking no provee ninguna asignación temática a las unidades, luego un análisis temático formal no es posible de momento. Pero hay importantes diferencias en lo que respecta a los objetivos académicos de las universidades en nuestras bases de datos que deben ser tenidos en cuenta. Universidades
centradas principalmente en la investigación se encuentran mezcladas con otras más centradas sólo en la enseñanza y con un grupo de instituciones orientadas a una disciplina
(principalmente pedagogía, medicina y teología).
Características formales. Puesto que no hay un control universal de los documentos, ni unas líneas maestras para la construcción de páginas web, existe
una grandísima diversidad de aspectos formales en el espacio web que incluyen obvias malas prácticas. Algunos autores se han centrado en esto, para proveer nuevos indicadores
como la densidad de enlaces, calidad de enlace (expresado como la relación de enlaces que no funcionan), etiquetas perdidas (incluyendo aquellas que son tan relevantes como
title y metadata), o la frecuencia de actualización. Ninguna de estas características es tenida en cuenta en nuestros rankings, pero deben ser consideradas a la hora de realizar
microanálisis.
Sesgos geográficos. El uso de varios motores de búsqueda en nuestro ranking se debe a los sesgos geográficos observados en algunos de ellos. Desconocemos
si esto es debido a problemas topológicos o de tráfico en la red (algunos países de Asía del Este habitualmente muestran una pobre cobertura), o al comportamiento de los rastreadores,
o si los sesgos son iguales a lo largo del tiempo. Los sesgos de Alexa nos impiden incluir los datos de popularidad en nuestro ranking.
Dominios institucionales. La unidad básica de nuestro análisis se refiere a la parte común de la URL del dominio usada por todos los sitios web de una
institución. Desafortunadamente algunas instituciones, mantienen dos o más dominios equivalentes, sin decantarse por ninguno de ellos. También es preocupante el hecho de que
algunos departamentos de segundo nivel mantienen dominios completamente diferentes. Habitualmente mantenemos las dos entradas para aquellas instituciones con dos dominios de primer
nivel equivalentes. Intentamos fusionar los resultados de los dominios pequeños con los del dominio principal en un futuro cercano, pero es una tarea dificil.
Invocación. La presencia del nombre de una institución o un investigador en una página web. La presencia global es el número de veces que el nombre
aparece en la Web y puede calcularse fácilmente usando comillas sobre el nombre en los motores de búsqueda. A veces esta figura representa el número de veces que este nombre
es citado en la Web. Algunos autores consideran esto como el indicador Visibilidad Web, pero nosotros preferimos reservar este término para la visibilidad del enlace. Este
indicador normalmente favorece a las grandes, conocidas y más antiguas instituciones independientemente de su esfuerzo real por tener una presencia relevante en la Web.
La medida de la invocación no ha sido usada en nuestro ranking, principalmente porque no es posible asignar un único y no ambiguo nombre universal para cada institución.
Web invisible. Tradicionalmente se refiere a la información disponible a través de pasarelas o interfaces de búsqueda que no esta accesible a los
motores de búsqueda. Representa una parte enorme del contenido de Internet, incluyendo catálogos de bibliotecas, bibliografías y bases de datos alfanúmericas o incluso algunos
repositorios de documentos. Durante los últimos años algunos motores, especialmente Google, han llevado a cabo un gran esfuerzo para indizar estos registros y de hecho varias
de estas bases de datos tienen, mayor o menor cobertura en sus sistemas (Por ej. PubMed está parcialmente indexada por Google). Nuestro ranking no considera la Web invisible
o profunda y alentamos la transformación en información más amigable para el rastreo.
Lenguaje. El inglés es la "lingua franca" para la comunicación científica y también es la lengua de una gran parte de los usuarios de internet. Aquellas
instituciones cuyo origen no es inglés y que publican solamente en su lengua nativa consiguen una menor visibilidad que aquellas cuyas sedes web son multilingües.
Motivación del enlace. La mayor preocupación en el análisis del enlace es la motivación para la creación del mismo. Estudios previos sugieren que las
"sitas", el equivalente hipertextual a la cita bibliográfica, son todavia raras. Nosotros pensamos que esta situación mejorará cuando más documentos estén disponibles en la Web,
pero consideramos que hay otras razones útiles para enlazar que describen la comunicación académica. El enlace informal es una poderosa fuente de información acerca de las
conexiones de tipo intelectual, económicas y políticas de las actividades académicas y ciéntificas.
| CATEGORÍA |
CASO |
COMENTARIOS |
| Sitación |
Enlace a un artículo o documento |
Generalmente en formato pdf/ps/doc |
| Enseñanza/Aprendizaje |
Enlace a materiales de estudio |
Principalmente páginas html pero también pdf, doc o ppt |
| Orientados a la investigación |
Índice de recursos |
Tipo portal |
| Repositorio de software |
|
| Sitios de proyectos de investigación |
|
| Conferencias, seminarios o páginas de reuniones |
|
| Datos en bruto |
Incluyendo ficheros multimedia si procede |
| Personal |
Autoarchivado |
Artículos en forma pre o post edición, pero también material no publicado |
| Páginas del equipo o de colaboradores |
|
| Blog |
|
| Terceras partes (no-investigación) |
|
| Institucional |
Institución central |
Y relacionadas |
| Organización financiadora |
|
Popularidad del enlace. Otro término para referirse a la visibilidad de un enlace que ha sido usado ampliamente. Preferimos reservar el término
popularidad para la medida del número de visitas. Aunque todavía no está implementado en el ranking, tenemos la intención de considerar el número de visitas o la popularidad
como un factor relevante para nuestros rankings en un futuro.
Open access. El movimiento para distribuir de una forma abierta la producción científica de, al menos, los investigadores financiados
de forma pública, se está enfrentando a una dura oposición. En nuestro ranking se refleja en los resultados la existencia de iniciativas claras hacia la publicación de tipo
Open Access.
Páginas personales. Un comentario que a menudo se oye acerca de la calidad de los contenidos Web está relacionado con la información que proporcionan
las páginas web de estudiantes y miembros del personal. Existe una gran cantidad de espacio libre en los servidores web de las universidades que es utilizado para propositos
personales, y en general se piensa que la información que contienen es de baja calidad o no está relacionada con temas académicos. Los datos sugieren que un amplio número
de pequeños sitios web pueblan los dominios institucionales, pero muchos de ellos son lo suficientemente intesesantes como para merecer consideración. Algunas páginas
"personales" son de hecho las páginas del grupo de investigación, mientras que otras son institucionales (sociedades ciéntificas, boletines electrónicos, sitios de
conferencias). Las verdaderas páginas personales cubren ambos extremos del rango de contenidos, desde personas ofreciendo solo sus CV, a otras proporcionando una gran
cantidad de información acerca de sus tópicos de enseñanza o investigación con enlaces a repositorios personales de documentos. Un patrón llamativo es la ausencia de enlaces
a los sitios web de otros colegas o instituciones.
Calidad. Nosotros aconsejamos en contra del uso de los rankings como un indicador total o parcial de calidad. Los indicadores de impacto o visibilidad
describen mejor nuestros objetivos, pero en el contexto particular de la promoción de apertura y acceso universal a la actividad científica y resultados a través de la web.
Ranking. Como su principal objetivo es el puramente comercial, los motores de búsqueda no ofrecen resultados estables, consistentes o dignos de
confianza para los estudios webometricos. La situación ha mejorado en los últimos años pero todavía hay importantes sesgos y una importante inestabilidad en los datos. Por
este motivo usamos valores absolutos pero posiciones relativas para nuestro análisis.
Ficheros ricos. Término general que comprende un grupo heterogéneo de tipos de ficheros, principalmente los que representan documentos unitarios
enriquecidos, como son MS Word doc, Adobe Acrobat pdf o PostScript ps. En nuestros análisis también incluimos MS Powerpoint ppt pero excluimos xls o latex o tex. Los ficheros
ricos son relevantes porque son usados por los autores para la comunicación académica y la distribución de sus artículos y presentaciones en estos formatos. Ciertamente
algunos de estos tipos de archivo se utilizan con propositos burocráticos (formularios, documentos administrativos, informes internos) pero esto sólo explica un pequeño
porcentaje de los grandes números observados en dominios con amplios repositorios.
Hay otros tipos de ficheros que pueden ser considerados como ficheros ricos e incluso formatos sin procesado como el txt que se usan para la distribucion de contenidos
academicos. Pero su contribucion individual es demasiado baja para ser tenidos en cuenta.
Redondeo. Google y Yahoo ofrecen resultados redondeados, terminando en .000, lo cual significa un error en el orden del 2 al 5%. Además las cifras
proporcionadas por Yahoo en la primera página son un 4 a un 5% más altas que las mostradas en las siguientes páginas que demuestran una tendencia hacia el número más
"correcto".
Motores de búsqueda. El software que busca en un índice y devuelve las coincidencias. El motor de búsqueda se usa a menudo como sinónimo de
araña o índice, aunque ambos son componentes diferentes que forman parte del mismo software del motor. Sólo hay cuatro motores de búsqueda útiles para realizar análisis
cuantitativos ya que poseen unas amplias e independientes bases de datos y su sistema de recuperación de datos permite filtrar los resultados de acuerdo a delimitadores
relacionados con la URL.
Google www.google.com
Yahoo Search search.yahoo.com
Bing www.bing.com
Exalead www.exalead.com/search
Autoarchivado. Éste implica el depósito de una copia gratuita de un documento en formato digital en la Web con la idea de permitir el acceso abierto
al mismo. El término de autoarchivado suele referirse al depósito de revistas de investigación sometidas al proceso de revisión por pares, así como tesis doctorales y
artículos de conferencias en el propio repositorio institucional del autor o de una forma que permita el acceso abierto, para maximizar su accesibilidad, uso e impacto de la
citación. Esta práctica es más común en autores muy prolíficos y en ciertas disciplinas. Sin embargo, de forma global sólo hay una minoría de autores que apoyan esta opción.
Como la gran mayoría de estos artículos son publicados en formato de fichero rico, pdf, ps o doc, esta práctica incrementa de forma notable el rendimiento de una institución
en nuestros rankings.
Tamaño. El tamaño del dominio de una institución es un número que combina la cantidad de páginas que conforman todos los sitios web de dicho dominio,
incluyendo html y formatos que no son html que puedan ser asimilados. Desde un punto de vista práctico, tamaño se refiere al número de páginas que porporciona un motor de
búsqueda cuando se realiza una consulta del tipo site:dominio. Este indicador es clave en nuestros rankings y se utiliza también como el denominador para los
cálculos del Factor de Impacto Web que realizan otros autores. Sin embargo hay un amplio tipo de páginas a ser cuantificadas según diferentes criterios, incluyendo el tamaño
del contenido medido en bytes. Por ejemplo, una página puede contener un documento en formato pdf que puede ser una monografía formada por varios cientos de páginas que sumen
varios MB de texto e imágenes, mientras que otra puede contener sólo la frase "Página en construcción". El tamaño global podría ser un indicador interesante y esperamos poder
incluirlo para algunos sitios seleccionados.
Estabilidad. Desde el comienzo la inestabilidad de los resultados de las búsquedas en general, y el número que representa el resultado en particular
han sido objeto de gran preocupación. Ciertamente la Web es un sistema altamente dinámico, y que crece aun ritmo increible, pero también los motores cambian sus
especificaciones y programación de forma inexperada. Una ronda mundial de recuperación de datos puede llevar de unos 15 a 45 días.
Visibilidad. En el contesto de este ranking, el término se refiere a la visibilidad del enlace, es decir, el número de enlaces entrantes externos que
recibe una dominio institucional. La sintaxis más usada por los motores de búsqueda para esta petición es:
linkdomain:webometrics.info -site:webometrics.info
Coste Web. Mantener en la Web un presencia muy grande puede ser bastante costoso, incluyendo financiación y recursos humanos específicos, pero
el coste total está muy por debajo de cualquier otro método de publicación y la audiencia es realmente global. Una manera de abordar grandes proyectos es la distribución
de esfuerzo, así estudiantes de grado, profesores o investigadores, equipos científicos y otra unidades administrativas pueden mantener una presencia web autónoma. Una
página con contenido rico debería incluir una gran diversidad de objetos incluyendo imágenes y otros archivos multimedia, cierta cantidad de enlaces navegacionales y un
selecto grupo de enlaces salientes externos. Esto puede requerir un gran esfuerzo que sólo puede ser afrontado si estas tareas son sujeto de evaluación como lo son otras
actividades científicas y académicas.
Factor de Impacto Web. El indicador cibermétrico más citado, aunque su uso no es universal debido a varias limitaciones. Se define como la razón
entre el número de enlaces externos recibidos por un sitio web y el número de páginas que conforman ese sitio. Algunos autores han sugerido modificaciones a ese denominador,
usando diferentes medidas alternativas al tamaño de la institución utilizando datos no basados en Internet como el número de autores potenciales (personal, profesores,
estudiantes de grado), riqueza económica (financiación, proyectos) o datos bibliometricos (artículos en revistas).
De este indicador tomamos la regla de que la razón visibilidad a tamaño debe ser 1:1.
|