lunes, 15 de junio de 2015

Acerca del Manifiesto de Leiden


La verdad es que la publicación del Manifiesto de Leiden ha provocado bastante revuelo en la comunidad científica, y no tanto por que sea nada muy nuevo, sino porque resume muy bien o aglutina este nuevo escenario que se ha provocado con lo que algunos llaman ciencia 2.0.

Realmente se ha pasado de un escenario en que se realizaban rigurosísimos y a veces eternos controles antes que un artículo fuera publicado, a un escenario en que la inmediatez que proporcionan las nuevas tecnologías quizás estén propiciando que, en algunos casos, los controles hayan pasado a ser demasiado ligeros.
Aún así, está claro que el investigador debe tener su reputación, o estar bien posicionado en algún ranking o tener un buen índice-h.

Es por todo este nuevo escenario (que he descrito de forma muy o quizás demasiado esquemática), que unos investigadores, concretamente Diana HicksPaul WoutersLudo WaltmanSarah de Rijcke Ismael Rafols, escribieron el Manifiesto de Leiden que describe cómo adaptarse a este nuevo escenario.

A continuación se resume cada uno de estos principios. Creo que es muy interesante y que realmente plasma mejor la realizad actual.

DIEZ PRINCIPIOS

1. La evaluación cuantitativa tiene que apoyar la valoración cualitativa por expertos.

Los indicadores pueden corregir la tendencia a perspectivas sesgadas que se dan en revisión por pares y facilitar la deliberación. En este sentido, los indicadores pueden fortalecer la evaluación por pares puesto que tomar decisiones sobre colegas es difícil sin varias fuentes de información. Sin embargo, los evaluadores no deben ceder a la tentación de supeditar las decisiones a los números. Los indicadores no pueden sustituir a los razonamientos informados. Los decisores tienen plena responsabilidad sobre sus evaluaciones.

2. El desempeño debe ser medido de acuerdo con las misiones de investigación de la institución, grupo o investigador.

Los objetivos de un programa de investigación tiene que ser especificados al principio, y los indicadores usados para medir el desempeño tienen que estar claramente relacionados con estos objetivos. La elección y usos de los indicadores tiene que tener en cuenta los contextos socio-económicos y culturales. Los científicos tienen diversas misiones de investigación. La investigación para avanzar las fronteras del conocimiento académico es diferente de la investigación focalizada en proveer soluciones a problemas sociales. La evaluación puede estar basada en méritos relevantes para la industria, el desarrollo de políticas, o para los ciudadanos en general, en vez de méritos basados en nociones académicas de excelencia. No hay un modelo de evaluación que se pueda aplicar en todos los contextos.

3. La excelencia en investigación de relevancia local debe ser protegida.

En muchas partes del mundo, excelencia en investigación se asocia únicamente con publicaciones en inglés. La ley española, por ejemplo, explicita el deseo y la conveniencia que los académicos españoles publiquen en revistas de alto impacto. El factor de impacto se calcula para revistas indexadas por Web of Science, que es una base de datos basada en los Estados Unidos y que contiene una gran mayoría de revistas en inglés. Estos sesgos son especialmente problemáticos en las ciencias sociales y las humanidades, áreas en las que la investigación está más orientada a temas regionales y nacionales. Muchos otros campos científicos tienen una dimensión nacional o regional -- por ejemplo, epidemiología del VIH en el África subshariana.
Este pluralismo y la relevancia social tienden a ser suprimidos cuando se crean artículos de interés a los guardianes del alto impacto: las revistas en inglés. Los sociólogos españoles muy citados en Web of Science han trabajado en modelos abstractos o estudiado datos de los Estados Unidos. En ese proceso se pierde la especificidad de los sociólogos con alto impacto en las revistas en castellano: temas como la ley laboral local, atención médica para ancianos o empleo de inmigrantes.4 Indicadores basados en literatura de alta calidad no inglesa servirían para identificar y recompensar la excelencia en investigación localmente relevante.

4. Los procesos de recopilación y análisis de datos deben ser abiertos, transparentes y simples.

La construcción de las bases de datos necesarias para evaluar debe seguir procesos establecidos antes de que la investigación sea completada. Ésta ha sido la práctica común entre los grupos académicos y comerciales que han desarrollado metodologías de evaluación durante varias décadas. Estos grupos publicaron los protocolos de referencia en la literatura revisada por pares. Esta transparencia permite el escrutinio y control de los métodos. Por ejemplo, en 2010, un debate público sobre las propiedades técnicas de un importante indicador utilizado por uno de nuestros grupos (el Centro de Estudios de Ciencia y Tecnología (CWTS) de la Universidad de Leiden, en los Países Bajos), se saldó con una revisión en el cálculo de este indicador.5Las nuevas empresas comerciales en el campo deben responder a los mismos estándards. Nadie tiene porque aceptar evaluaciones automáticas salidas de caja negras o procesos impenetrables. La simplicidad es una virtud en un indicador porque favorece la transparencia. Pero indicadores simplísticos pueden distorsionar la evaluación (veáse el principio 7). Los evaluadores debe esforzarse en encontrar un equilibrio: indicadores simples que sea respetuosos con la complejidad de los procesos de investigación descritos.

5. Los datos y análisis deben estar abiertos a verificación por los evaluados

Con el fin de asegurar la calidad de los datos, los investigadores incluídos en estudios bibliométricos tienen que poder comprobar que sus contribuciones han sido correctamente identificadas. Los responsables y gestores de los procesos de evaluación deben garantizar la exactitud de los datos usados mediante métodos de auto-verificación o auditoría por terceras partes. La universidades podrían implementar este principio en sus sistemas de información. Este debería ser un principio rector en la selección de proveedores de estos sistemas. La compilación y proceso de datos de alta calidad, precisos y rigurosos, lleva tiempo y cuesto dinero. Los responsables deben asignar presupuestos a la altura de estas necesidades de calidad.

6. Las diferencias en las prácticas de publicación y citación entre campos científicos deben tenerse en cuenta.

La mejor práctica en evaluación es proponer una batería de indicadores y dejar que los distintos campos científicos escojan los indicadores que mejor les representan. Hace unos años, un grupo de historiadores recibió una puntuación relativamente baja en una evaluación nacional de pares porque escribían libros en vez de artículos en revistas indexadas por Web of Science. Estos historiadores tuvieron la mala suerte de formar parte del departamento de psicología. La evaluación de historiadoes y científicos sociales requiere la inclusión de libros y literatura en la lengua local; la evaluación de investigadores en informática necesita considerar las contribuciones a conferencias.
La frecuencia de citación varía según los campos: las revistas más citadas en ránkings de matemáticas tienen un factor de impacto alrededor de 3; las revistas más citadas en ránkings de biología celular tienen factors de impactor alrededor de 30.
Por lo tanto, se necesitan indicadores normalizados por campo, y el método más robusto de normalización esta basado en percentiles: cada publicación es ponderada según el percentil al que pertenece en la distribución de citaciones de su campo (por ejemplo, el percentil 1%, 10%, 20% más alto). Una única publicación altamente citada mejora un poco la posición de una universidad en un ranking basado en percentiles, pero puede propulsar la universidad de un lugar medio a la primeras posiciones en un ranking basado en promedios de citas.6

7. La evaluación individual de investigadores debe basarse en la valoración cualitativa de su portafolio de investigación.

El índice-h aumenta con la edad del investigador, aunque éste ya no publique. El índice-varía por campos: los científicos en las ciencias de la vida pueden llegar a 200; los físicos a 100 y los científicos sociales a 20 o 30.7 Es un índice que depende de la base de datos: hay informáticos que tienen un índice-h de 10 en Web of Science, pero de 20 o 30 en Google Scholar.8 Leer y valorar el trabajo de un investigador es mucho más apropiado que confiar en un único número. Incluso cuando se comparan un gran número de científicos, es mejor adoptar un enfoque que considere información diversa sobre cada individuo, incluyendo sus conocimiento, experiencia, actividades e influencia.

8. Debe evitarse la concreción improcedente y la falsa precisión.

Los indicadores de ciencia y tecnología tienden a la ambigüedad conceptual y a la incertidumbre, y se fundamentan en hipótesis que no están universalmente aceptadas. Por esta razón, las buenas prácticas usan múltiple indicadores con el fin de construir un retrato robusto y plural. En la medida que sea posible cuantificarla, información sobre incertidumbre y error debería acompañar la valores de los indicadores publicados, por ejemplo usando barras de error. Si esto no fuera posible, los productores de indicadores deberían al menos evitar ofrecer un falso nivel de precisión. Por ejemplo, el factor de impacto de revistas se publica con tres decimales para evitar empates. Sin embargo, dada la ambigüedad conceptual y la variabilidad aleatoria de las citas, no tiene sentido distinguir entre revistas por pequeñas diferencias en el factor de impacto. Se debe evitar la falsa precisión: sólo un decimal está justicaficado.

9. Deben reconocerse los efectos sistémicos de la evaluación y los indicadores.

Los indicadores cambian el sistema científico a través de los incentivos que establecen. Estos efectos deberían ser anticipados. Esto significa que una batería de indicadores es siempre preferible puesto que un solo indicador es susceptible de generar comportamientos estratégicos y substitución de objetivos (según la cual la medida se convierte en un fin en sí misma). Por ejemplo, en los 1990s, Australia financió investigación en universidades de acuerdo con una fórmula basada sobretodo en el número de publicaciones de un instituto. Las universidades podían calcular el "valor" de una publicación en una revista arbitrada; en el año 2000, el valor se estimó en Aus$800 (US$480) destinados a recursos de investigación. Como era de esperar, el número de artículos publicados por autores australianos subió, pero en revistas menos citadas, lo que sugiere que la calidad de los artículos disminuyó.9

10. Los indicadores deben ser examinados y actualizados periódicamente.

Las funciones de la investigación y los objetivos de la evaluación cambian o se desplazan, y el sistema de investigación co-evoluciona con ellos. Medidas que fueron útiles en su día pasan a ser inadecuadas y nuevos indicadores aparecen. Por lo tanto, los sistemas de indicadores tienen que ser revisados y tal vez modificados. Al darse cuenta de los efectos de su fórmula simplista de evaluación, en 2010 Australia adoptó la iniciativa Excellence in Research for Australia, que es más compleja y pone énfasis en la calidad.

No hay comentarios:

Publicar un comentario en la entrada