‘Big data’: el detalle infinitesimal de un número casi infinito de casos
La cantidad casi infinita de datos que somos capaces de generar, el 'big data', ofrece grandes oportunidades pero a la vez grandes retos tanto para la Ciencia como para la sociedad en general.
Estimado amigo Ramon,
hace unos días me explicabas tu interés por las empresas que trabajan en el análisis de ‘big data’. Yo contesté que te haría llegar algún artículo sobre el tema, pero es difícil escoger. Repasando los volúmenes de años recientes de esas revistas que marcan tendencia en ciencia, descubres que los artículos que usan cantidades ingentes de datos se han convertido en protagonistas habituales, y diría que imprescindibles. En septiembre de 2016, Miraldo et al. publicaban en la revista Science un mapa de la diversidad genética de vertebrados a escala mundial a partir de 92.801 secuencias mitocondriales de más de 450 especies.
La magnitud de esa información se escapa a cualquier percepción intuitiva. Hablamos de megas, gigas y teras para atar en corto esas magnitudes; al fin y al cabo sólo tenemos diez dedos en las manos. El manejo de enormes cantidades de datos (para las que ya hemos acuñado un término, ‘big data’) atrae a científicos, instituciones públicas (por motivos de seguridad, y también electorales) y empresas. Me explicabas el interés de las cadenas de supermercados de utilizar ‘big data’ para disponer de perfiles muy ajustados de clientes y ofrecerles ofertas personalizadas.
Mientras revisaba esas revistas, me vino a la cabeza la idea de entender dónde se encuentra la frontera actual de las ciencias empíricas. No es una idea muy novedosa: existen rankings anuales y aparecen muchos libros sobre el tema. Concluí que el territorio a punto de ser explorado por muchas disciplinas es el que se abre gracias a la capacidad de obtener un detalle infinitesimal de un número casi infinito de casos.
Me explico. En biología, a partir de la segunda mitad del siglo XX, los avances técnicos proporcionaron una descripción detalladísima de algunos objetos seleccionados. El microscopio electrónico permitió visualizar las entrañas de una célula o de un puñado de ellas. Posteriormente, el desarrollo de las técnicas de secuenciación genómica ha permitido desgranar nucleótido a nucleótido larguísimas moléculas seleccionadas de ácidos nucleicos, como las de los humanos. Algunas proteínas no van a la zaga en este afán detallista. Los neurobiólogos ya son capaces de identificar la actividad de células individualizadas en las complejísimas redes neuronales. Simultáneamente, las diferentes disciplinas que estudian la naturaleza obtenían una visión completa del conjunto de su objeto de estudio. En el ámbito territorial, las bases cartográficas ya llegaron a cubrir con rigor matemático toda la Tierra en el siglo XIX, aunque en lugares poco poblados la precisión era escasa. A su vez, los biólogos y geólogos conseguían unos inventarios razonablemente completos de los organismos vegetales y animales, o de las estructuras geológicas, respectivamente.
El salto en el conocimiento que estamos experimentando actualmente representa pasar de una gran precisión en las medidas de unos pocos objetos al gran detalle en casi todos.
El salto en el conocimiento que estamos experimentando actualmente representa pasar de una gran precisión en las medidas de unos pocos objetos al gran detalle en casi todos. Esa minuciosidad implica una ingente cantidad de información que no podría ser procesada sin los avances que simultáneamente se han producido en computación. De una forma extraordinaria, hemos asistido en pocos años al espectáculo de que todo objeto mayor de pocos metros cuadrados expuesto al aire libre en cualquier lugar del mundo pueda ser visualizado fácilmente desde el cielo en una pantalla. A diferencia de una sola molécula que escapa a la percepción de nuestros sentidos, todos reconocemos en esas imágenes cenitales el habitáculo en el que nos refugiamos, y eso hace más verosímil la técnica.
Más ejemplos: investigadores de la universidad de Maryland ha desarrollado el proyecto Global Forest Change que proporciona en la web una visualización detallada de la pérdida o aumento de la superficie forestal en cualquier lugar del mundo. También disponemos de técnicas como el LIDAR —una especie de radar que utiliza rayos láser— que, entre otras aplicaciones, permite discernir a escala de centímetros la cubierta de la vegetación y su distancia al suelo. De momento, debemos contentarnos con seleccionar algunas áreas pequeñas, pero no hay obstáculo intelectual que impida pensar que podremos llegar a disponer de esa información para todos los centímetros cuadrados de la superficie de la Tierra. Como tampoco hay obstáculo teórico para que lleguemos a genotipar todos los organismos de la Tierra. Siempre que se dejen capturar, claro, y aquí radica uno de los quid de la cuestión.
¿Qué ha hecho posible esta ordalía de datos que no cesa? La respuesta trivial es reconocer que las técnicas se han perfeccionado. Pero eso no sería suficiente si dichas soluciones técnicas fueran caras. Podemos encontrar un símil en el mundo económico, en el que el coste marginal de ciertos servicios se está aproximando a cero. Esta reducción del coste marginal es el que justifica el aumento de escala en el mundo empresarial. El mismo principio explica cómo el coste de una secuenciación genómica se ha abaratado al menos diez veces en pocos años y la tendencia continúa y se amplía a nuevas prestaciones. El caso de las imágenes del territorio es curioso porque aparentemente es gratuito para el usuario. Pero sólo aparentemente, por que el usuario también proporciona información suya, que pasa a engrosar los ‘big data’. A su vez, alguna empresa encuentra esa información suficientemente valiosa como para pagar por ella. Un bucle interesante, y que nos lleva a preguntarnos cuál es el límite al uso de esos datos que se acumulan, cuando surgen incentivos económicos y no parece que haya restricciones técnicas insalvables.
hay obstáculo teórico para que lleguemos a genotipar todos los organismos de la Tierra. Siempre que se dejen capturar, claro.
Estas limitaciones pueden ser éticas, por ejemplo cuando la intromisión en la privacidad comporta el beneficio de un tercero. Pero la situación no es tan sencilla, ya que los beneficios pueden ser mutuos. Toda esa información puede ser útil para algunas empresas, desde luego. Pero también para los pacientes, cuando sus médicos buscan tratamientos personalizados, o para los cuidadores del territorio cuando quieren monitorizar sus cambios para beneficio colectivo. Pero cuando el coste marginal de la obtención de los datos no es tan pequeño aparecen algunas complicaciones. Por ejemplo, en ecología están proliferando los estudios basados en datos publicados anteriormente —metaanálisis comparativos, análisis de redes de interacciones, modelos de parámetros ambientales a escala global, entre otros—, obviamente con un coste de obtención de información relativamente bajo.
Eso plantea problemas. Como los recursos humanos en ciencia son limitados, la inversión para obtener nueva información de base con calidad —observaciones de campo o experimentos— se desvanece. La recompensa por publicar estudios locales o experimentos concretos disminuye en relación a la recibida por hacer un estudio de ámbito global, aunque el número de datos sea ridículo y la inferencia cuestionable. Recientemente un colega explicaba como un artículo aumentó sus expectativas de publicación y reconocimiento cuando se dibujó un mapamundi coloreado a partir de menos de veinte datos. Esta situación se intenta subsanar con nobles iniciativas de ciencia popular en las que personas motivadas y entrenadas contribuyen a proporcionar abundante información de base. Pero la obtención de estos datos necesita ser bien diseñada y coordinada y las personas implicadas deben ser suficientemente entrenadas.
La recompensa por publicar estudios locales o experimentos concretos disminuye en relación a la recibida por hacer un estudio de ámbito global, aunque el número de datos sea ridículo y la inferencia cuestionable.
Sin embargo, la mayor limitación a esta inflación de datos proviene probablemente de nuestra capacidad intelectual para asimilar información detalladísima de todo. Si fuéramos capaces, no habríamos inventado la ciencia porque ya entenderíamos intuitivamente el mundo. Las alternativas analíticas, como el uso probabilístico de la información, implican cierta simplificación. Un ejemplo: en un artículo reciente publicado en Science, Benson y colaboradores proponen estudiar redes complejas mediante el uso de unos pocos módulos que describen todas las conexiones posibles entre muy pocos elementos. Curiosamente nos encontramos en un camino de ida y vuelta en el que acabamos simplificando la enorme cantidad de información recogida. Eso sí, con mayor rigor y a un coste relativamente asumible.
Sin embargo, la mayor limitación a esta inflación de datos proviene probablemente de nuestra capacidad intelectual para asimilar información detalladísima de todo. Si fuéramos capaces, no habríamos inventado la ciencia porque ya entenderíamos intuitivamente el mundo.
Ante la imposibilidad de explicar la contingencia de cada detalle, y por tanto alcanzar la panacea reduccionista, surgen interpretaciones holísticas que parecían anticuadas, al menos en ecología. Ese holismo a menudo recuerda a interpretaciones intuitivas, en las que el intelecto procesa la información de forma poco consciente, diríamos vulgarmente que sin entrar en detalles. Para hacer mínimamente inteligible ese holismo, recurrimos a conceptos, como la propia información, que desgraciadamente no son medibles de forma inmediata por nuestros sentidos. La evolución biológica —otro concepto francamente complejo— no nos ha preparado demasiado para ello. Sí lo ha hecho para que percibamos el tamaño, el peso, la textura, el color o el calor de los objetos. La ventaja del uso de los ‘big data’ es que conceptos intuitivos, holistas —como la complejidad—, que habían sido relegados por muchos ecólogos pueden ser ahora medidos de alguna forma precisa, y por tanto ser contrastados. Ha sido un recorrido largo y entretenido en el que las aproximaciones más reduccionistas y holistas parecen que vuelven a poder darse la mano, al menos en ecología.
Para finalizar, Ramon, me gustaría recordar a J.L. Borges cuando nos escribía sobre el rigor en la Ciencia:
“En aquel Imperio, el arte de la Cartografía logró tal perfección que el mapa de una sola Provincia ocupaba toda una Ciudad, y el Mapa del Imperio, toda una Provincia. Con el tiempo, estos Mapas Desmesurados no satisficieron y los Colegios de Cartógrafos levantaron un Mapa del Imperio, que tenía el Tamaño del Imperio y coincidía puntualmente con él. Menos Adictas al Estudio de la Cartografía, las Generaciones Siguientes entendieron que ese dilatado Mapa era Inútil y no sin Impiedad lo entregaron a las Inclemencias del Sol y los Inviernos. En los Desiertos del Oeste perduran despedazadas Ruinas del Mapa, habitadas por Animales y por Mendigos; en todo el País no hay otra reliquia de las Disciplinas Geográficas.
Suárez Miranda: Viajes de varones prudentes, libro cuarto, cap. XLV, Lérida, 1658.”