Investigación

s

En construcción

En ID&IA se realiza investigación tanto teórica como aplicada en datos e inteligencia artificial. A continuación se describen algunos de los proyectos más importantes que se desarrollan en la iniciativa, así como algunas publicaciones asociadas.

Proyecto ALeRCE

Una nueva generación de telescopios capaces de tomar “películas” del cielo nocturno están produciendo enormes volúmenes de datos todas las noches. Entre estos datos se incluyen grandes flujos de “alertas” astronómicas que reportan los cambios detectados en el cielo y que deben ser analizados de forma automática y en tiempo real por agentes o brokers astronómicos. Uno de los agentes seleccionados para ingerir y procesar los más de diez millones de alertas por noche que producirá el futuro observatorio Vera C. Rubin desde Chile es el proyecto ALeRCE (PI: Francisco Förster, http://alerce.science/). Este proyecto interdisciplinario procesa actualmente cientos de miles de alertas por noche para la comunidad astronómica del mundo utilizando herramientas de procesamiento masivo de datos, bases de dato distribuidas, aprendizaje computacional, y visualización; convertiéndose en una herramienta ideal para formar estudiantes en ciencia de datos.

Publicaciones

Grupo de Aprendizaje de Máquinas, infErencia y Señales

La investigación de GAMES está en la interfaz del tratamiento de señales y el aprendizaje de máquinas. En particular, en el desarrollo de modelos de series de tiempo desde la perspectiva del aprendizaje automático. El tópico más representativo del trabajo en GAMES es el modelo de Procesos Gaussianos (PG), un modelo Bayesiano no paramétrico para series de tempo.

Nuestro trabajo en PGs apunta a extender el modelo para representar una amplia gama de datos, esto se hace fundamentalmente a través de nuevas funciones de covarianza o de enlace. Además, hemos trabajado en el caso de PGs para datos multicanal (o multivariado) y también hemos usado el concepto de PG para estimación espectral.

En términos aplicados, hemos implementado nuestros modelos de PG en datos de astronomía, audio, geología, clima y sensores inerciales.

Publicaciones

  • E. Cazelles, A. Robert, F. Tobar (2021), The Wasserstein-Fourier distance for stationary time series, IEEE Transactions on Signal Processing, vol. 69, p. 709-721
  • T. de Wolff, A. Cuevas, F. Tobar (2021), MOGPTK: The multi-output Gaussian process toolkit, Elsevier Neurocomputing, vol. 424, p. 49 – 53
  • F. Tobar, L. Araya-Hernández, P. Huijse, P. Djuric (2021), Bayesian reconstruction of Fourier pairs, IEEE Transactions on Signal Processing, vol. 69, p. 73-87
  • G. Rios, F. Tobar (2019), Compositionally-warped Gaussian processes, Neural Networks, vol. 118, p. 235 – 246
  • F. Tobar (2019), Band-limited Gaussian processes: The sinc kernel, Advances in neural information processing systems 32, p. 12749-12759
  • F. Tobar (2018), Bayesian nonparametric spectral estimation, Advances in neural information processing systems 31, p. 10148-10158, (spotlight)
  • G. Parra, F. Tobar (2017), Spectral mixture kernels for multi-output Gaussian processes, Advances in neural information processing systems 30, p. 6681-6690

Natural Language Processing @ CMM

El grupo de procesamiento de lenguaje natural congrega investigadores y estudiantes de las facultades de Ciencias Físicas y Matemáticas y de Medicina de la Universidad de Chile en torno a la generación de recursos lingüisticos y modelos para analizar el texto producido en Chile, con especial énfasis en el dominio clínico. El grupo recibe financiamiento del Basal Centro de Modelamiento Matemático (CMM) y del Fondecyt liderado por Jocelyn Dunstan.

Nuestro grupo generó el primer corpus clinico anotado disponible a la comunidad científica. Consiste en 10.000 interconsultas de hospitales públicos anotadas con 10 entidades de relevancia clínica, entre las que se encuentran enfermedades, partes del cuerpo y medicamentos. Además, contamos con modelos de detección automática de entidades usando modelos de redes neurales y embeddings clínicos contextualizados.

Otros proyectos realizados por el grupo incluyen un clasificador de reclamos para la Comisión del Mercado Financiero financiado por un Desafío Corfo, la codificación automática de morfología y topografía de notas oncológicas, el análisis de accidentes en minería, y el dictado por voz y detección de información clave, por mencionar algunos.

Publicaciones

  • ​​Fabián Villena, Jorge Pérez, Rene Lagos y Jocelyn Dunstan. Supporting the classification of patients in public hospitals in Chile by designing, deploying and validating a system based on natural language processing. BMC Medical Informatics and Decision Making, volumen 21, 1–11. BioMed Central, 2021.
    https://bmcmedinformdecismak.biomedcentral.com/articles/10.1186/s12911-021-01565-z
  • Pablo Báez, Bravo-Marquez, Jocelyn Dunstan, Matías Rojas y Fabián Villena. Advances in Automatic Detection of Medical and Dental Entities in Clinical Referrals in Spanish. Aceptado el 5 de noviembre en ACM Transactions on Computing for Healthcare, 2021.
    https://felipebravom.com/publications/ACMTCH2021.pdf
  • Pablo Báez, Fabián Villena, Matías Rojas, Manuel Durán y Jocelyn Dunstan. The Chilean Waiting List Corpus: a new resource for clinical Named Entity Recognition in Spanish. In Proceedings of the 3rd Clinical Natural Language Processing Workshop EMNLP, 291–300, 2020
    https://aclanthology.org/2020.clinicalnlp-1.32.pdf
  • ​​Cristóbal Lecaros, Jocelyn Dunstan, Fabián Villena, Darren Ashcroft, Rosa Parisi, Christopher Griffiths, Steffen Hartel, Julia Maul y Claudia De la Cruz. The incidence of psoriasis in Chilean analysis of the national Waiting List Repository. Clinical and Experimental Dermatology, volumen 46, 1262-1269, 2021.
    https://onlinelibrary.wiley.com/doi/pdf/10.1111/ced.14713
  • Diego A Martinez, Haoxiang Zhang, Magdalena Bastias, Felipe Feijoo, Jeremiah Hinson, Rodrigo Martinez, Jocelyn Dunstan, Scott Levin y Diana Prieto. Prolonged wait time is associated with increased mortality for Chilean waiting list patients with non-prioritized conditions. BMC Public Health, volumen 19, 1–11. BioMed Central, 2019.
    https://bmcpublichealth.biomedcentral.com/articles/10.1186/s12889-019-6526-6

Ciencia de Datos, Inteligencia Artificial y Sociedad

La ciencia de datos y la IA tienen hoy un espacio indiscutido en nuestra sociedad. Este rol puede muchas veces ser bivalente en el sentido de representar ventajas únicas para el bienestar social, pero también conlleva riesgos y amenazas para los y las ciudadanos. Es por esto que, desde la misión del avance responsable del análisis de datos y la IA, en ID&IA estudiamos distintas aristas del efecto que esta herramienta tiene para nuestra sociedad.

Publicaciones

  • F. Tobar, R. González (2021), On machine learning and the replacement of human labour: Anti-cartesianism versus babbage’s path, AI & Society,
  • F. Tobar, F. Bravo-Marquez, J. Dunstan, J. Fontbona, A. Maass, D. Remenik, J. F. Silva (2021), Data science for engineers: A teaching ecosystem, IEEE Signal Processing Magazine, vol. 38 (3), p. 144-153,
  • J. Dunstan, M. Aguirre, M. Bastías, C. Nau, T. A. Glass, F. Tobar (2020), Predicting nationwide obesity from food sales using machine learning, Health Informatics J, vol. 26 (1), p. 652-663,
  • B. Poblete, J. Guzman, J. Maldonado, F. Tobar (2018), Robust detection of extreme events using Twitter: Worldwide earthquake monitoring, IEEE Transactions on Multimedia, vol. 20 (10), p. 2551-2561,

Ubicación

Beauchef 851
Santiago – Chile

Contacto

  • Envíanos tus preguntas a través de este formulario

8 + 4 =