Trabajos Fin de Máster en Tecnologías Big Data

¿Te atreves a ser parte activa de la transformación tecnológica de los próximos años?
Desplazar al contenido

Sobre nosotros

Desde Gradiant trabajamos para incorporar las TIC a los procesos y productos de las empresas. Desarrollamos soluciones tecnológicas desde el punto de vista de la conectividad, la inteligencia y la seguridad para trabajar mano a mano con la industria de nuestro entorno.

Nuestro éxito radica única y exclusivamente en la calidad humana, la implicación y la responsabilidad de cada una de las personas que formamos Gradiant.

Lo que encontrarás

¡Nos encanta lo que hacemos! Creemos en la tecnología como fuente de progreso y en la creatividad como valor fundamental para el desarrollo tecnológico. Por eso, queremos seguir haciéndolo. ¿Cómo? Sumando a nuestras capacidades más profesionales, comprometidos con nuestros valores, que nos representan, que reflejan cómo entendemos el día a día cuando trabajamos, que muestran cómo nos relacionamos con nuestro entorno.

Nuestra organización está organizada por 5 áreas tecnológicas, dispones de más información aquí.

Qué proyectos tenemos:

Análisis de los sistemas OLAP modernos

Actualmente han emergido una nueva serie de sistemas de bases de datos OLAP como Clickhouse o Apache Pinot entre otros. se propone realizar un estado del arte sobre dichos sistemas, así como las diferentes tecnologías que utilizan para lograr este objetivo y sus limitaciones

Estado del arte de las Bases de datos New SQL

En la actualidad existen Bases de datos orientados a las operaciones de un negocio (OLTP) y bases de datos orientadas al análisis eficiente de los datos (OLAP). Las Bases de datos NewSQL tratan de unir ambos mundos, ofreciendo un único sistema en el que realizar operaciones transacciones y operaciones analíticas sobre los datos de forma eficaz. En este TFM se propone realizar un estado del arte de este nuevo tipo de Bases de Datos emergentes

Estado del arte de las soluciones ofrecidas como catálogos de datos

Un problema en la actualidad ya no es la falta de datos a la hora de afrontar tareas de análisis de datos, si no ser capaz de tener los datos localizados, documentados, saber de donde provienen, que defectos tienen, etc Existe una línea de trabajo en torno a herramientas de Catálogos de datos, que tratan de solucionar este problema, buscando ofrecer la máxima cantidad de MetaInformación posible a aquellas personas que traten de explotar un conjunto o varios, de datos almacenados. En este TFM se trataría de ver el estado del arte de dichas herramientas, probándolas, viendo su estado de madurez y comparando las diferentes funcionalidades que ofrece cada una

Estado del arte de las plataformas de streaming de eventos

Los sistemas de streaming de eventos, se han convertido en un componente clave en las arquitecturas de datos actuales, esto se debe entre muchas otras cosas, a la capacidad de ingesta de una gran cantidad de datos y proporcionar resultados cercanos al tiempo real. Dentro del ecosistema actual de este tipo de soluciones, Apache Kafka se trata una de las herramientas predominantes en la industria, pero a día de hoy ya nos podemos encontrar con otras alternativas más recientes como Apache Pulsar y RedPanda. En este TFM se propone estudiar las diferentes herramientas que existen y realizar un análisis de sus fortalezas, así como de sus debilidades, en base al estudio de sus arquitecturas internas, características y rendimiento

Desarrollo de un motor de predicción de series temporales

Se pretende desarrollar una aplicación que dado un conjunto de datos en un formato acordado, podamos elegir que algoritmos de predicción de series temporales utilizar, para la predicción de la serie temporal. La idea es que sobre un mismo conjunto de datos se puedan lanzar experimentos utilizando métodos de predicción de series temporales clásicos como ARIMA y sus variantes, así como métodos del estado del arte actual como N-Beats. Así mismo, resulta de especial intereses la captura de resultados, así como de configuración de los modelos de predicción, para que sea posible evaluar que técnica de predicción ofrece mejores resultados sobre un conjunto de datos dado.

Desarrollo de un motor de recomendación basado en técnicas de Deep Learning

Se pretende desarrollar una aplicación que dado un conjunto de datos en un formato acordado, aplique técnicas de deep learning para generar recomendaciones basadas en contenido y/o filtrado colaborativo, utilizando técnicas de Deep Learning (un ejemplo son los tower models). Así mismo, se trabajará también en la captura de los resultados de entrenar y ejecutar los modelos, así como en la implementación de métricas, siendo estás últimas un aspecto clave para la correcta evaluación de los sistema de recomendación entrenados. En este último apartado entran en juego la evaluación de que elementos recomienda el modelo, si recomienda nuevos elementos o siempre los mismos, la calidad de las recomendaciones, que conjuntos de usuarios resultan problemáticos a la hora de generar una recomendación, etc.

Creación de una aplicación de procesamiento distribuido sobre Amazon EMR y/o Google Cloud Dataproc

Creación y ejecución de jobs de Flink o Spark sobre Amazon EMR (combinado posiblemente con Hudi, Redshift o Snowflake) o Google Cloud Dataproc (combinado posiblemente con otras herramientas del ecosistema, como Dataflow, BigQuery y Datalab)

Realización de un survey sobre tecnologías de data lakes

Un data lake es un repositorio de almacenamiento que contiene una gran cantidad de datos en bruto que se mantienen allí mientras sea necesario. A diferencia de un data warehouse jerárquico que almacena datos en ficheros o carpetas, un data lake utiliza una arquitectura plana para almacenar los datos. Se pretende realizar un estudio comparativo de las distintas alternativas disponibles actualmente para esta tipología de herramientas de almacenamiento big data, entre ellas Delta Lake (Databricks), Apache Hudi (Uber) o Apache Iceberg (Netflix / Apple) aplicadas a un caso de uso representativo.

Detección de ciberataques mediante el análisis de comportamiento de usuarios y entidades

Se pretende desarrollar un prototipo que permita la detección de actividad sospechosa utilizando técnicas de Machine Learning/Deep Learning a través del análisis del comportamiento de usuarios y entidades (User and Entity Behaviour Analytics, UEBA) de una determinada compañía.

Análisis de estrategias de Active Learning

En en grupo de Video Analytics, se cuenta con múltiples bases de datos de imágenes y vídeos a partir de las cuales se entrenan esquemas de Machine Learning / Deep Learning para resolver problemas de detección, clasificación o segmentación. Estas bases de datos son a menudo de gran tamaño y por lo tanto difíciles de gestionar, y uno de los mayores problemas es el de identificar aquella información o "frames" más críticos o útiles para entrenar redes neuronales adecuadas a cada problema. Este proceso de identificación es clave dentro del flujo de trabajo de Video Analytics, y de cualquier esquema de desarrollo basado en redes neuronales. En esta línea, se pretenden integrar en el framework de Deep Learning the Gradiant estrategias de Active Learning, por las cuales los propios algoritmos de aprendizaje sugieren qué información o frames deben ser anotados de forma manual, permitiendo así orientar el etiquetado sólo a estos, y minimizando la cantidad de trabajo manual requerida.

Qué ofrecemos:

✔️ Remuneración: Remuneración desde el comienzo de la beca, con posibilidades reales de incorporación al Centro una vez finalizada la colaboración.

📙 Presupuesto de formación personal. Disponemos de un plan de formación totalmente abierto formación dado que queremos ayudarte a mejorar tus habilidades técnicas, a sentirte involucrado en la comunidad tech y a desarrollar tus habilidades.

📈 Trayectoria profesional. Disponemos de un sistema de evaluación de desempeño para favorecer el seguimiento y el crecimiento profesional.  Te ofrecemos la posibilidad de desarrollar tu carrera profesional en el ámbito de las últimas tecnologías de análisis Big Data.

📖 Iniciativas internas de aprendizaje. Organizamos Coding Dojos y lightning talks a nivel interno con el objetivo de intercambiar el conocimiento dentro de nuestra organización. Sé el conductor o el asistente, ¡tú eliges!

💬 Sé parte activa de la comunidad tecnológica. Oportunidad de asistir y participar en eventos tecnológicos locales e internacionales. ¡Estamos haciendo cosas muy chulas y nos sentimos muy orgullosos de compartirlas!

👕 Nuestra cultura es nuestro objetivo: Un ambiente de trabajo en el que la comunicación horizontal es nuestra máxima. 

🌍 Tu eliges! Configura tu estación de trabajo. Tanto si prefieres Linux o Windows, 1 pantalla adicional o 2... disfruta de tu flamante configuración para trabajar en nuestras oficinas o en casa!

🏡 Nos gusta superar las barreras, trae tu talento y trabaja desde casa. (Tras la situación de COVID, ahora somos totalmente remotos). Somos capaces de buscar la mejor combinación de días remotos y de oficina.

⚖️ Conciliación de la vida laboral y familiar. Si tienes hijos o quieres ir al gimnasio por la mañana... ¡Tu equilibrio entre vida y trabajo es realmente importante para nosotros! Nuestro esquema de tiempo de trabajo es flexible y sólo tienes que compartir tus preferencias con tu responsable directo. ¡Encontraremos el mejor ajuste para ti!

🏟️ Eventos de empresa. ¡Trabaja duro, juega duro! Nos esforzamos al máximo cada día incluso en nuestros eventos habituales, tras la situación de Covid hemos tenido que adaptarnos. Ahora será a distancia pero, volveremos!

¿ Te interesa?, o, ¿conoces a alguien que encaje perfectamente? ¡Te estamos esperando!

Información adicional

  • Estado remoto

    Remoto temporalmente

¿Conoces a alguien que pudiera interesarle? Cuéntaselo!

Vigo

Gradiant (Centro Tecnolóxico de Telecomunicacións de Galicia)
36214 Vigo Direcciones

¿Ya trabajas para Gradiant?

¡Ayúdanos a encontrar a tu próximo compañero/a!

email
@gradiant.org
Teamtailor

Herramientas de captación de Teamtailor