fbpx

Capacitación Big Data

Hemos ganado licitaciones que nos han permitido contribuir al desarrollo profesional de empresas del estado.

Capacitación en SPSS

                                             Capacitación Big data
  1. Estadística descriptiva univariada y bivariada
  2. Definición y codificación de las variables
  3. Manejo de datos missing (perdidos o faltantes)
  4. Análisis exploratorio de los datos
  5. Representación gráfica para  cada  tipo  de  datos  (diferencias  y usos)
  6. Datos categóricos:  tabla  de  frecuencias  y  porcentajes,  gráfico  de  barras, gráfico de tortas.
  7. Medidas resúmenes
  8. Medidas de localización: promedio, promedio ponderado, mediana muestral, moda, cuartiles y otros percentiles.
  9. Medidas  de  dispersión:  rango  muestral,  desviación  estándar  y  varianza muestral, coeficiente de variación, rango intercuantil,
  10. Relaciones entre variables numéricas
  11. Gráficos de dispersión, medidas de correlación, riesgos relativos, asociaciones, relaciones de causalidad, histogramas de dos variables.
  12. Estadística inferencial      
  13. Población y tipo de muestras                
  14. Parámetros poblacionales y estadísticos de prueba                       
  15. Distribuciones    normal,    normal    estándar,    t-student, cuadrado y f.         Chi-
  16. Error estándar de la media                     
  17. Pruebas de hipótesis       
  18. Anova

Capacitación R

                                   Capacitación Big data
  1. Instalación de R (Windows y Linux)
  2. Editores Especializados GUI
  3. Servidores para R
  4. Manipulación de Datos
  5. Los Datos en un vector
  6. Listas Matrices, tabla de datos
  7. Dispositivos gráficos
  8. Lenguaje SQL en R- R y Python R en la Web minería de datos con R
  9. Distribución de probabilidad
  10. Regresión. 
  11. Segmentación.
  12. Análisis de información a nivel Univariado
  13. Datos Cualitativos
  14. Datos Cuantitativos
  15. Elementos de probabilidad
  16. La medida de probabilidad
  17. Análisis de la varianza

MÓDULO I. Librerías para el Manejo de Datos en

1. Anaconda. Instalación y configuración. Spyder.
2. Variables y Parámetros. Importar datos. Control flow.
3. Estructura de datos y secuencias. Series, Tuplas, Listas y Matrices.
4. NumPy.
5. Pandas, DataFrames, Vectores. ETL.

6. SciPy.
7. Scikit-learn: estructura – modelos y alcance.
8. Statsmodels.

9. Librerías para Visualización

MÓDULO II. Procesamiento y Analítica de datos en Python 8 horas

1. Métodos vectoriales en Numpy. 2. Pandas DataFrames. Sorting y Ranking. Operaciones de almacenes de datos en Pandas. 3. Preprocesamiento de Datos. Data Warehousing. 4. Datos Mixtos. Combinación y fusión. Casos. 5. Pandas: agregación de datos. 6. Pandas: Herramientas avanzadas. 7. Serialización. 8. Programación funcional de Python.

MÓDULO III. Algoritmos predictivos de Machine Learning 10 horas

1. Vectorización. 2. Gradiente descendente. Métodos. 3. Regresiones y análisis inferencial. Aplicaciones. 4. Máquinas de soporte vectorial.

MÓDULO IV. Big Data en Hadoop 36 horas

1. Computación distribuida – HPC. 2. Hadoop en contexto. Ecosistema. Referencia de comandos. Configuración del entorno. 3. Hadoop: Particionamiento de bases de datos. Nodos simples. Varios nodos en clúster. 4. MapReduce en HDFS. 5. HDFS – YARN. Operaciones. 6. Crear aplicaciones YARN. Comunicaciones – Cliente y Máster. 7. Apache Hive e Impala. Apache Flume y HBase – Pig. 8. Apache Spark – Arquitectura en clúster. 9. Spark: procesamiento en paralelo – Background e interfaces. 10. Spark Shell: procesamiento en batch y streaming. 11. PySpark: funciones, loops, carga y lectura de bases de datos – RDD – Procesamiento. 12. PySpark: pipelines, machine learning, ejecución distribuida.

MÓDULO V. TensorFlow 12

1. Deep Learning: TensorFlow. 2. TensorFlow: Bases, arquitectura, instalación y configuración. Sesiones y operadores. 3. TensorFlow: Tensorboard – Regresiones y Clasificaciones. 4. TensorFlow ANN – ConvNet – RNN. 5. Alcance: clasificación de Imágenes y texto.

WhatsApp chat