Python Con Ciencia De Datos Por M Meenachi Sundaram PDF Download

Are you looking for read ebook online? Search for your book and save it on your Kindle device, PC, phones or tablets. Download Python Con Ciencia De Datos Por M Meenachi Sundaram PDF full book. Access full book title Python Con Ciencia De Datos Por M Meenachi Sundaram.

PYTHON CON CIENCIA DE DATOS Por M. Meenachi Sundaram

PYTHON CON CIENCIA DE DATOS Por M. Meenachi Sundaram
Author: MEENACHISUNDARAM.M
Publisher: MEENACHI SUNDARAM
Total Pages: 277
Release: 2024-09-05
Genre: Computers
ISBN:

Download PYTHON CON CIENCIA DE DATOS Por M. Meenachi Sundaram Book in PDF, ePub and Kindle

PYTHON CON CIENCIA DE DATOS Por M. Meenachi Sundaram TABLA DE CONTENIDO PYTHON CON CIENCIA DE DATOS.. 13 CAPÍTULO 1: CONCEPTOS ESTADÍSTICOS.. 13 1. Población y muestra. 13 2. Distribución normal 14 3. Medidas de tendencia central 16 4. Varianza y desviación estándar 16 5. Covarianza y correlación. 17 6. Teorema del límite central 19 7. Valor p. 20 8. Valor esperado de variables aleatorias. 22 9. Probabilidad condicional 24 10. Teorema de Bayes. 25 5 CONCEPTOS ESTADÍSTICOS IMPORTANTES PARA CADA CIENTÍFICO DE DATOS 26 1. Estadísticas descriptivas. 26 2. Distribuciones de probabilidad. 28 3. Reducción de la dimensionalidad. 30 4. Submuestreo y sobremuestreo. 32 5. Estadísticas bayesianas. 34 MÓDULO DE ESTADÍSTICAS DE PYTHON.. 35 Métodos estadísticos. 35 CAPÍTULO 2: PROBABILIDAD.. 36 Python, números aleatorios y probabilidad. 36 Números aleatorios con Python. 37 Números aleatorios que satisfacen la condición de suma a uno. 41 Generación de cadenas o contraseñas aleatorias con Python. 42 Números enteros aleatorios. 43 Elecciones aleatorias con Python. 47 Muestras aleatorias con Python. 50 Números verdaderamente aleatorios. 52 Opciones aleatorias ponderadas. 55 CAPÍTULO 3: DESVIACIÓN ESTÁNDAR.. 62 Método statistical.stdev() de Python. 62 Definición y uso. 62 Sintaxis. 62 Valores de los parámetros. 63 Parámetro. 63 Descripción. 63 Datos. 63 Obligatorio. Los valores de datos que se utilizarán (pueden ser cualquier secuencia, lista o iterador) 63 Barra X.. 63 Opcional. La media de los datos proporcionados. Si se omite (o se establece en Ninguno), la media se calcula automáticamente. 63 Detalles técnicos. 63 Valor de retorno: 63 CAPÍTULO 4: SESGO Y VARIANZA.. 64 ¿Qué son el sesgo y la varianza?. 64 Sesgo y varianza usando Python. 64 CAPÍTULO 5: MÉTRICAS DE DISTANCIA.. 68 Comprensión de las métricas de distancia utilizadas en el aprendizaje automático. 68 Estudiaremos: 68 ¿Qué son las métricas de distancia?. 68 Tipos de métricas de distancia en el aprendizaje automático. 69 Distancia euclidiana. 71 Fórmula para la distancia euclidiana. 72 Distancia de Manhattan. 74 Fórmula para la distancia de Manhattan. 74 Distancia de Minkowski 76 Fórmula para la distancia de Minkowski 76 Distancia de Hamming. 78 Conclusión. 80 Agujas. 80 CAPÍTULO 6: ANÁLISIS DE VALORES ATRÍPICOS.. 82 La detección de valores atípicos es el proceso de identificar puntos de datos que tienen valores extremos en comparación con el resto de la distribución. Conozca tres métodos de detección de valores atípicos en Python. 82 ¿Qué es la detección de valores atípicos?. 82 Beneficios de la detección de valores atípicos. 82 Métodos para la detección de valores atípicos en Python. 83 Prerrequisito para la detección de valores atípicos: lectura de datos. 84 Uso de diagramas de caja para la detección de valores atípicos. 84 Uso de bosques de aislamiento para la detección de valores atípicos. 88 Uso de OneClassSVM para la detección de valores atípicos. 90 Dominando la detección de valores atípicos. 90 Parte aislada. 91 ¿Qué son los valores atípicos?. 92 ¿Cuándo son peligrosos los valores atípicos?. 93 ¿Qué estadísticas se ven afectadas por los valores atípicos?. 97 ¿Cuándo eliminar o mantener los valores atípicos?. 98 Tabla de contenido. 100 ¿Cómo tratar los valores atípicos?. 100 Guarnición. 100 Tapado. 100 Discretización. 102 Para distribuciones normales. 102 Para distribuciones sesgadas. 102 Para otras distribuciones. 102 Cómo detectar y eliminar esquemas en Python. 103 Tratamiento de la puntuación Z.. 103 Filtrado basado en IQR.. 106 Método de percentiles. 109 Conclusión. 113 Preguntas frecuentes. 114 CAPÍTULO 7: TRATAMIENTOS DE VALORES FALTANTES.. 116 Cómo manejar los datos faltantes. 116 ¿Por qué completar los datos faltantes?. 116 ¿Cómo saber si los datos tienen valores faltantes?. 118 Diferentes métodos para tratar los datos faltantes. 120 1. Eliminar la columna con datos faltantes. 121 2. Eliminar la fila con datos faltantes. 123 3. Completar los valores faltantes – Imputación. 125 4. Otros métodos de imputación. 128 5. Imputación con una columna adicional 129 6. Relleno con un modelo de regresión. 131 Conclusión. 135 Preguntas frecuentes. 135 Pandas: Reemplazar valores NaN por cero en una columna. 136 1. Ejemplo de sustitución de NaN por cero. 136 2. Reemplace los valores NaN por cero en el DataFrame de pandas. 138 3. Reemplace los valores NaN por cero en una o varias columnas. 138 4. Reemplace los valores NaN por ceros usando replace() 139 5. Uso de DataFrame.replace() en todas las columnas. 140 6. Ejemplo completo para reemplazar valores NaN por ceros en una columna. 141 CAPÍTULO 8: CORRELACIÓN.. 143 NumPy, SciPy y pandas: correlación con Python. 143 Correlación. 143 Ejemplo: Cálculo de correlación de NumPy. 147 Ejemplo: Cálculo de correlación de SciPy. 149 Ejemplo: Cálculo de correlación de pandas. 151 Esta página y la siguiente son sólo de referencia. 153 Correlación lineal 153 Coeficiente de correlación de Pearson. 153 Regresión lineal: implementación de SciPy. 155 Correlación de Pearson: implementación de NumPy y SciPy. 159 Correlación de Pearson: implementación de pandas. 162 Correlación de rangos. 167 Rango: Implementación de SciPy. 169 Correlación de rangos: implementación de NumPy y SciPy. 170 Correlación de rangos: implementación de pandas. 173 Visualización de la correlación. 175 Gráficos XY con una línea de regresión. 176 Mapas de calor de matrices de correlación. 178 Conclusión. 180 CAPÍTULO 9: MÉTRICAS DE ERROR (MEDIDAS DE ERROR) 181 Error cuadrático medio. 181 Error absoluto medio. 181 Error porcentual absoluto medio. 181 Medición de errores de regresión con Python. 182 Medición de errores de regresión. 182 Seis métricas de error para medir errores de regresión. 184 Error absoluto medio (EMA) 184 Error porcentual absoluto medio (MAPE) 185 Error cuadrático medio (MSE) 186 Error absoluto medio (MedAE) 186 Error cuadrático medio (RMSE) 187 Error porcentual absoluto medio (MdAPE) 187 Implementación de métricas de error de regresión en Python: predicción de series temporales 188 Paso n.° 1: Generar datos de series temporales sintéticas. 189 CAPÍTULO 10: REGRESIÓN.. 196 Regresión lineal 197 Regresión logística. 197 Regresión polinómica. 198 Regresión de cresta. 198 Regresión de lazo. 200 Aplicaciones de regresión. 200 Diferencia entre regresión y clasificación en minería de datos. 200 Regresión. 202 CAPÍTULO 11: APRENDIZAJE AUTOMÁTICO.. 203 Aprendizaje automático, aprendizaje profundo y redes neuronales. 203 Métodos de aprendizaje automático. 205 Aprendizaje automático supervisado. 206 Aprendizaje automático no supervisado. 206 Aprendizaje semisupervisado. 208 Algoritmos comunes de aprendizaje automático. 208 Casos de uso de aprendizaje automático en el mundo real 209 Estructura de datos para el aprendizaje automático. 210 ¿Qué es la estructura de datos?. 211 Tipos de estructura de datos. 211 1. Estructura de datos lineal: 212 2. Estructuras de datos no lineales. 215 Estructura de datos de matriz dinámica: 218 ¿Cómo se utiliza la estructura de datos en el aprendizaje automático?. 218 Conclusión. 219 APRENDIZAJE SUPERVISADO.. 220 Aprendizaje automático supervisado. 220 ¿Cómo funciona el aprendizaje supervisado?. 220 Pasos involucrados en el aprendizaje supervisado: 222 Tipos de algoritmos de aprendizaje automático supervisados: 222 1. Regresión. 223 2. Clasificación. 223 Ventajas del aprendizaje supervisado: 225 Desventajas del aprendizaje supervisado: 225 Regresión lineal 225 ¿Cómo funciona?. 226 R de Relación. 235 Predecir valores futuros. 236 ¿Mal ajuste?. 237 Regresión logística. 241 ¿Cómo funciona?. 242 Probabilidad. 244 Función explicada. 244 Resultados explicados. 247 Cómo guardar un modelo de aprendizaje automático. 247 Dos formas de guardar un modelo desde scikit-learn: 248 APRENDIZAJE NO SUPERVISADO.. 255 Aprendizaje automático no supervisado. 255 ¿Por qué utilizar el aprendizaje no supervisado?. 256 Funcionamiento del aprendizaje no supervisado. 256 Tipos de algoritmos de aprendizaje no supervisado: 257 Algoritmos de aprendizaje no supervisado: 258 Ventajas del aprendizaje no supervisado. 259 Desventajas del aprendizaje no supervisado. 259 Aprendizaje supervisado vs. no supervisado. 260 Preparación de datos para el aprendizaje no supervisado. 261 Agrupamiento. 263 Agrupamiento jerárquico. 266 Diferencia entre K-Means y agrupamiento jerárquico. 270 Agrupamiento de t-SNE.. 270 Agrupamiento DBSCAN.. 272 OTROS ALGORITMOS DE APRENDIZAJE AUTOMÁTICO (ML) 275 ACERCA DEL AUTOR.. 276


ADVANCED PYTHON WITH STATISTICAL CONCEPTS

ADVANCED PYTHON WITH STATISTICAL CONCEPTS
Author: MEENACHISUNDARAM.M
Publisher: MEENACHI SUNDARAM
Total Pages: 242
Release: 2024-09-04
Genre: Computers
ISBN:

Download ADVANCED PYTHON WITH STATISTICAL CONCEPTS Book in PDF, ePub and Kindle

PYTHON WITH DATA SCIENCE By M.Meenachi Sundaram TABLE OF CONTENTS PYTHON WITH DATA SCIENCE.. 13 CHAPTER 1: STATISTICS CONCEPTS.. 13 1. Population and sample. 13 2. Normal distribution. 14 3. Measures of central tendency. 15 4. Variance and standard deviation. 16 5. Covariance and correlation. 16 6. Central limit theorem.. 18 7. P-value. 19 8. Expected value of random variables. 21 9. Conditional probability. 23 10. Bayes’ theorem.. 24 IMPORTANT 5 STATISTICAL CONCEPTS FOR EVERY DATA SCIENTIST.. 25 1. Descriptive statistics. 25 2. Probability distributions. 28 3. Dimensionality reduction. 31 4. Under-sampling and Over-sampling. 32 5. Bayesian statistics. 33 PYTHON STATISTICS MODULE.. 34 Statistics Methods. 34 CHAPTER 2: PROBABILITY.. 35 Python, Random Numbers and Probability. 35 Random Numbers with Python. 36 Random Numbers Satisfying sum-to-one Condition. 40 Generating Random Strings or Passwords with Python. 41 Random Integer Numbers. 42 Random Choices with Python. 45 Random Samples with Python. 48 True Random Numbers. 50 Weighted Random Choices. 52 CHAPTER 3: STANDARD DEVIATION.. 58 Python statistics.stdev() Method. 58 Definition and Usage. 58 Syntax. 59 Parameter Values. 59 Parameter 59 Description. 59 Data. 59 Required. The data values to be used (can be any sequence, list or iterator) 59 Xbar. 59 Optional. The mean of the given data. If omitted (or set to None), the mean is automatically calculated 59 Technical Details. 59 Return Value: 59 CHAPTER 4: BIAS AND VARIANCE.. 60 What are Bias and Variance?. 60 Bias and Variance using Python. 60 CHAPTER 5: DISTANCE METRICS.. 63 Understanding Distance Metrics Used in Machine Learning. 63 We will study: 63 What Are Distance Metrics?. 63 Types of Distance Metrics in Machine Learning. 64 Euclidean Distance. 65 Formula for Euclidean Distance. 66 Manhattan Distance. 68 Formula for Manhattan Distance. 68 Minkowski Distance. 70 Formula for Minkowski Distance. 70 Hamming Distance. 72 Conclusion. 74 Points. 74 CHAPTER 6: OUTLIER ANALYSIS.. 76 Outlier detection is the process of identifying data points that have extreme values compared to the rest of the distribution. Learn three methods of outlier detection in Python. 76 What Is Outlier Detection?. 76 Benefits of Outlier Detection. 76 Methods for Outlier Detection in Python. 77 Prerequisite to Outlier Detection: Reading in Data. 77 Using Box Plots for Outlier Detection. 78 Using Isolation Forests for Outlier Detection. 81 Using OneClassSVM for Outlier Detection. 83 Mastering Outlier Detection. 84 Outlier 85 What are Outliers?. 86 When are outliers dangerous?. 87 Which statistics are affected by the outliers?. 90 When to drop or keep outliers?. 91 Table of Contents. 94 How to Treat Outliers?. 94 Trimming. 94 Capping. 94 Discretization. 94 How to Detect Outliers?. 96 For Normal Distributions. 96 For Skewed Distributions. 96 For Other Distributions. 96 How to Detect and Remove Outliners in Python. 97 Z-score Treatment 97 IQR Based Filtering. 99 Percentile Method. 102 Conclusion. 105 Frequently Asked Questions. 106 CHAPTER 7: MISSNG VALUE TREATMENTS.. 107 How to Handle Missing Data. 107 Why Fill in the Missing Data?. 107 How to Know If the Data Has Missing Values?. 109 Different Methods of Dealing with Missing Data. 111 1. Deleting the column with missing data. 111 2. Deleting the row with missing data. 112 3. Filling the Missing Values – Imputation. 114 4. Other imputation methods. 116 5. Imputation with an additional column. 116 6. Filling with a Regression Model 119 Conclusion. 122 Frequently Asked Questions. 122 Pandas – Replace NaN Values with Zero in a Column. 123 1. Example of Replace NaN with Zero. 123 2. Replace NaN Values with Zero on pandas DataFrame. 124 3. Replace NaN Values with Zero on a Single or Multiple Columns. 125 4. Replace NaN Values with Zeroes Using replace() 126 5. Using DataFrame.replace() on All Columns. 126 6. Complete Example For Replace NaN Values with Zeroes in a Column. 128 CHAPTER 8: CORRELATION.. 130 NumPy, SciPy, and pandas: Correlation With Python. 130 Correlation. 130 Example: NumPy Correlation Calculation. 133 Example: SciPy Correlation Calculation. 135 Example: pandas Correlation Calculation. 136 This page and Next page just for reference. 139 Linear Correlation. 139 Pearson Correlation Coefficient 139 Linear Regression: SciPy Implementation. 142 Pearson Correlation: NumPy and SciPy Implementation. 145 Pearson Correlation: pandas Implementation. 147 Rank Correlation. 152 Rank: SciPy Implementation. 153 Rank Correlation: NumPy and SciPy Implementation. 155 Rank Correlation: pandas Implementation. 157 Visualization of Correlation. 158 X-Y Plots with a Regression Line. 159 Heatmaps of Correlation Matrices. 161 Conclusion. 162 CHAPTER 9: ERROR METRICS (ERROR MEASURES) 164 Mean Squared Error 164 Mean Absolute Error 164 Mean Absolute Percent Error 164 Measuring Regression Errors with Python. 165 Measuring Regression Errors. 165 Six Error Metrics for Measuring Regression Errors. 166 Mean Absolute Error (MAE) 167 Mean Absolute Percentage Error (MAPE) 168 Mean Squared Error (MSE) 168 Median Absolute Error (MedAE) 169 Root Mean Squared Error (RMSE) 170 Median Absolute Percentage Error (MdAPE) 170 Implementing Regression Error Metrics in Python: Time Series Prediction. 171 Step #1 Generate Synthetic Time Series Data. 171 Step #2 Preparing the Data. 172 Step #3 Training a Time Series Regression Model 174 Step #4 Making Test Predictions. 174 Step #5 Calculating the Regression Error Metrics: Implementation and Evaluation. 175 CHAPTER 10: REGRESSION.. 177 Linear Regression. 178 Logistic Regression. 178 Polynomial Regression. 179 Ridge Regression. 179 Lasso Regression. 179 Regression Applications. 180 Difference between Regression and Classification in data mining. 180 Regression. 181 CHAPTER 11: MACHINE LEARNING.. 183 Machine Learning vs. Deep Learning vs. Neural Networks. 183 Machine learning methods. 184 Supervised machine learning. 184 Unsupervised machine learning. 185 Semi-supervised learning. 185 Common machine learning algorithms. 186 Real-world machine learning use cases. 187 Data Structure for Machine Learning. 188 What is Data Structure?. 190 Types of Data Structure. 190 1. Linear Data structure: 191 2. Non-linear Data Structures. 193 Dynamic array data structure: 196 How is Data Structure used in Machine Learning?. 197 Conclusion. 197 SUPERVISED LEARNING.. 198 Supervised Machine Learning. 198 How Supervised Learning Works?. 198 Steps Involved in Supervised Learning: 200 Types of supervised Machine learning Algorithms: 200 1. Regression. 201 2. Classification. 201 Advantages of Supervised learning: 202 Disadvantages of supervised learning: 202 Linear Regression. 202 How does it Work?. 204 R for Relationship. 208 Predict Future Values. 210 Bad Fit?. 211 Logistic Regression. 215 How does it work?. 215 Probability. 217 Function Explained. 217 Results Explained. 219 How to Save a Machine Learning Model 219 Two Ways to Save a Model from scikit-learn: 219 UNSUPERVISED LEARNING.. 225 Unsupervised Machine Learning. 225 Why use Unsupervised Learning?. 227 Working of Unsupervised Learning. 227 Types of Unsupervised Learning Algorithm: 228 Unsupervised Learning algorithms: 229 Advantages of Unsupervised Learning. 229 Disadvantages of Unsupervised Learning. 229 Supervised vs. Unsupervised Learning. 230 Preparing Data for Unsupervised Learning. 231 Clustering. 232 Hierarchical Clustering. 234 Difference between K-Means and Hierarchical clustering. 236 t-SNE Clustering. 237 DBSCAN Clustering. 238 OTHER MACHINE LEARNING (ML) ALGORITHMS.. 240 ABOUT THE AUTHOR.. 241 PYTHON WITH DATA SCIENCE CHAPTER 1: STATISTICS CONCEPTS Data science is an interdisciplinary field. One of the building blocks of data science is statistics. Without a decent level of statistics knowledge, it would be highly difficult to understand or interpret the data. Statistics helps us explain the data. Statistics is used to infer results about a population based on a sample drawn from that population. Furthermore, machine learning and statistics have plenty of overlaps. Statistics concepts helps us to become a data scientist.


PYTHON MED DATASCIENCE Af M.Meenachi Sundaram

PYTHON MED DATASCIENCE Af M.Meenachi Sundaram
Author: MEENACHISUNDARAM.M
Publisher: MEENACHI SUNDARAM
Total Pages: 259
Release: 2024-09-05
Genre: Computers
ISBN:

Download PYTHON MED DATASCIENCE Af M.Meenachi Sundaram Book in PDF, ePub and Kindle

PYTHON MED DATASCIENCE Af M.Meenachi Sundaram INDHOLDSFORTEGNELSE PYTHON MED DATASCIENCE.. 13 KAPITEL 1: STATISTIKBEGREP.. 13 1. Population og stikprøve. 13 2. Normalfordeling. 14 3. Mål for central tendens. 16 4. Varians og standardafvigelse. 16 5. Kovarians og korrelation. 17 6. Central grænsesætning. 19 7. P-værdi 20 8. Forventet værdi af stokastiske variable. 22 9. Betinget sandsynlighed. 24 10. Bayes' sætning. 25 VIGTIGE 5 STATISTISKE KONCEPT FOR ENHVER DATAVINER.. 26 1. Beskrivende statistik. 26 2. Sandsynlighedsfordelinger 28 3. Dimensionalitetsreduktion. 30 4. Undersampling og Over-sampling. 31 5. Bayesiansk statistik. 33 PYTHON STATISTIKMODUL.. 34 Statistiske metoder 34 KAPITEL 2: SANDSYNLIGHED.. 35 Python, tilfældige tal og sandsynlighed. 35 Tilfældige tal med Python. 36 Tilfældige tal, der opfylder sum-til-en betingelse. 40 Generering af tilfældige strenge eller adgangskoder med Python. 41 Tilfældige heltal 42 Tilfældige valg med Python. 45 Tilfældige prøver med Python. 49 Ægte tilfældige tal 51 Vægtede tilfældige valg. 53 KAPITEL 3: STANDARDAFVIKLING.. 60 Python statistics.stdev() Metode. 60 Definition og brug. 60 Syntaks. 60 Parameterværdier 61 Parameter 61 Beskrivelse. 61 Data. 61 Påkrævet. De dataværdier, der skal bruges (kan være en hvilken som helst sekvens, liste eller iterator) 61 Xbar. 61 Valgfri. Middelværdien af ​​de givne data. Hvis den udelades (eller indstilles til Ingen), beregnes gennemsnittet automatisk. 61 Tekniske detaljer 61 Returneringsværdi: 61 KAPITEL 4: BIAS OG VARIANS.. 62 Hvad er bias og varians?. 62 Bias og varians ved hjælp af Python. 62 KAPITEL 5: AFSTANDSMETRIK.. 66 Forstå afstandsmålinger, der bruges i maskinlæring. 66 Vi vil studere: 66 Hvad er afstandsmålinger?. 66 Typer af afstandsmålinger i maskinlæring. 67 Euklidisk afstand. 68 Formel for euklidisk afstand. 69 Manhattan afstand. 71 Formel for Manhattan Distance. 71 Minkowski afstand. 73 Formel for Minkowski Distance. 73 Hamming afstand. 75 Konklusion. 77 Points. 77 KAPITEL 6: OUTLIER ANALYSE.. 79 Outlier-detektion er processen med at identificere datapunkter, der har ekstreme værdier sammenlignet med resten af ​​distributionen. Lær tre metoder til outlier-detektion i Python. 79 Hvad er Outlier Detection?. 79 Fordele ved Outlier-detektion. 79 Metoder til Outlier-detektion i Python. 80 Forudsætning for Outlier-detektion: Indlæsning af data. 80 Brug af Box Plots til Outlier Detection. 81 Brug af isolationsskove til outlier-detektion. 84 Brug af OneClassSVM til Outlier-detektion. 86 Mastering Outlier Detection. 87 Outlier 88 Hvad er Outliers?. 89 Hvornår er outliers farlige?. 90 Hvilke statistikker påvirkes af outliers?. 93 Hvornår skal man droppe eller beholde outliers?. 94 Indholdsfortegnelse. 95 Hvordan behandler man outliers?. 96 Trimning. 96 Afdækning. 96 Diskretisering. 97 Til normalfordelinger 97 Til skæve fordelinger 97 Til andre distributioner 97 Sådan opdager og fjerner du outliners i Python. 98 Z-score behandling. 98 IQR-baseret filtrering. 101 Percentilmetode. 104 Konklusion. 108 Ofte stillede spørgsmål 109 KAPITEL 7: MANGLER VÆRDIBEHANDLINGER.. 111 Sådan håndteres manglende data. 111 Hvorfor udfylde de manglende data?. 111 Hvordan ved man, om data mangler værdier?. 113 Forskellige metoder til at håndtere manglende data. 115 1. Sletning af kolonnen med manglende data. 116 2. Sletning af rækken med manglende data. 118 3. Udfyldning af de manglende værdier – imputation. 120 4. Andre imputationsmetoder 123 5. Imputation med en ekstra kolonne. 124 6. Fyldning med en regressionsmodel 126 Konklusion. 129 Ofte stillede spørgsmål 129 Pandaer – Erstat NaN-værdier med nul i en kolonne. 130 1. Eksempel på Erstat NaN med nul 130 2. Erstat NaN-værdier med nul på pandas DataFrame. 132 3. Erstat NaN-værdier med nul på en enkelt eller flere kolonner 132 4. Erstat NaN-værdier med nuller ved hjælp af replace() 133 5. Brug af DataFrame.replace() på alle kolonner 134 6. Komplet eksempel for at erstatte NaN-værdier med nuller i en kolonne. 135 KAPITEL 8: KORRELATION.. 137 NumPy, SciPy og pandaer: Korrelation med Python. 137 Korrelation. 137 Eksempel: NumPy-korrelationsberegning. 140 Eksempel: SciPy-korrelationsberegning. 142 Eksempel: pandaer Korrelationsberegning. 144 Denne side og næste side kun til reference. 146 Lineær korrelation. 146 Pearson korrelationskoefficient 146 Lineær regression: SciPy-implementering. 148 Pearson-korrelation: NumPy- og SciPy-implementering. 151 Pearson-korrelation: panda-implementering. 154 Rank korrelation. 159 Rang: SciPy Implementation. 160 Rank-korrelation: NumPy- og SciPy-implementering. 161 Rang Korrelation: pandaer Implementering. 164 Visualisering af korrelation. 166 XY-plot med en regressionslinje. 167 Heatmaps af korrelationsmatricer 169 Konklusion. 171 KAPITEL 9: FEJLMETRIK (FEJLMÅTNINGER) 172 Mean Squared Fejl 172 Gennemsnitlig absolut fejl 172 Gennemsnitlig absolut procent fejl 172 Måling af regressionsfejl med Python. 173 Måling af regressionsfejl 173 Seks fejlmålinger til måling af regressionsfejl 174 Gennemsnitlig absolut fejl (MAE) 175 Gennemsnitlig absolut fejlprocent (MAPE) 176 Mean Squared Error (MSE) 176 Median absolut fejl (MedAE) 177 Root Mean Squared Error (RMSE) 178 Median absolut fejlprocent (MdAPE) 178 Implementering af regressionsfejlmålinger i Python: Time Series Prediction. 179 Trin #1 Generer syntetiske tidsseriedata. 179 KAPITEL 10: REGRESSION.. 186 Lineær regression. 187 Logistisk regression. 187 Polynomisk regression. 188 Ridge regression. 188 Lasso regression. 190 Regressionsapplikationer 190 Forskellen mellem regression og klassificering i data mining. 190 Regression. 192 KAPITEL 11: MASKINELÆRING.. 193 Machine Learning vs. Deep Learning vs. Neurale netværk. 193 Maskinlæringsmetoder 194 Overvåget maskinlæring. 196 Uovervåget maskinlæring. 196 Semi-superviseret læring. 197 Almindelige maskinlæringsalgoritmer 197 Brugscases til maskinlæring i den virkelige verden. 198 Datastruktur til maskinlæring. 199 Hvad er datastruktur?. 200 Typer af datastruktur 200 1. Lineær datastruktur: 201 2. Ikke-lineære datastrukturer 204 Dynamisk array datastruktur: 207 Hvordan bruges datastruktur i maskinlæring?. 207 Konklusion. 208 OVERVÅGET LÆRING.. 209 Supervised Machine Learning. 209 Hvordan fungerer overvåget læring?. 209 Trin involveret i superviseret læring: 210 Typer af overvågede maskinlæringsalgoritmer: 211 1. Regression. 212 2. Klassifikation. 212 Fordele ved superviseret læring: 213 Ulemper ved superviseret læring: 213 Lineær regression. 213 Hvordan virker det?. 214 R for forhold. 223 Forudsige fremtidige værdier 224 Dårlig pasform?. 225 Logistisk regression. 229 Hvordan virker det?. 230 Sandsynlighed. 233 Funktion forklaret 233 Resultater forklaret 236 Sådan gemmer du en maskinlæringsmodel 236 To måder at gemme en model fra scikit-learn: 237 UOVERVÅGET LÆRING.. 243 Uovervåget maskinlæring. 243 Hvorfor bruge uovervåget læring?. 244 Arbejde med uovervåget læring. 244 Typer af uovervåget læringsalgoritme: 245 Uovervågede læringsalgoritmer: 246 Fordele ved uovervåget læring. 246 Ulemper ved uovervåget læring. 246 Superviseret vs. Ikke-overvåget læring. 247 Forberedelse af data til uovervåget læring. 248 Klynger 249 Hierarkisk klyngedannelse. 251 Forskellen mellem K-Means og hierarkisk klyngedannelse. 254 t-SNE Clustering. 254 DBSCAN Clustering. 255 ANDRE MASKINEINDÆRINGS (ML) ALGORITHMER.. 257 OM FORFATTEREN.. 258