Sesgo y varianza en aprendizaje automático: guía completa y practica

সর্বশেষ আপডেট: 11/23/2025
লেখক: C SourceTrail
  • Sesgo es error system y varianza es sensibilidad al muestreo; el MSE se descompone en Bias² + Var + σ².
  • রেগুলারাইজেশন, ডাইমেনশনালিডাড ওয়াই ডাটোস গোবিয়ারনান এল ইকুলিব্রিও: মেনোস কমপ্লেজিডাড এবং ম্যাস ডাটোস রিডেন্সেন ভ্যারিয়ানজা, ম্যাস রাসগোস বাজান সেগো।
  • En k-NN, el sesgo crece con ky la Varianza cae; ব্যাগিং কমানো variantza y বুস্টিং কমানো sesgo.
  • পার্থক্য sesgo estadístico (MSE) de sesgo de equidad y mídelo con métricas y auditorías por grupo.

Ilustración de sesgo y varianza en aprendizaje automático

En aprendizaje supervisado, el equilibrio entre sesgo y varianza es el quid de la cuestión: hay que capturar la estructura real de los datos sin quedarse con el ruido. La gracia (y el dolor de cabeza) está en que, por lo General, no se pueden minimizar ambos a la vez; cuanto más fuerzas uno, más sufre el otro.

Para situarnos, cuando hablamos de sesgo y varianza aquí hablamos de rendimiento estadístico y de generalización, no de ética. El sesgo estadístico mide qué tan lejos, de media, se va tu modelo de la verdad, y la varianza mide cuánto cambian sus predicciones si vuelves a entrenarlo con otras muestras del mismo proceso generador de datos. ভেরেমোসের সংজ্ঞা ফর্মাল, una derivación paso a paso de la descomposición sesgo-varianza, ejemplos intuitivos, casos como k-vecinos, regularización, clasificación, efectos del tamaño muestral, y hasta paralelismos con RL y la cognición humana, sin olvidarnos del otro “sesgo” (equidad) y.

Qué significan realmente “sesgo” y “varianza” (sentido técnico y etimología)

Aunque a veces se explica de forma antropomorfica (“el modelo llega con ideas preconcebidas”), el termino “sesgo” viene de la estadística: es la diferencia entre la esperanza del estimador y el valor verdadero. En ML, para cada punto x, el sesgo es la distancia sistemática entre la media de las predicciones del modelo (sobre distintos conjuntos de entrenamiento) y la función real f(x)।

La “varianza” se refiere a la পরিবর্তনশীলতা দে লা পূর্বাভাস ডেবিদা একটি ক্যাম্বিয়ার লা মুয়েস্ট্রা ডি entrenamiento. Técnicamente, es Var_D, condicionada ax: si reentrenas con diferentes D muestreados de la misma distribución, ¿cuánto fluctúa \hat f? Que los pesos cambien mucho es un síntoma posible, pero lo que medimos de verdad es la variabilidad de la salida del modelo, no de los parametros en sí.

আনুষ্ঠানিকভাবে প্ল্যান্টেমিয়েন্তো

Suponemos datos generados por y = f(x) + ε, Donde ε tiene media 0 y variantza σ². Contamos con un conjunto de entrenamiento D = {(x₁, y₁), …, (x_n, y_n)} y un algoritmo que una función aprendida \hat f(x; D) উত্পাদন করে। নতুন উদ্দেশ্য f(x) সম্ভবত সবচেয়ে ভালো tanto en el entrenamiento como, sobre todo, en puntos no vistos.

কোমো ε আনাদে রুইডো, হে আন ত্রুটি অপ্রয়োজনীয় que ningún modelo puede eliminar: incluso con \hat f perfecta, el termino ε aporta σ² al error cuadrático medio.

Descomposición sesgo-varianza del error cuadrático

প্যারা আন এক্স ফিজো, el error esperado puede separarse en tres piezas: sesgo al cuadrado, varianza y ruido irreductible. Es la famosa identidad que estructura el diagnóstico y el tuning de modelos.

E_{D,ε} = (Bias_D)^2 + Var_D + σ^2

ডোনডে, আরও বিস্তারিত, সংজ্ঞা:

Bias_D = E_D - f(x)
Var_D  = E_D)^2]

Si tomamos después la expectativa respecto a la distribución de x, obtenemos la MSE এর গ্লোবাল ডি টিপো ফাংশন ভুল কাঠামোর কারণে:

MSE = E_x{ Bias_D^2 + Var_D } + σ^2

Derivación paso a paso (para no quedarse con dudas)

La identidad anterior se obtiene expandiendo el MSE y usando propiedades básicas de la esperanza. Arrancamos de y = f + ε, con E=0 y Var(ε)=σ²:

MSE = E = E - 2 E + E

Desglosando cada pieza: primero, ই = চ² + σ² porque f no depende de los datos y E=0.

E = E = f^2 + 2 f E + E = f^2 + σ^2

দ্বিতীয়, ই = চ ই al ser ε independiente de \hat fy de media cero.

E = E = E + E = f E

Tercero, usamos que E = Var(X) + (E)², con lo que E = Var(\hat f) + (E)².

E = Var(\hat f) + (E)^2

আল রিকম্বিনার: MSE = (f − E)² + Var(\hat f) + σ². El primer término es el sesgo al cuadrado, el segundo la varianza debida al muestreo, y el tercero el ruido অনিবার্য।

Intuiciones visuales y por qué “más parametros” no siempre significa “más complejidad”

Un ejemplo clásico para construir intuición es aproximar una función roja con বেস রেডিয়াল অ্যাজুলেসের ফাংশন. Si las RBF tienen gran “anchura” (curvas muy suaves), el modelo es rígido: আল্টো সেসগো, বাজা ভ্যারিয়েঞ্জা. Si estrechamos la anchura, el modelo se adapta mejor a cada ensayo y puede seguir detalles finos: Baja el sesgo y sube la varianza entre reentrenamientos.

Ojo también a cómo definimos “complejidad”. কনটার প্যারামেট্রোস এনগানা: el modelo f_{a,b}(x) = a·sin(bx) tiene dos parametros y, aun así, puede interpolar un montón de puntos oscilando con frecuencia alta. Ese comportamiento puede traducirse en sesgo y varianza elevados en presencia de ruido, desmintiendo la idea simplona de que “pocos parámetros = modelo simple” siempre.

নির্ভুলতা এবং নির্ভুলতা: একটি অনুরূপ

প্রায়শই ডায়ানা ব্যবহার করা হয়: নির্ভুলতা (নির্ভুলতা) se associa con bajo sesgo (golpes cerca del centro de la diana), y precisión con baja varianza (golpes muy agrupados)। Un ajuste lineal a datos con patrón cuadrático suele ser exacto “de media” solo si la estructura es lineal; si না, aflora আল্টো সেসগো. বিপরীতে, মডেলের নমনীয়তা স্থানীয় নির্ভুলতা, কিন্তু উনা সংবেদনশীলতা অতিরিক্ত আল রুইডো জেনার আলটা ভ্যারিয়ানজা.

নিয়মিত কাজ করুন ব্যাখ্যামূলক: penalizar la complejidad amortigua cuánto “se mueve” el modelo al ver datos parecidos, reduciendo varianza a costa de introducir sesgo controlado (guía sobre ওভারফিটিং এবং আন্ডারফিটিং).

Qué সিদ্ধান্ত sesgo o varianza হ্রাস করেছে (y sus efectos colaterales)

আলগুনাস পালঙ্কাস পুত্র বসন্তে সর্বজনীনঃ মাত্রা বাছাই বা বৈশিষ্ট্য হ্রাস করা সরলীকৃত এল মডেল এবং ভ্যারিয়ানজা হ্রাস; añadir predictores tiende a bajar el sesgo pero সুবে লা ভ্যারিয়েঞ্জা. Más datos, en general, recortan variance y permiten usar modelos de sesgo más bajo.

En modelos concretos hay mandos claros: লাইনাল এবং এমএলজি রেজিস্ট্রেশন se benefician de regularización (L1/L2) para disminuir variance; en redes neuronales, más unidades ocultas সুয়েল বাজার এল সেসগো ওয়াই সুবির লা ভেরিয়াঞ্জা (aunque la visión clásica se matiza con rácticas modernas y regularizadores potentes)। কে-ভেসিনোস, k alto = más sesgo y menos varianza; en árboles, la profundidad controla en gran medida la Varianza y el কেঁটে সাফ লা সীমা লস এনসাম্বল তাম্বিয়ান আয়ুদান: ব্যাগিং হ্রাস বৈচিত্র্য y সেসগো কমাতে সাহায্য করা.

La validación cruzada es tu aliada para ajustar hiperparámetros y encontrar el punto dulce. একাধিক পার্টিশনের মূল্যায়ন করুন permite detectar si andas corto de sesgo o pasado de Varianza sin engañarte con una sola partición afortunada.

k-vecinos más próximos: una formula cerrada que lo deja cristalino

Para la regresión k-NN, con expectativa tomada sobre posibles etiquetados de un conjunto de entradas fijo, existe una expresión que separa claramente sesgo, varianza y ruido:

E = ( f(x) - (1/k) \sum_{i=1}^k f(N_i(x)) )^2 + σ^2/k + σ^2

El primer término es el sesgo (crece con k), el segundo la varianza (se reduce con k) y el tercero el ruido irreductible. Con supuestos razonables, el sesgo del 1-NN tiende a desaparecer cuando el tamaño del conjunto de entrenamiento tiende a infinito.

রেগুলারাইজেশন এন রিগ্রেশন: por qué Lasso y Ridge mejoran el MSE

En minimos cuadrados, la solución OLS es insesgada, pero পুয়েদে টেনার ভ্যারিয়েঞ্জা গ্র্যান্ডে. Lasso (L1) y Ridge (L2) প্রবর্তিত sesgo de forma controlada y, a cambio, কমানো উল্লেখযোগ্যতা la varianta, lo que baja el MSE মোট। এই সমঝোতা entronca con ফলাফল ক্লাসিক কোমো গাউস-মার্কভ (OLS dentro de la familia lineal insesgada দক্ষতা) y límites fundamentales tipo ক্র্যামের-রাও প্যারা estimadores más generales.

শ্রেণীবিভাগ: 0-1 y সম্ভাব্যতা

La descomposición original es para MSE en regresión, pero বিদ্যমান অ্যানালোগোস এবং ক্লাসিফিকেশন con perdida 0-1. Si planteas la tarea como clasificación probabilistica y miras el ত্রুটি cuadrático esperado de las probabilidades predichas frente a las verdaderas, vuelve a aparecer la misma estructura de sesgo, varianza y ruido.

Más datos, menos varianza (y modelos de menor sesgo)

একটি বাস্তব ধারণা: আল ক্রেসার এল কনজেন্টো ডি এনট্রেনামিয়েন্টো, লা ভেরিয়ানজা টিন্ডে এ বাজার. Eso abre la puerta a usar modelos más expresivos (menor sesgo) sin disparar el error total. Con pocos datos, en cambio, suele interesar কন্টেনার ভ্যারিয়েঞ্জা con modelos más simples y regularización fuerte.

Refrendizaje por Refuerzo: un equilibrio primo hermano

Aunque la descomposición formal no se aplica tal cual en RL, la generalización también se entiende como la suma de un sesgo asintótico (propio del algoritmo) তুমি কি শেষ পর্যন্ত? ওভারফিটিং ligado a datos limitados. Dos caras de la misma Moneda: método y muestra.

La mirada de la psicología: heuristicas de alto sesgo/baja varianza

Con datos escasos y ruidosos, el cerebro humano parece optar por reglas simples (alto sesgo) con baja varianza. Esa preferencia puede ser adaptativa: generalizas mejor con poco, a costa de no capturar detalles finos. En tareas como el reconocimiento genérico de objetos, cierto “cableado previo” ayuda y la experiencia lo va afinando.

Sesgo estadístico vs sesgo social en IA (no es lo mismo)

স্বতন্ত্র পার্থক্য: aquí “sesgo” es el ত্রুটি সিস্টেম del estimador. En ética de IA, hablamos de গ্রুপের ভেতরে ট্রাটো ডিজাইনাল (অ্যালগোরিটমোর তথ্য)। Reducir el sesgo estadístico mejora el MSE; মিটিগার এল সেসগো সামাজিক প্ররোচনা ইক্যুইডেড. Ambas agendas se cruzan, pero no son idénticas.

টিপোস ফ্রিকুয়েন্টেস ডি সেসগো এন ডেটাস ওয়াই সিস্টেমস ডি আইএ (ইকুইড্যাড)

  • নির্বাচন পক্ষপাত: la muestra no representa a la población objetivo y টিউয়ার্স লাস প্রেডিকশনস প্যারা সিয়েরটোস সাবগ্রুপস।
  • সেসগো মিউস্ট্রাল: বিভাগ sobrerrepresentadas বা infrarrepresentadas que ডিসেকিলিব্রান এল অ্যাপ্রেন্ডিজাজে.
  • নিশ্চিতকরণ পক্ষপাত: মডেল বা অ্যানোটাসিয়নের সিদ্ধান্ত নেওয়া রিফার্জান এক্সপেক্টিভাস প্রিভিয়াস.
  • চিকিৎসার সেসগো: Datos mal recogidos or instrumentos sesgados বস্তু দূষিত করা.
  • অ্যালগরিদমিক পক্ষপাত: পদ্ধতিটি চালু করা favorecen cierto tipo de relaciones কোন siempre ajustadas a la realidad.
  • সেসগো ডি অ্যাগ্রুপামিয়েন্তো: segmentaciones o classificaciones que agrupan mal y arrastran errors.
  • সেসগো পোর পরিবর্তনশীলতা ডি লস ডেটাস: datos demasiado homogéneos o heterogéneos respecto a producción que সাধারণীকরণের সাক্ষ্য দেওয়া.

Cómo identificar y medir sesgos (equidad) en modelos de IA

  • গ্রুপের মাধ্যমে রেন্ডিমিয়েন্তো: evalúa por separado métricas en sexo, edad, origen, etc., para ডিটেক্টর ব্রেচাস.
  • মেট্রিকাস ডি ডিসপরিডাড: গ্রুপের FPs/FNs এর তালিকা, যথার্থতার পার্থক্য y ইমপ্যাক্টো ডিসপার (সম্ভাব্য ফলাফলের অনুকূল entre grupos)।
  • সংবেদনশীলতার তীব্রতা: cambios controlados en atributos (p. ej., nombre o dirección) প্যারা ver si la predicción se sesga.
  • দৃশ্যকল্প সিমুলেশন: perfiles syntheticos para এক্সপ্লোরার সম্ভাব্য desigualdades (পৃষ্ঠা। উদাহরণ, স্কোরিং ক্রেডিটিসিও)।
  • অবদান বিশ্লেষণ: প্রযুক্তির জন্য LIME/SHAP এর জন্য qué ভেরিয়েবল empujan সিদ্ধান্ত y si algún atributo domina indebidamente.
  • বাহ্যিক নিরীক্ষা: equipos independientes, datos de prueba y প্রোটোকল পুনরুৎপাদনযোগ্য.
  • সমন্বিত সমতা ডি ইভালুয়েশন: পরীক্ষামূলক নকশা medir equidad sin sesgos de base.
  • ক্রস বৈধতা: evalúa la estabilidad del rendimiento por partición y বর্ণনা করুন ভঙ্গুরতা লিগাডাস আল মিউস্ট্রিও।

Por qué los datos anotados pueden introducir sesgos

Las anotaciones son poderosas, pero tienen trampa: la subjetividad humana y los errores repetitivos দেজান হুয়েলা। তিনি এখানে মূল বিষয়গুলি ফোকাস করেছেন:

  • আত্মনিষ্ঠা: escalas y criterias dispares ব্যক্তিত্বের সূচনা.
  • অ্যানোটাডোরের মধ্যে অসঙ্গতি: falta de guía o consenso সম্পর্কে aumenta la Varianza de etiquetas.
  • অনুমোদন: যেসব উপকরণের ইঙ্গিত অ্যালিনিয়ান শিষ্টাচার হিপোটেসিস.
  • মুয়েস্ত্রিও সেসগাদো: si lo que anotamos ya está sesgado, সমস্যা প্রশস্ত করা.
  • মানুষের ভুল: ফাতিগা এবং পরিপূর্ণতা জেনারেশন ফ্যালোস সিস্টেম.
  • টীকা টুল: ইন্টারফেস que empujan options প্ররোচিত সেসগোস টেকনোলজিকোস.

নির্বাচন দেল কনজুন্টো ডি ডেটাস: প্রতিনিধিত্ব, বৈচিত্র্য এবং প্রক্রিয়া

সবকিছুরই ভিত্তি। প্রতিনিধিত্ব: si tu dataset no refleja la población objetivo, el modelo aprenderá a স্বাভাবিক বিকৃতি. বৈচিত্র্য: ভারসাম্য শ্রেণীবিভাগ (edad, genero, etnia, etc.) permite estimar sesgos con মেয়র precision.

এগুলোও গুরুত্বপূর্ণ ক্যালিডাড দে লাস অ্যানোটাসিওনেস (coherencia y guía claras) y la উত্স: fuentes como redes sociales tienen demografías y comportamientos specifices; si solo bebes de ahí, হেরেডারাস সুস সেসগোস.

মেট্রিকাস এবং মূল্যায়ন: ক্লাসিফিকেশন এবং রিগ্রেশন

বাইনারিয়ায় শ্রেণিবদ্ধকরণ, লা বিভ্রান্তি ম্যাট্রিক্স কনসেন্ট্রা অ্যাসিয়ার্টোস ওয়াই ত্রুটি (TP, FP, FN, TN)। মেট্রিকাস ক্লেভ: নির্ভুলতা, নিষ্কাশন/রিকোব্রাডো, F1, এক্সাথে ROC বক্ররেখা (সংবেদনশীলতা বনাম। 1−বিশেষজ্ঞ) y su AUC correspondiente para comparar modelos a distintos umbrales.

En regresión, más allá del MSE/MAE, el কোফিসিয়েন্ট ডি ডিটারমিনেশন R² resume la fracción de varianza explicada: R² = 1 − SS_res/SS_tot. মনোযোগ: তথ্যের মানদণ্ডের সংস্করণগুলি (AIC/BIC) একটি তুলনামূলক মডেলের সাথে আলাদাভাবে সম্পূর্ণ হয়েছে।

মডেল নির্বাচন, বৈধতা ক্রুজাদা এবং নিয়মিতকরণ

ভাগ করুন এবং জয় করুন: প্রশিক্ষণ, বৈধতা এবং পরীক্ষা con partición honesta, o bien k-fold CV para tener más estabilidad. En k-fold, entrenas k veces dejando cada fold como validación una vez; প্রমিডিয়াস ত্রুটি যাচাইকরণ y afinas hiperparámetros desde ahí.

নিয়মিতকরণ (L1/L2, ড্রপআউট, তাড়াতাড়ি বন্ধ করা, ওজন ক্ষয়, ইত্যাদি) কার্যকরী "ফ্রেনো" এবং কার্যকরী প্রক্রিয়া। variantza y previene sobreajuste হ্রাস করুন, asumiendo un sesgo extra que suele compensar con creces el MSE ফাইনাল। En árboles, el পোডা (ছাঁটাই) তোমার কাছে একটা মিসমো স্পিরিটু আছে।

প্রয়োগ এবং ব্যবহারিক সুপারিশ (con un guiño a MLOps)

En dominios sensibles, como সম্পর্কে স্বায়ত্তশাসিত যানবাহন, un modelo muy sesgado puede ignorar peatones atípicos, y uno de alta varianza puede ver অস্থিরতার মতো. ঐন্ মেডিকেল ডায়াগনস্টিক, cuidado con memorizar artefactos de un Hospital que luego hacen fallar en otro centro. Aquí brillan los conjuntos de datos বিভিন্ন ধরণের, el aumento de datos y los ensambles para estabilizar.

En visión por ordenador moderna, familias como Yolo ভারসাম্য সঠিকতা এবং বেলোসিড্যাড; ajustar hiperparámetros como ওজন_ক্ষয় ayuda a controlar la varianza. Un ejemplo genérico en Python usando el paquete de Ultralytics para ilustrar la idea:

from ultralytics import YOLO

# Cargar un modelo ligero de la familia YOLO
model = YOLO("yolo-nano.pt")

# Entrenar ajustando weight_decay para controlar la varianza (sobreajuste)
results = model.train(data="coco8.yaml", epochs=10, weight_decay=5e-4)

ইন্টিগ্র estos ajustes con Monitorización continua, এমএল পর্যবেক্ষণযোগ্যতা ইকুইডের নিরীক্ষক। কোন কাজ নেই: sin validación robusta y datos de Calidad, el mejor truco de regularización se queda corto.

Para cerrar el círculo, recuerda que todo este andamiaje convive con conceptos como ভবিষ্যদ্বাণীর ব্যবধান (incertidumbre total para nuevos puntos), cotas de información y garantías estadísticas. আফিনার এল ব্যালেন্স সেগো-ভেরিয়ানজা, elegir el modelo adecuado a los datos que tienes y medir bien lo que importa son las claves que marcan la diferencia en producción.

ওভারফিটিং বনাম আন্ডারফিটিং
সম্পর্কিত নিবন্ধ:
ওভারফিটিং বনাম আন্ডারফিটিং: guía completa con señales, causas y solutions
সম্পর্কিত পোস্ট: