Sunday 29 October 2017

Loess Vs Media Móvil


Un promedio de suavizado simple puede interpretarse como una regresión lineal local con un núcleo rectangular. Un núcleo rectangular asigna pesos iguales (lea importancia) a cada punto que caiga dentro de su soporte del kernel (ventana de lectura). Si piensa que esta suposición encapsula adecuadamente sus hipótesis de modelado, entonces no tiene ninguna razón para no elegir un promedio móvil simple para suavizar. Si crees que esta suposición es un poco simplista. Lee a lo largo Vamos a suponer que vemos los datos (yi, ti), pero en realidad lo que está pasando es que yi y (ti) epsiloni donde y tiene una forma paramétrica impar pero lisa y epsilon sim N (0, sigma2). Al suavizar tratamos de estimar y. Podríamos seguir adelante y encajar un modelo en todos los datos como: y beta0 beta1 t epsilon (o un polinomio de grado superior) pero sospechamos que esto es demasiado restrictivo. Tenemos la comprensión implícita de que los datos cercanos a un punto de tiempo t son más relevantes para el valor y (t) que los datos más alejados de t. Así que decidimos construir una ventana alrededor de t, digamos t-b, tb donde b es un ancho de banda. Ahora bien, si la suposición es que todos los puntos dentro de t-b, tb son igualmente importantes para estimar y (t) entonces un núcleo rectangular donde todo el punto es ponderado, el mismo es perfecto para nosotros. Pero tal vez pensamos. Dentro de la ventana algunos puntos centrales importan más y probamos otro núcleo) (eg triangular o Epanechnikov) que asigna mayor importancia a los puntos centrales. O en realidad no estamos realmente seguros acerca de la asunción de una ventana para empezar con lo que cabe probar un kernel (por ejemplo, gaussiana) que tiene un apoyo infinito. (B siempre se debe estimar mediante validación cruzada). La regresión lineal local da la capacidad de probar y de incorporar realmente todos estos supuestos a nuestras estimaciones finales para y. Por último, permítanme señalar que lowess / loess están utilizando la regresión lineal ponderada localmente para suavizar los datos, pero son sólo un tipo de los métodos polinomiales locales (por ejemplo, el estimador de NadarayaWatson, uno de los primeros estimadores de este tipo) utilizado en semi-paramétrico regresión. Otros modelos (por ejemplo, métodos de penetración de rugosidad, como el alisado de spline) también están disponibles ver Modelos Estadísticos de A. C. Davison. Cap. 10.7 para una introducción agradable y concisa. Responde Apr 3 a las 3: 01mike, primero instale R (si no lo ha hecho), ejecute R e instale el paquete TeachingDemos (exactamente cómo depende de su sistema), cargue el paquete con la biblioteca (TeachingDemos) y teclee loess. demo para traer Hasta la página de ayuda para ver cómo ejecutarlo, puede desplazarse a la parte inferior donde están el ejemplo y copiar y pegar ese código a la línea de comandos de R39s para ver los ejemplos, a continuación, ejecutar con sus propios datos para explorar aún más. Ndash Greg Snow Mar 23 12 a las 17:15 Aquí hay una respuesta simple pero detallada. Un modelo lineal se ajusta a una relación a través de todos los puntos de datos. Este modelo puede ser de primer orden (otro significado de lineal) o polinomial para tener en cuenta la curvatura, o con splines para tener en cuenta diferentes regiones que tienen un modelo de gobierno diferente. Un ajuste LOESS es una regresión ponderada localmente basada en los puntos de datos originales. Lo que significa que un ajuste LOESS ajusta los valores originales de X e Y, más un conjunto de valores X de salida para calcular nuevos valores de Y (usualmente se usan los mismos valores de X para ambos, pero se usan menos X para los pares XY ajustados Debido al aumento de la computación requerida). Para cada valor X de salida, se utiliza una porción de los datos de entrada para calcular un ajuste. La porción de los datos, generalmente 25 a 100, pero típicamente 33 o 50, es local, es decir, es la porción de los datos originales más cercanos a cada valor X de salida particular. Es un ajuste en movimiento, ya que cada valor de salida X requiere un subconjunto diferente de los datos originales, con pesos diferentes (véase el siguiente párrafo). Este subconjunto de puntos de datos de entrada se utiliza para realizar una regresión ponderada, con los puntos más cercanos al valor X de salida dado mayor peso. Esta regresión es generalmente de primer orden de segundo orden o superior es posible, pero requieren mayor poder de cálculo. El valor Y de esta regresión ponderada calculada en la salida X se utiliza como el valor Y de los modelos para este valor X. La regresión se recalcula en cada valor X de salida para producir un conjunto completo de valores Y de salida. Respondió 21 de febrero a las 21: 08LOESS es uno de los muchos métodos modernos de modelado que se basan en métodos clásicos, como la regresión lineal y no lineal de mínimos cuadrados. Los métodos de regresión modernos están diseñados para abordar situaciones en las que los procedimientos clásicos no funcionan bien o no pueden aplicarse eficazmente sin trabajo indebido. LOESS combina gran parte de la simplicidad de la regresión lineal de mínimos cuadrados con la flexibilidad de la regresión no lineal. Esto se hace mediante la instalación de modelos simples a subconjuntos localizados de los datos para construir una función que describe la parte determinista de la variación en los datos. punto por punto. De hecho, una de las principales atracciones de este método es que el analista de datos no está obligado a especificar una función global de cualquier forma para ajustar un modelo a los datos, sólo para ajustar segmentos de los datos. El trade-off para estas características es el aumento de la computación. Debido a que es tan computacionalmente intensivo, LOESS habría sido prácticamente imposible de usar en la época en que se estaba desarrollando la regresión por mínimos cuadrados. La mayoría de los otros métodos modernos para el modelado de procesos son similares a LOESS en este sentido. Estos métodos han sido concientemente diseñados para usar nuestra capacidad computacional actual para obtener la mayor ventaja posible para alcanzar objetivos que no se logran fácilmente mediante enfoques tradicionales. Definición de LOESS Modelo LOESS, originalmente propuesto por Cleveland (1979) y desarrollado posteriormente por Cleveland y Devlin (1988). Denota específicamente un método que es (algo) más descriptivamente conocido como regresión polinomial localmente ponderada. En cada punto del conjunto de datos un polinomio de bajo grado se ajusta a un subconjunto de los datos, con valores de las variables explicativas cerca del punto cuya respuesta está siendo estimada. El polinomio se ajusta utilizando mínimos cuadrados ponderados, dando más peso a puntos cercanos al punto cuya respuesta se está estimando y menos peso a puntos más alejados. El valor de la función de regresión para el punto se obtiene evaluando el polinomio local utilizando los valores de la variable explicativa para ese punto de datos. El ajuste LOESS se completa después de calcular los valores de la función de regresión para cada uno de los (n) puntos de datos. Muchos de los detalles de este método, tales como el grado del modelo polinomial y los pesos, son flexibles. El rango de opciones para cada parte del método y los valores predeterminados típicos se discuten brevemente a continuación. Subconjuntos localizados de datos Los subconjuntos de datos utilizados para cada ajuste de mínimos cuadrados ponderados en LOESS están determinados por un algoritmo de vecinos más cercano. Una entrada especificada por el usuario al procedimiento denominado ancho de banda o parámetro de suavizado determina cuánto de los datos se utiliza para ajustar cada polinomio local. El parámetro de suavizado, (q), es un número entre (d1) / n) y (1), con (d) el grado del polinomio local. El valor de (q) es la proporción de datos utilizados en cada ajuste. El subconjunto de datos utilizado en cada ajuste de mínimos cuadrados ponderados se compone de los puntos (nq) (redondeado al siguiente número entero mayor) cuyos valores de las variables explicativas están más próximos al punto en el que se está estimando la respuesta. (Q) se denomina parámetro de suavizado porque controla la flexibilidad de la función de regresión LOESS. Los valores grandes de (q) producen las funciones más suaves que se mueven menos en respuesta a fluctuaciones en los datos. Cuanto menor sea (q), cuanto más cercana esté la función de regresión a los datos. Usar un valor demasiado pequeño del parámetro de suavizado no es deseable, sin embargo, ya que la función de regresión eventualmente comenzará a capturar el error aleatorio en los datos. Los valores útiles del parámetro de suavizado se encuentran típicamente en el intervalo de 0,25 a 0,5 para la mayoría de las aplicaciones LOESS. Grado de polinomios locales Los polinomios locales aptos para cada subconjunto de los datos son casi siempre de primer o segundo grado que es, ya sea localmente lineal (en el sentido de línea recta) o localmente cuadrático. El uso de un polinomio de cero grados convierte a LOESS en una media móvil ponderada. Un modelo local tan simple podría funcionar bien en algunas situaciones, pero no siempre puede aproximarse suficientemente a la función subyacente. Los polinomios de grado superior funcionarán en teoría, pero producirán modelos que no están realmente en el espíritu de LOESS. LOESS se basa en las ideas de que cualquier función puede ser bien aproximada en un pequeño vecindario por un polinomio de bajo orden y que los modelos simples pueden ajustarse fácilmente a los datos. Los polinomios de alto grado tenderían a superponer los datos en cada subconjunto y son numéricamente inestables, lo que dificulta los cálculos precisos. Como se mencionó anteriormente, la función de peso da más peso a los puntos de datos más cercanos al punto de estimación y el menor peso a los puntos de datos que están más alejados. El uso de los pesos se basa en la idea de que los puntos cercanos entre sí en el espacio de la variable explicativa tienen más probabilidades de estar relacionados entre sí de una manera simple que los puntos que están más separados. Siguiendo esta lógica, los puntos que probablemente seguirán el modelo local influirán mejor en las estimaciones de parámetros del modelo local más. Los puntos que son menos propensos a ajustarse realmente al modelo local tienen menor influencia en las estimaciones de los parámetros del modelo local. La función de peso tradicional utilizada para LOESS es la función de peso tri-cubo, w (x) izquierda (1 - x3) 3 mbox

No comments:

Post a Comment