Resumen del libro de Molnar
Dada la ecuación lineal a ajustar por el modelo:
\(y = \omega_0 + \omega_1 x_1 + \omega_2 x_2 + \ldots + \omega_n x_n\)
Se puede interpretar cada uno de los coeficientes \(\omega_i\) como: manteniendo todos los demás factores constantes, un incremento de una unidad en \(x_i\) se asocia con un incremento de \(\omega_i\) en \(y\).
El valor de cada coeficiente está intrínsecamente relacionada con la importancia de cada atributo, pero también es altamente dependiente de la variación de dicho atributo. Por eso es importante normalizar los atributos para poder comparar los coeficientes entre sí.
Además, la correlación entre atributos puede hacer que los coeficientes no tengan sentido. Para eso se pueden usar ténicas de regularización como LASSO.
Este tipo de modelos se basa en una regresión lineal ajustando la regresión a una distribución de probabilidad no gaussiana, y aplicándole una función de enlace.
\(g(E(y|x)) = \omega_0 + \omega_1 x_1 + \omega_2 x_2 + \ldots + \omega_n x_n\)
El caso de la regresión logística es un caso particular de GLM donde \(g=ln\) y la distribución es binomial.
La interpretación de los coeficientes depende de la función de enlace:
Los GAM son una extensión de los GLM que permiten ajustar funciones no lineales a los atributos.
\(g(E(y|x)) = \omega_0 + f_1(x_1) + f_2(x_2) + \ldots + f_n(x_n)\)
Normalmente se usan splines para ajustar funciones no lineales a los atributos.
Un árbol de decisión se puede interpretar como una división del espacio de atributos en subconjuntos, donde cada subconjunto se asocia con un nodo hoja.
\(y = \sum_{a=1}^A c_a I(x \in R_i)\)
Los árboles de decisión se interpretan por la decisión en cada nodo, y la importancia de cada atributo se mide por la cantidad de veces que se usa en el árbol.
\(IF(cond[\And]) \rightarrow THEN(class)\)
Las reglas de estos modelos son altamente interpretables ya que se asemejan al lenguaje natural.
Cada reglar se puede medir principalmente con 2 valores, que suelen ser inversamente proporcionales:
Modelo que ajusta nodos hoja de un árbol de decisión como atributos de un modelo lineal.
La importancia de cada atributo se mide como en un modelo lineal:
\(P(C_k|x) = \frac{P(x|C_k)P(C_k)}{P(x)}\)
Es fácilmente interpretable la importancia de cada atributo \(P(x|C_k)\).
Al ser un modelo basado en instancias (datos) no puede tener ciertas interpretaciones, como global o modular.
El modelo es interpretable en tanto en cuanto sus atributos (una instancia concreta) son interpretables. Es decir, su interpretabilidad se reduce con el número de atributos.
Modelo | Datos Lineales | Datos NO Lineales | Relación Entre Atributos | Interpretación Intrínseca | Interpretación Global | Interpretación Local | Atributos Numericos | Atributos Categoricos | Consistente | Estable |
---|---|---|---|---|---|---|---|---|---|---|
Regresión Lineal | ☑️ | ❌ | ❌ | ☑️ | ☑️ | ☑️ | ☑️ | ~ | ☑️ | ☑️ |
GLM - GAM | ☑️ | ☑️ | ~ | ❌ | ❌ | ~ | ☑️ | ~ | ~ | ~ |
Árboles | ❌ | ☑️ | ☑️ | ☑️ | ~ | ☑️ | ~ | ☑️ | ❌ | ❌ |
Reglas | ❌ | ☑️ | ☑️ | ~ | ~ | ☑️ | ❌ | ☑️ | ☑️ | ❌ |
RuleFit | ~ | ☑️ | ☑️ | ~ | ❌ | ☑️ | ☑️ | ☑️ | ~ | ❌ |
Una posible propuesta de cómo medir la interpretabilidad local de un modelo de forma cuantitativa:
Encontrar \(N\) modelos puramente lineales que aproximen el modelo original en una región separada por reglas (similar a árboles de regresión pero basado en reglas y no en nodos).
Medir cuántas reglas hacen falta para aproximar el modelo con un error \(\lt \epsilon\)
Este método se podría usar tanto para calcular la interpretabilidad (complejidad) de un dataset ¿Cuántas reglas necesito para ajustar este dataset con \(1-\epsilon\) de precisión: cálculo numérico.
como para medir la interpretabilidad de un modelo ¿Cuántas reglas necesito para ajustar este modelo con \(1-\epsilon\) de precisión sobre la predicción: cálculo analítico.
Tras ajustar un dataset con reglas que separen el espacio y ajustar un modelo lineal continuo en cada región:
Tras ajustar un modelo con reglas que separen el espacio y ajustar un modelo lineal continuo en cada región:
Un dataset/modelo será más interpretable cuantas menos reglas necesite y/o menos atributos tenga cada modelo lineal.
PhD xAI