"En ninguna parte alguien concedería que la ciencia y la poesía puedan estar unidas. Se olvidaron que la ciencia surgió de la poesía, y no vieron que cuando los tiempos cambien las dos podrán reunirse de nuevo en un nivel superior como amigas" -Wolfgang Goethe-


domingo, 2 de octubre de 2016

Regresión lineal múltiple con Excel: resolución de mezclas en espectroscopia molecular

Allá por julio de 2015 proponía una entrada sobre la resolución de sistemas de ecuaciones con Excel en la que se usaba como ejemplo la cuantificación en una mezcla de dos sustancias, previa medida de patrones de ambas sustancias por separado. Aquel era un ejemplo simplista, fácil de encontrar en manuales de Química Analítica. A veces la realidad es otra, y para resolver una mezcla de dos o más sustancias no basta con medir los patrones de cada una por separado para obtener unos coeficientes de absortividad molar y resolver así el sistema de ecuaciones. Generalmente se suele medir una serie de patrones, mezcla de los componentes a determinar, registrando la absorbancias a varias longitudes onda. Con estos datos se puede obtener un modelo de regresión lineal múltiple que permita relacionar mediante una función la concentración de cada analito con las absorbancias medidas a las distintas longitudes de onda y cuantificarlos así en una muestra.

El siguiente ejemplo es una simulación hecha en Excel para tres componentes (C1, C2 y C3) en concentraciones molares, midiendo la absorbancia (A1, A2, A3) a tres longitudes de onda. En la simulación se ha empleado un error aleatorio para las señales de un 2% de media. 

C1 C2 C3 A1 A2 A3
0.0075 0.0075 0.0075 1.076 1.08 0.646
0.0025 0.0075 0.0075 0.55 0.965 0.64
0.0075 0.0025 0.0075 0.981 0.615 0.591
0.0025 0.0025 0.0075 0.475 0.55 0.63
0.0075 0.0075 0.0025 1.031 0.96 0.346
0.0025 0.0075 0.0025 0.54 0.91 0.325
0.0075 0.0025 0.0025 0.936 0.55 0.316
0.0025 0.0025 0.0025 0.465 0.435 0.285
0.005 0.005 0.005 0.736 0.775 0.465
0.005 0.005 0.005 0.731 0.785 0.465

Los datos se introducen en la matriz A1:G11, incluyendo encabezados de columna y fila.

Datos de calibración para el ejemplo propuesto



 Tendremos que construir tres modelos de regresión lineal múltiple, uno por cada analito, para relacionar las absorbancias medidas (variables independientes en nuestro modelo) con las concentraciones (variables dependientes). Para ello empleamos la fórmula matricial =ESTIMACION.LINEAL(). 

En el caso de C1, seleccionamos la matriz K2:N6 e introducimos la fórmula =ESTIMACION.LINEAL() desde el menú Formulas/ Insertar función. Como valores de Conocido_y introducimos la matriz B2:B11, que se corresponde con los valores de C1. Como Conocido_x se introducen los valores para A1, A2 y A3, es decir, la matriz E2:G11. Se emplea Constante 1 (VERDADERO) si el modelo contempla un término independiente. En principio lo dejaremos así, si se quisiese obviar se introduce 0 (FALSO). En Estadística introducimos 1 para que calcule errores de los coeficientes, coeficiente de determinación, error de residuales y otros parámetros ya explicados en la entrada sobre regresión lineal en Excel, como el valor F de Fisher, los grados de libertad, suma de cuadrados de regresión y suma de cuadrados de residuales.  Si se prefiere se puede escribir directamente  =ESTIMACION.LINEAL(B2:B11,E2:G11,1,1) con la matriz K2:N6 seleccionada previamente. De cualquiera de las formas, pulsar al mismo tiempo "Ctrl+Alt+Enter".

Formulario de entrada para la función =ESTIMACION.LINEAL()

Si todo ha ido bien, la matriz K2:N6 queda rellena con una serie de valores. En la siguiente figura aparecen dichos valores con unos encabezados explicativos. C1 (en la celda J1) se refiere a la especie 1. C_A1, C_A2 y C_A3 se refiere a los coeficientes que relacionan cada absorbancia con C1. Constant se refiere al termino independiente. En la matriz K2:N2 están los valores de los coeficientes y en la matriz K3:N3 sus errores. El coeficiente de determinación aparece en K4 y el error de residuales en L4. El valor de F, grados de libertad, suma de cuadrados de regresión y suma de cuadrados de residuales aparecen en K5, L5, K6 y L6, respectivamente. Además, más abajo, se incluye el valor calculado de t (valor del coeficiente dividido entre su error) y la probabilidad p de que ese coeficiente valga cero. La explicación de esta prueba la podéis encontrar en una entrada anterior. En este ejemplo, t se calcula en valor absoluto.

Resultados del modelo de regresión lineal para la especie C1


De acuerdo a la prueba t, el coeficiente para A3 (para una probabilidad de 0.05) podría ser obviado, y el modelo recalculado con menos parámetros. Para no alargar la entrada, las pruebas eleminando coeficientes no han sido realizadas.

Algo que conviene recordar es el hecho que los coeficientes par A1, A2 y A3 aparecen en la matriz de resultados en orden inverso a como estén ordenandas las columnas en los datos.

Los resultados para C2 y C3 se realizarían con la misma función. En mi hoja de cálculo lo hice en K18:N22 y K32:N36, respectivamente.

Resultados para C2 y C3
De esta forma se tienen las ecuaciones:

C1 = 0.0103*A1- 0.0019*A2 - 0.00035*A3 + 0.0009
C2 = - 0.002*A1 + 0.0119*A2 - 0.0032*A3 +0.0006
C3 = 7.15*10^(-5)*A1 - 0.0013*A2 + 0.0164 *A3 + 0.002

Los coeficientes de correlación son de 0.996, 0.992 y 0.992 para los tres modelos. El ajuste parece ser adecuado.

Para comprobar la calidad del modelo se han simulado las absorbancias para tres muestras con concentraciones nominales conocidas de la misma forma que se hicieron los patrones. Con las ecuaciones anteriores se calcularon las concentraciones experimentales. Se calculan recuperaciones como (Valor calculado/valor nominal *100). Se observa que los valores de recuperación oscilan entre 93% y 112%, debido al error aleatorio que se le introdujo a las señales. Estos resultados podrían mejorarse si se incluyese un mayor número de medidas de absorbancias y un mayor número de patrones. Pero ese no es el objeto de esta entrada.

Muestras simuladas con sus concentraciones nominales, señales, concentraciones calculadas con el modelo y recuperaciones.
Hemos decidido calcular el modelo con la función matricial =ESTIMACION.LINEAL(), pero el mismo cálculo se podría haber hecho empleando la herramienta de Regresión del complemento Análisis de datos. Por ejemplo, para el compuesto C1:

Herramienta Regresión

Entrada de datos para el compuesto C1
 Hemos seleccionado las matrices de entrada de datos incluyendo el encabezado. Cuando se hace eso es necesario seleccionar Rótulos en el formulario. Ademas se ha seleccionado Residuos y Gráfico de residuales, por si alguien quiere analizar los mismos.
Resultados par C1
La ventaja es que, si se seleccionan los rótulos en el formulario, en la matriz de resultados queda claramente establecido que coeficiente corresponde a cada variable. Además de poder ver el ANOVA y los gráficos de residuales (y la representación de los valores reales y los estimados para los patrones, en caso de seleccionar la Curva de regresión ajustada. Otra ventaja es que se presentan los resultados de significación de cada coeficiente directamente (Probabilidad tras el valor del Estadístico t). En este caso, t no se obtiene en valor absoluto, pero la probabilidad si se obtiene para el valor positivo de t.
Resultados para C1, detalle de los coeficientes
En cuanto a los residuales, es otra ventaja el no tener que calcularlos a mano. En este caso se observa una distribución aleatoria de los mismos.

Detalle de los gráficos de residuales para C1

El mismo procedimiento podría llevarse a cabo para las concentraciones de C2 y C3. La herramienta a emplear es elección de quien realiza los cálculos. Aquí no continuaremos con ello, pero el lector puede comprobar los resultados por sí mismo.

Nota: En este ejemplo hemos generado tres modelos (uno para cada sustancia) que relacionan la concentración de la sustancia con absorbancias medidas a varias longitudes de onda (tres en este caso). Un ejemplo parecido a este, con esta misma forma de proceder se puede encontrar en Miller y Miller, 2002. Está forma de relacionar las variables facilita mucho el cálculo posterior en la muestra, al obtener directamente la concentración de cada analito mediante una función. Si se hubiesen relacionado las absorbancias con las concentraciones podríamos haber obtenido los coeficientes de absortividad molar para cada sustancia a cada longitud de onda. En ese caso, al medir cada muestra nos quedaría  un sistema con tres ecuaciones (tantas como absorbancias medidas) de las que habría que despejar las concentraciones. Esto complica el cálculo, pues primero habría que solucionar el ajuste lineal múltiple y luego el sistema de ecuaciones. Por eso parece más lógico relacionar directamente la concentración de cada sustancia con las absorbancias medidas. Ver: J. N. Miller, J. C. Miller, Estadística y Quimiometría para Química Analítica, Prentice Hall, Madrid, 2002, pp. 239-242

domingo, 25 de septiembre de 2016

¿Son mis coeficientes de ajuste significativamente distintos de cero?

No es la primera vez ni será la última en la que me encuentre a científicos que incluyen el punto (0, 0) en una curva de calibración (me refiero a calibración lineal en toda la entrada). Yo siempre lo desaconsejo, pues para mí el calibrado es válido solo entre los puntos que se incluyen de forma experimental. Además, es muy común que a concentraciones bajas existan desviaciones de la supuesta linealidad del calibrado. En algunas técnicas, como la espectroscopia de absorción atómica con atomización electrotémica (ETAAS) es fácil asumir que el punto (0, 0), que se obtiene poniendo el equipo a cero cuando se mide el blanco, podría ser incluido, porque ciertamente hay buena linealidad a concentraciones muy bajas para esta técnica. Pero en fin, en el fondo es cuestión de escuelas de pensamiento...

Hoy no pretendo hablar de esto, aunque si de algo relacionado. Porque una cosa es incluir el punto (0, 0) en un calibrado cuando se ha medido el blanco y patrones de muy baja concentración (ng/mL, en el ejemplo de ETAAS), y otra es asumir ese valor sin haber comprobado lo que ocurre a concentraciones bajas. Y eso es lo que hace mucha gente cuando "obliga" a la recta de calibración a pasar por el origen de coordenadas. A veces, un valor muy distinto al cero puede ser significativamente igual al mismo, y un valor muy próximo a cero no serlo en absoluto. Aquí repasaremos el test estadístico más habitual para comprobar si un coeficiente es significativamente igual a cero, lo que puede ser utilizado para cualquier tipo de ajuste.

Una serie de datos de calibración, dos opciones de ajuste

Antes de empezar decir que estos datos son simulados, y que en un ajuste real, posiblemente la mayor variabilidad de los resultados hagan que no sea tan simple tomar decisiones. En mi opinión, tampoco es tan imperante eliminar la ordenada en el origen de una regresión lineal simple, pues la ecuación resultante es sencilla para realizar posteriores operaciones. No suelo emplear este procedimiento salvo que estuviésemos comprobando varias variables (cada una con su coeficiente) en un ajuste múltiple, o queramos eliminar algún orden superior de un polinomio. Otra advertencia es que este test es extremadamente sensible al nivel de errores aleatorios del sistema de medida, es decir, una mayor variabilidad puede eliminar un coeficiente sin necesidad y una poca variabilidad mantener un coeficiente innecesario. Pero al menos tenemos unas reglas que se pueden aplicar para tomar decisiones.

Imaginemos los siguientes datos de señal (Y) y de concentración (X). Calculemos la ecuación de la recta de mejor ajuste mediante la fórmula matricial =ESTIMACION.LINEAL(B2:B7,A2:A7,1,1). Este procedimiento se explica en la entrada del blog Cálculo de regresión en Excel 2007, que es perfectamente extrapolable a cualquier otra versión de Excel. Se observa una pendiente b=0.0244 ± 0.0001 y una ordenada en el origen a= 0.0027 ± 0.0006, con un coeficiente de determinación R^2=0.99984. La ordenada en el origen es muy pequeña, con lo que uno puede pensar en eliminarla. Pero, ¿sería correcto? Si obtuviésemos la ecuación de la recta haciendo cero la ordenada en el origen (=ESTIMACION.LINEAL(B2:B7,A2:A7,0,1)), el nuevo coeficiente de determinación sería R^2=0.99983. Casi el mismo valor, con lo que uno se piensa si merece la pena eliminar la ordenada en el origen del ajuste. 

Introducción de los datos del primer ejemplo y cálculo de la recta de mejor ajuste, con ordenada en el origen.
Pero no es esa la forma correcta de comprobarlo. Lo habitual en la mayoría de los paquetes estadísticos, y Excel no es una excepción, es mostrar los resultados con una prueba t de Student asociada que compara el valor del coeficiente con el cero (la hipótesis nula es que el valor del coeficiente es estadísticamente igual a cero). Es muy simple, porque el valor de t se obtiene dividiendo el coeficiente entre su error y se compara este valor con el t crítico para una probabilidad α y n-k grados de libertad (n es el número de puntos del calibrado y k el número de parámetros que se estiman en el modelo). En las versiones más recientes de Excel se emplea la fórmula =INV.T.2C(probabilidad,grados_de_libertad) para obtener el valor de t crítico (en versiones antiguas =DISTR.T.INV(), que aún funciona en las nuevas versiones). Esta es la forma que prefiero personalmente para comprobarlo, calcular los valores de t de los parámetros y el valor crítico, y compararlos directamente. Si el valor calculado es mayor que el crítico, se rechaza la hipótesis nula y se dice que el coeficiente es significativo. En caso contrario, el coeficiente es igual a cero, desde un punto de vista estadístico, para la probabilidad seleccionada (generalmente α=0.05).

 Aunque en la mayoría de los paquetes estadísticos no se suele calcular el valor crítico de t y compararlo directamente con el t calculado para el parámetro, sino que se calcula la probabilidad de que  t calculado sea menor que t crítica, o lo que es lo mismo, que el coeficiente sea igual a cero. En Excel se puede usar la función =DISTR.T.2C(x,grados_de_libertad) para obtener esta probabilidad, siendo x el valor de t calculado para el parámetro. En las siguientes figuras se ve como se introducen estas fórmulas en nuestro ejemplo y como quedarán los resultados.

Introducción de los datos del ejemplo para comprobar la significación de los coeficientes 

Resultados de la comprobación
Como puede verse, ambos valores de t son mayores que el valor crítico, o bien ambas probabilidades (p) son inferiores a 0.05. Es decir, los coeficientes no son significativamente iguales a cero y no se deben eliminar del modelo.

Esto mismo lo hace Excel empleando la función Regresión del complemento Análisis de datos del menú Datos. El complemento hay que activarlo en Archivo/Opciones/Complementos. Esta función se explica en  Cálculo de regresión en Excel 2007 y también se puede ver en el tutorial de ajuste en Excel publicado en la revista Educación Química. El formulario de esta función, que aparece en la siguiente figura, genera una hoja nueva en el libro de la que podemos sacar la misma información que  he indicado antes.

Formulario de la función Regresión del complemento Análisis de Datos

Resultados para la función Regresión del complemento análisis de datos.
En las celdas B17 y B18 aparecen los valores de ordenada en el origen (intercepción o intercepto) y pendiente, respectivamente. En las celdas C17 y C18 aparecen sus errores. Los valores de t calculado aparecen en las celdas D17 y D18 y la probabilidad de que el coeficiente sea igual a cero en las celdas E17 y E18. Además calcula unos límites de confianza para los coeficientes como (Coeficiente ± error del coeficiente* t calculado) para un nivel de confianza dado. Como se observa, los resultados son similares a los que se han obtenido mediante fórmulas.

El segundo ejemplo lo dejo a modo de ejercicio. Es curioso como ahora que tenemos una ordenada en el origen de 1.3 ± 1.0, el coeficiente es estadísticamente igual a cero. Como he dicho, todo depende de los errores del parámetro...

Segundo ejemplo, para que lo haga aquel que esté interesado






viernes, 13 de mayo de 2016

Dar clases es una pérdida de tiempo, hay que dedicarse a publicar JCRs

Si el título de esta entrada fuese además mi opinión personal, alguno se echaría las manos a la cabeza, y otros no tanto. Pero este título no hace más que sacar de contexto una transcripción que he encontrado (gracias a una compañera de la Universidad de Sevilla) en una publicación del diario electrónico BEZ titulado Privatización de la Ciencia en una Universidad cada vez más miserable. Y digo sacar de contexto porque lo que dice el señor al que se refiere el periódico es:

<<“Para acreditaros y para, después, conseguir las plazas que salen a concurso, tenéis que publicar artículos JCR y, a ser posible, en solitario". Reitera: "¡Dejaos de todo lo demás: JCR y en solitario!>>. 

Esto no tendría mayor importancia si en la noticia no se hiciese referencia a quien lo dice. Según el autor del artículo, esto lo dice un señor de la ANECA (Agencia Nacional de Evaluación de la Calidad y Acreditación). La ANECA es la entidad que vela, entre otras cosas, para que el profesorado universitario cumpla unos mínimos de calidad, pues se encarga de acreditar que una persona es adecuada para ser contratado por una Universidad en las escalas de Ayudante Doctor, Profesor Contratado Doctor, Profesor Titular de Universidad y Catedrático de Universidad. Y si este señor nos dice, en una charla para profesores, que solo importa publicar JCRs, yo me pregunto: ¿dar clase (bien) no es importante?

Imagino que este señor, rompiendo una lanza a su favor, se sinceró y dio a los presentes un consejo para que sepan a qué atenerse con la ANECA. Esta recomendación no es exclusiva de "el señor de la ANECA". ¿Quién no ha oído esto alguna vez en un pasillo de una facultad cualquiera? ¿Quién no le ha dicho a un amigo en edad de merecer que lo mejor es pedir la acreditación cuando tenga un buen número de JCRs? Yo no puedo tirar la primera piedra. Recomiendo a la gente que trabaje para publicar, porque ese es el medio para estar entre los contratables. Esa fue mi propia estrategia. Pero me parece un error que se le quite importancia a lo demás, al menos sin aclarar que entre lo demás no debemos considerar la docencia. Porque la docencia para un profesor de Universidad debe ser lo más sagrado

Pero la realidad es otra. Recuerden como el Real Decreto-ley 14/2012, de 20 de abril, de medidas urgentes deracionalización del gasto público en el ámbito educativo, en su artículo 68, metió la pata. Si, si, metió la pata indicando que el que no tuviese sexenios tenía que dar 80 horas más de clase que sus compañeros. Como si fuera un castigo.

Extracto del artículo 68, RD-L 14/2012
Por cierto que para obtener un sexenio en mi área (Química) se necesitan al menos 5 trabajos JCR en el primer cuartil del listado. Es decir, trabajos en revistas de alto indice de impacto. Y ya conocéis mi opinión al respecto.

Vaya por delante que después, el Ministerio de Educación, Cultura y Deporte dejó la pelota en el tejado de  las Universidades, reculando sobre el contenido el artículo en una nota aclaratoria.

Luego, tergiversando mucho los desvelos de nuestros amados políticos para que seamos los mejores docentes universitarios del mundo mundial y el de los encargados de velar por nuestro buen hacer, dar clases es una pérdida de tiempo, hay que dedicarse a publicar JCRs.

NOTA: He solicitado al diario digital si es posible que me indiquen donde se dieron esas palabras, ya por mera curiosidad. 



domingo, 1 de mayo de 2016

Separation Science: recursos on-line y de libre acceso

Buscando algo de material para mis alumnos he descubierto la web Separation Science, donde científicos de la talla de  John Dollan, Matthew Klee, Frederick Klink,  David Sparkman, Cari Sänger escriben sobre cromatografía líquida de alta eficacia (HPLC), cromatografía de gases (GC), espectrometría de masas (MS) y electroforesis capilar (CE). Se presentan aplicaciones en el campo del análisis de alimentos, medioambiental, farmacéutico y bioclínico


Logotipo de la web Separation Science

La propia web se define como el portal educativo más importante para los usuarios habituales de cromatografía y espectrometría de masas. Creo que merece la pena echarle un vistazo.

viernes, 29 de abril de 2016

ChemWiki, recursos educativos de la Universidad de California, Davis

Quiero recomendar una página web que he descubierto hace poco, aunque lleva tiempo funcionando. Se trata de ChemWiki, de la Universidad de California en Davis. Se define como una de las principales aplicaciones de la STEMWiki Hyperlibrary (empresa multi-institucional para desarrollar textos electrónicos de libre acceso con fines educativos en STEM ( Ciencia , Tecnología , Ingeniería y Matemáticas ). Con lo cual, también disponen de BioWiki, GeoWiki, StatWiki, PhysWiki y MathWiki. Todos se pueden acceder desde el enlace anterior.

Captura de la página principal de ChemWiki


En cuanto a ChemWiki destaco los Textbooks Maps, y sobre todo el Analytical Chemistry Texbook Maps, donde se encuentra el libro del profesor David Harvey: Analytical Chemistry 2.0, que ya habiamos mencionado en este blog.
Pero también incluye material de Química General, Química Orgánica, Química Inorgánica, Química Física, Química Teórica...
Hay contenidos de algunos libros que todos conocemos, todo de libre acceso. Os invito a indagar según vuestras necesidades.

viernes, 22 de abril de 2016

Lo que hace mi Facultad: bioplásticos de cangrejo

Hoy tengo el gusto de compartir una noticia que ha aparecido en el Diario de Sevilla sobre el trabajo de Manuel Félix Ángel con profesores del departamento de Ingeniería Química. Manuel fue mi alumno, de ahí que me agrade ver su nombre en una nota de prensa sobre los frutos de su investigación. Esta es mi forma de darle la enhorabuena. El trabajo que han realizado versa sobre el aprovechamiento de subproductos y residuos de la industria del cangrejo rojo. Os enlazo además la nota de prensa de la Universidad  de Sevilla a este respecto y los enlaces a los dos trabajos que allí se citan. He buscado la tesis, que parece ser se leyó en enero, pero aun no la he visto en el repositorio de la Universidad de Sevilla. Si tengo su título: Valorización de subproductos y residuos de la industria del cangrejo rojo en base a su contenido proteico.

Captura de la noticia en el diario de Sevilla, versión digital.


Referencias

M. Félix, A. Romero, F. Cordobés, A. Guerrero. Development of crayfish bio-based plastic materials processed by small-scale injection moulding. Journal of the Science of Food and Agriculture. 2015, 95, 679-87.

M. Felix, A. Romero, J.E. Martín-Alfonso, A. Guerrero. Development of crayfish protein-PCL biocomposite material processed by injection moulding.  Composites Part B Engineering, 2015; 78, 291-297.

sábado, 5 de marzo de 2016

Estudio hidroquímico y valoración nutricional de las aguas minerales naturales de España

El pasado 22 de enero Francisco Gutiérrez Reguera realizó la defensa de su tesis doctoral en el Departamento de Química Analítica de la Universidad de Sevilla. La tesis de este paisano mío, villamartinense,  estudia la composición de un gran número de aguas minerales naturales envasadas de origen español. En el estudio se han determinado parámetros  como el residuo seco, conductividad y potencial redox y pH, componentes mayoritarios como calcio, magnesio, sodio, potasio, estroncio, litio y silicio, carbonatos y otros aniones y toda una serie de elementos traza. 
Primera página de la tesis

los datos obtenidos han permitido clasificar las muestras de agua en base a su mineralización, dureza, menciones de etiquetado y facies hidroquímica. El análisis de elementos minoritarios permite realizar su valoración nutricional y comparar los niveles con aguas de otras procedencias. Finalmente se realiza un análisis basado en el reconocimiento de patrones que permite diferenciar las aguas en función del origen del manantial de que proceden. He esperado para escribir estas palabras, como siempre hago, a que la tesis estuviese publicada. El texto completo de la misma puede consultarse en el repositorio de la Universidad de Sevilla bajo el título Estudio hidroquímico y valoración nutricional de las aguas minerales naturales de España

Modelo LDA para clasificación de aguas minerales envasadas


He tenido el placer de conocer a Paco en el desarrollo de su tesis, ya como profesor de instituto jubilado. El hecho de haber querido afrontar la elaboración y defensa de una tesis doctoral después de la jubilación ya dice bastante de él.  Todo un ejemplo. Gracias Paco, y enhorabuena doctor.