Las paradojas de la probabilidad

En esta nueva entrada de la serie de las paradojas (las primeras estradas son http://scientiapotentiaest.ambages.es/?p=244 y http://scientiapotentiaest.ambages.es/?p=266) nos vamos a centrar en las paradojas que vienen de la probabilidad. Y es que la probabilidad pese a ser algo bastante mencionado en la vida diaria no es entendida por mucha gente.

Voy a comenzar tratando el problema de Monty Hall. Este problema es muy divertido, porque todo el mundo al que se lo contemos dirá que es muy intuitivo. ¡El problema es que para cada uno será intuitiva una respuesta distinta!

Supongamos que estamos en un programa de estos de la tele. En este programa hay tres puertas. Una de las tres tiene un premio y las otras dos no tienen nada. La puerta que tiene el premio se elige al azar de manera equiprobable. El juego consiste en elegir una puerta. Tras nuestra elección, el presentador, que sabe dónde está el premio, abre una de las dos puertas que no hemos elegido y que no tiene nada. Tras esto nos pregunta si queremos cambiar de puerta. La pregunta viene ahora, ¿qué nos sale mejor como jugadores? ¿cambiar nuestra primera elección o dejarla estar?

Observamos que el premio no cambia de puerta mientras nosotros jugamos.

La respuesta correcta es que siempre nos sale mejor cambiar de puerta. Sí, amigos lectores, es mejor cambiar. ¿Qué no me creéis? Vamos a ver si os convenzo. Como el premio está en una de las puertas de manera equiprobable la probabilidad de que el premio se encuentre en la puerta que hemos elegido al comenzar a jugar es 1/3. Ahora el presentador abre una de las otras dos puertas sin descubrir el premio. ¿Cuál es la probabilidad de que nuestra puerta esconda el premio? LA MISMA, 1/3. Por lo tanto si cambiamos de puerta nuestra nueva elección tendrá probabilidad 2/3. Vamos a ilustrar esto un poco más mirando los posibles casos. Vamos a suponer que elegimos siempre la puerta 1, como todo es simétrico todos los casos estarán reflejados igualmente.

1) El coche está en la puerta 1.
1.a) Cambiamos de puerta y perdemos.
1.b) No cambiamos y ganamos.
2) El coche está en la puerta 2.
2.a) Cambiamos de puerta y ganamos.
2.b) No cambiamos y perdemos.
3) El coche está en la puerta 3.
3.a) Cambiamos de puerta y ganamos.
3.b) No cambiamos y perdemos.

Hagamos el recuento: Si cambiamos ganamos 2 veces frente a una que perdemos. Si no cambiamos la situación es recíproca. Como hay 3 casos posibles la probabilidad de ganar cambiando es 2/3.

Otra manera de convencerse es aumentar el número de puertas. Supongamos que tenemos 100 puertas. Entonces la probabilidad de que el premio esté en nuestra puerta es 1/100. Tras elegir, el presentador abre todas las puertas menos dos, la que tu elegiste y otra, de manera que ninguna de las abiertas mostrase el premio. Ahora parece claro que lo mejor es cambiar.

Otra paradoja que invariablemente se estudia en los cursos iniciales de probabilidad es la paradoja de los hijos (a falta de un nombre mejor en castellano). Supongamos que la probabilidad de que nazca un chico o una chica es la misma, 50%, y que el sexo de cada hijo es independiente del sexo de los demás hermanos. Vamos con el problema. La señora López tiene dos vástagos. Supongamos, a modo de calentamiento, que el hijo mayor de la señora López es un niño, ¿cuál es la probabilidad de que el menor sea niña? La respuesta, claro, es 50%. Ahora se nos plantea un problema ligeramente distinto: Supongamos que uno de los hijos de la señora López es niño, ¿cuál es la probabilidad de que el otro hijo también sea niño? ¿50%? Veamos los casos tal cuál está escrito (observando que la familia está fija para los más puntillosos) y ordenando los niños por edad:

1) Chico-chico
2) Chica-chico
3) Chico-chica

Hay 3 casos posibles y sólo 1 es el que nos preguntan. Como son equiprobables la probabilidad de que ambos hijos de la señora López sean niños es 1/3. El truco aquí está en que al decir que uno de los hijos es chico perdemos información sobre su edad. En la primera pregunta tenemos más información y podemos descartar más casos.

La probabilidad se va descubriendo un poco farragosa y “extraña” en ocasiones. Sin embargo todavía no hemos tratado la principal fuente de problemas al tratar con la probabilidad. Me refiero a la ambigüedad. Las palabras “al azar” no tienen un significado preciso y se usan con más asiduidad de la recomendable. Esto quedó claramente expuesto en la obra de J. Bertrand “Calcul des probabilités”. En este manual propuso un enunciado y dio varias respuestas al problema, todas bien lógicas y correctas. El problema era que en cada uno la definición de “al azar” era distinta. Es ahora cuando nos ponemos técnicos. En la entrada anterior ya mencionamos cosas como “medidas” de conjuntos (ver la entrada anterior). Eso nos volverá a ser útil, pues la manera matemática de dar sentido a las palabras “al azar” utiliza esas ideas. En matemáticas un “espacio de probabilidad” es un espacio de sucesos posibles en nuestro experimento, una manera de agruparlos en conjuntos y una manera de “medir la probabilidad” cada uno de estos conjuntos de sucesos. Claro está que la definición precisa es mucho más técnica. Así la idea que quiero dejaros es que esas tres cosas abstractas es lo que da sentido a la palabra “azar”.

El ejemplo que más me gusta de esto es la paradoja de Bertrand. Consideremos un círculo con un triángulo equilatero inscrito. La pregunta ahora es ¿cuál es la probabilidad de que una cuerda trazada “al azar” sea más larga que los lados del triángulo? Veamos las tres maneras clásicas de calcular dicha probabilidad:

1) Supongamos, sin pérdida de generalidad, que uno de los extremos de la cuerda coincide con uno de los vértices del triángulo. En ese caso al quedar la circunferencia dividida en 3 trozos iguales y coincidir uno con el conjunto donde la cuerda es más larga que el lado del triángulo concluimos que la probabilidad pedida es 1/3. Aquí el espacio de sucesos es el conjunto de puntos de la circunferencia y la medida de probabilidad asociada es la longitud del arco considerado dividido la longitud total de la circunferencia.

2) Consideremos ahora un radio perpendicular a uno de los lados del triángulo. Esto de nuevo nos facilita la vida pero no perdemos generalidad. Ahora trazamos la cuerda de manera perpendicular a dicho radio por un punto aleatorio del mismo. La probabilidad de que la cuerda sea mas larga que el lado es justamente 1/2 si la trazamos con estas reglas. Aquí el espacio de sucesos es el conjunto de puntos del radio y la medida de probabilidad es la longitud del segmento considerado dividido por la longitud total.

3) Ahora nuestro experimento consiste en elegir el punto medio de la cuerda. Si trazamos la cuerda con esta regla la probabilidad de que la longitud de la cuerda sea mayor que la del lado del triángulo es la misma que la probabilidad de que el punto medio de la cuerda esté en un círculo concentrico inscrito en el triángulo de radio la mitad (y área 1/4 del área del círculo original). Por lo tanto la probabilidad será 1/4. Aquí el espacio de sucesos es el conjunto de puntos del círculo y la medida de probabilidad es el área del conjunto de puntos considerado dividido entre el área del círculo original.

La paradoja aquí estriba en que para una pregunta tenemos tres respuestas. Además, eligiendo la definición de “azar” todas son correctas.

Creo que ha quedado claro que cuando decimos cosas como “aleatorio” o “al azar” no estamos en realidad diciendo nada y que debemos entrar, aunque no queramos, en tecnicismos para evitar este tipo de paradojas.

— Nota: Las imágenes han sido obtenidas de la Wikipedia en inglés

— Nota: Con esta entrada participamos en el Carnaval de Matemáticas en su edición 2.6 (albergado por “La vaca esférica” , http://lavacaesferica.com/).

Las paradojas de la cardinalidad (parte 2 de las paradojas de Zenón de Elea)

Otra entrada dedicada a las paradojas. Continuamos con la tónica de la entrada anterior (http://scientiapotentiaest.ambages.es/?p=244) por lo que nos restringiremos a aquellas paradojas que son producidas por la idea del infinito o de los infinitésimos (lo “infinitamente” pequeño), aunque esta vez abordaremos la teoría de la medida y la teoría de conjuntos.
Esta entrada es un poco más avanzada, y se requieren algunos conocimientos de matemática. Sin embargo, intentaremos dar algunas explicaciones que no necesiten estos conocimientos.

Primero vamos a tratar la sorprendente afirmación de que podemos construir un conjunto con medida cero que es no numerable y no es vacío. Sé que esto no es una paradoja, pero también sé que muchos matemáticos acaban la carrera sin entender este conjunto y que, sea o no paradoja, el enunciado es desconcertante. La idea es que podemos asignar medidas a conjuntos, por ejemplo el intervalo [0,1] mide 1, el conjunto de los irracionales del intervalo [0,1] también mide 1. Detengámonos en esto un poco más. Sabemos que un punto sólo no mide nada. Tenemos como hipótesis que si dos conjuntos no se intersecan la medida de la unión es la suma de las medidas, por ejemplo si consideramos el intervalo [0,1] y el [2,3] la medida es 2. No ocurre lo mismo si consideramos los intervalos [0,1] y [0.5,1.5], porque tienen un subintervalo en común. Además supondremos que esta propiedad se puede extender a uniones (y sumas) numerables (con un número infinito de conjuntos, pero no hay más conjuntos que números naturales).

Si ahora leemos (y quizá releemos) esto otra vez nos damos cuenta de que una unión numerable de puntos por fuerza ha de ser disjunta (porque los puntos, o son el mismo, o son distintos) y por lo tanto, aplicando la propiedad, el conjunto formado por dicha unión tendrá medida cero. Esto es algo bastante razonable si lo desvestimos de parte de su rigor, ¿quién apostaría a que el conjunto de los números enteros en la recta mide algo? ¿quién me diría lo que mide?. A poco que pensemos llegaremos a la conclusión de que la única manera razonable de asignarle una medida a dicho conjunto es diciendo que es cero.

Ahora la sorpresa es que este tipo de conjuntos, ‘pequeños’ y ‘dispersos’ no son los únicos conjuntos que miden cero.

Existe (al menos) un conjunto no numerable con medida cero.

El problema de este conjunto es la ‘dispersión’. Tiene bastantes puntos como para medir algo, pero simplemente no estan “juntitos”.

En palabras de Ian Stewart, “vamos a construir el conjunto de Cantor como harían los ratones”.

Tomamos el conjunto [0,1]. Lo dividimos en tres segmentos iguales y le quitamos el segmento central. A cada uno de los dos segmentos resultantes le hacemos lo mismo y así sucesivamente. El conjunto de Cantor es el límite así conseguido.

Veamos cuanto mide. La medida de cada segmento es 1/3, por la propiedad anterior la medida total en el primer paso de la iteración es 2/3. En el segundo paso de la iteración tenemos que cada uno de los intervalos ha perdido un tercio de su longitud, por lo que mide dos tercios de su longitud. En total en el segundo paso de la iteración el conjunto mide (2/3)^2. ¿Vemos el patrón?. En la n-ésima iteración el conjunto medirá (2/3)^n. De modo que, en el límite, se tendrá que el conjunto de Cantor mide 0, que es el límite de la sucesión de medidas.

Si vemos que es no numerable hemos concluido. Recuerdo que ser no numerable es tener un cardinal (el número de elementos) infinito mayor que el de los números naturales. Esto es un poco ingenioso, pero no es difícil. Veamos, tenemos, por estar el conjunto de Cantor contenido en el intervalo unidad, que el cardinal será menor o igual. Por lo tanto si demostramos el mayor o igual hemos concluído la igualdad. Observamos que nuestra construcción de ir eliminando segmentos es equivalente a escribir todos los números en base 3 y eliminar aquellos que tienen algun 1 en su expansión. Por ejemplo el 0.222… (ojo está en base 3) está en nuestra construcción, pero el 0.11 no lo está. Ahora pensamos en base dos y vemos que nuestros número, los que forman el conjunto en realidad son ‘binarios’ si cambiamos los doses de su expansión por unos. Por ejemplo el punto 0.222… en base 3 pasa ahora a ser 0.1111… Ésta es nuestra función, cambiar los doses por unos. Ejercicio: Razonar por qué es suprayectiva.

¡Tachán!. Hemos concluído, hemos construído un conjunto no numerable que mide cero. Desmontamos así nuestra hipótesis inicial que era asociar la idea de medida con la de cardinalidad y concluir que si tenía un cardinal como el de los naturales (un número de elementos igual) entonces media cero y estos eran todos. Además del ‘tamaño’ tenemos que considerar también la ‘dispersión’.

Sigamos con paradojas, ahora de cardinales (el número de elementos de un conjunto, recuerdo).

Ahora hay que entrar en materia más seria de cardinales, así que voy a dar una definición más rigurosa no del concepto de cardinal en sí, que está clara: es el número de elementos de un conjunto, sino de la propia manera de contar. Diremos que dos conjuntos tienen el mismo cardinal (tamaño) si existe una función biyectiva (es decir, que va de uno a uno) entre ambos. Esta idea tan simple es la única que nos permite tratar con distintos tamaños infinitos. La idea es que, si queremos contar el número de alumnos en una clase, podemos contar el número de mesas y ver si hay tal función. En el caso de que haya más alumnos la función no será inyectiva, pues habrá dos alumnos en alguna mesa. En el caso de que sobren mesas lo que no será la función es suprayectiva. Observamos que las nociones de inyectividad y suprayectividad son en realidad nociones de ‘tamaños’ si las usamos así.

La última paradoja de Zenón de Elea (ver entrada http://scientiapotentiaest.ambages.es/?p=244), la paradoja de la flecha:

Lanzamos una flecha. En cada instante de tiempo ésta no se mueve, pues no le da tiempo.

Ahora Zenón razonaba que al haber una suma de ceros el resultado seguía siendo cero, y por lo tanto no hay movimiento. Aunque esta paradoja se puede desmontar con el concepto de derivada, voy a optar por razonar con teoría de la medida, para ello he de introducir unos conceptos.

¿Cuánta longitud tiene un punto sólo?. La respuesta es que ninguna, un punto no tiene dimensión alguna. Ahora bien, también se puede demostrar que si tenemos infinitos puntos, pero un infinito pequeño (como los números naturales) volvemos a tener cero. Es decir la longitud que suman infinitos (pero un infinito como el de los naturales) puntos es cero. Sin embargo, el intervalo [0,1] tiene longitud exactamente 1, y no es más que un conjunto de puntos en fila. ¿Dónde está el truco?, os dejos pensarlo 3 segundos… El truco está en la cantidad de puntos, el intervalo [0,1] tiene infinitos puntos, pero es un infinito mucho mayor que el de los naturales. Para convencernos de esto podemos considerar que los puntos \frac{1}{n} son tantos como los naturales, y están en el intervalo [0,1], sin embargo hay muchos más puntos que no son esos.

¿Cuál es la conclusión? Es cierto que una suma de ceros es cero, ¡siempre que no sumemos demasiados!, si sumamos un número infinito (de un infinito como la cantidad de puntos del intervalo [0,1]) entonces el resultado puede ser un número finito y no cero, pero peor aún, puede ser infinito (pensad en la longitud de toda una recta).

Concluímos que la flecha se mueve, pues si bien estamos sumando ceros, sumamos muchos, ya que los instantes de tiempo son como el intervalo [0,1] y no como los naturales.

Hemos desmontado, junto con la entrada anterior (http://scientiapotentiaest.ambages.es/?p=244), las 3 paradojas de Zenón. En las próximas entradas veremos más paradojas y cómo evitarlas (si se puede).

Veamos otra paradoja basada en el mismo problema.

Todos los números (naturales) no son cuadrados perfectos, sin embargo, hay tantos números (naturales) como cuadrados perfectos.

Esta paradoja se conoce como paradoja de Galileo, y reposa en la existencia de dicha función. Consideramos ambos conjuntos, los cuadrados y el conjunto de los números naturales que lo contienen. Claramente el número de cuadrados es menor o igual al número total de números naturales. Sin embargo, por cada número natural hay un cuadrado y entonces dicha función ha de ser biyectiva.

Leedlo con atención, no es fácil la primera vez. Huelga decir que los mismo se puede hacer para los enteros, los primos, los pares… El primer momento en el que falla es al considerar los irracionales.

Vamos a por la última paradoja, que si hemos entendido la de Galileo es fácil. Ésta se llama paradoja de Hilbert.

Si tenemos un hotel de infinitas habitaciones, completo, y llega un nuevo turista podemos darle habitación.

y más aún

Si en nuestro hotel de infinitas habitaciones, completo, aparecen infinitos nuevos clientes, también podemos darles habitación.

Estas paradojas no las voy a resolver explícitamente; sin embargo, su respuesta ya está escrita. Como pista voy a decir que se piense en los naturales como las habitaciones y desde ahí se busque un conjunto para nuestros clientes en cada caso. Se puede observar que esta paradoja es justamente “simétrica” a la construcción del conjunto de Cantor: en el conjunto de Cantor quitamos elementos del intervalo [0,1] y al final nos queda algo con el mismo cardinal. ¡En esta paradoja añadimos elementos y nos queda algo con el mismo cardinal!

Con esta última paradoja tengo un chascarrillo. Cuando estudiaba primero de la ESO, en el instituto de Mota del Cuervo, un maestro nos contó justamente esta paradoja. El hombre nos repetía eso de los conjuntos de ‘tamaños’ diferentes, pero en ningún momento mencionó nada de funciones, inyectividad… Todo parecía muy extraño hasta para el maestro. Yo me fui a mi casa sin entenderlo y con la idea de que el maestro tampoco se enteraba. No volví a acordarme de esto hasta hace un par de años, cuando estaba corriendo y me vino a la cabeza. ¡Os juro que aún no estaba muy cansado por la carrera!

En la próxima entrada querría hablar de algunas paradojas en probabilidad, como la del cumpleaños y la de Bertrand.

PD: La imágen ha sido tomada de la entrada de la Wikipedia http://en.wikipedia.org/wiki/Cantor_set .

Las paradojas de Zenón de Elea (parte 1)

Voy a escribir una serie de artículos que traten las diversas paradojas que hay; si no todas, al menos las más conocidas. Creo que es justo empezar con las de Zenón, al menos con algunas de ellas, ya que son las más antiguas de las que tengo constancia. También, porque es fácil ver donde está la argucia.

Zenón de Elea (ver aquí) intentaba demostrar que no podía haber movimiento, que este era sólo una ilusión. Para ello, propuso una serie de paradojas que “probaban” su punto de vista.

El veloz Aquiles compite contra una tortuga, la velocidad de Aquiles es doble que la de la tortuga, y éste, seguro de su victoria, le da ventaja.

Zenón razonaba lo siguiente, como la tortuga en el tiempo (cada vez más pequeño) que Aquiles se mueve se mueve a su vez (aunque sea un movimiento diminuto enseguida) Aquiles nunca la alcazará, pues siempre irá un épsilon por detrás.

Podemos resolver la paradoja de dos maneras, considerando series, y considerando espacios discretos. Por discretos quiero decir que Aquiles dé zancadas de longitud fija. La segunda no tiene interés, pues por la cuenta de la vieja sale fácil, además no enlaza tan bien como la otra para introducir conceptos (salvo que uno esté pensando ya en cuantización). Veamos como se resuelve con series.

A ver, si Aquiles le da 1 de ventaja a la tortuga, entonces cuando Aquiles va por su primer metro la tortuga va por 1.5, cuando Aquiles va por 1.5 la tortuga va por 1.75… Veamos cuanto recorre la tortuga. La tortuga en tiempo 0 está en 1, en tiempo 1 está en 1.5 y así sucesivamente, la tortuga recorre por lo tanto \sum_{n=0}^\infty \frac{1}{2^n}=2. Veamos lo que recorre Aquiles. Aquiles en tiempo 0 está en 0, pero su velocidad es doble, por lo que se tiene

2\bigg{(}\sum_{n=0}^\infty \frac{1}{2^n}-1\bigg{)}=\sum_{n=1}^\infty\frac{1}{2^{n-1}}=2.
Concluímos que Aquiles alcanza a la tortuga en t=2
En este caso en particular, con estas velocidades, esta ventaja… estaba claro desde el principio: no había que meterse en follones de series, pues otra vez la cuenta de la vieja nos vale. En lugar de considerar tiempos cada ez más pequeños, consideremos los tiempo estándar del problema. En este caso si la tortuga avanza uno y Aquiles dos metros por segundo, y Aquiles le dió un metro de ventaja a la tortuga, entonces en un segundo la tortuga está en el metro 2, que es justamente donde está Aquiles.

Veamos esto con un dibujo. La velocidad de la tortuga es 1/2 (en las unidades de Aquiles), y su posición inicial es y=1. Por lo tanto, tenemos que su posición en cada tiempo viene dada por la recta y=1+t/2. Para Aquiles tenemos que su velocidad es 1 (estamos usando sus unidades) y su posición inicial es y=0. Por lo tanto su recta es y=t. Comprobamos que en t=2 las rectas se cortan, por lo tanto Aquiles se encuentra con la tortuga.

Otra de las paradojas que Zenón utiliza es la la de la dicotomía

Aquello que se mueva entre dos puntos, ants de cubrir toda la distancia debe cubrir la mitad, y antes la mitad de la mitad…

Zenón argumentaba que al continuar hata el infinito no podía haber movimiento, pues necesitaría tiempo infinito. Ya hemos visto que usando series de desmontaba la anterior, y esta tiene la misma pinta, pues todo el problema es si la sucesión de tiempos me da una serie convergente, en cuyo caso, el valor de la suma será el tiempo empleado en movernos entre esos dos puntos.

Consideremos que avanzamos a velocidad fija de un metro por segundo entre el punto A y el B, separados por una distancia de un metro. En este caso tenemos que los tiempos que tardamos en recorrer las sucesivas ‘medias partes’ del recorrido es justamente la longitud del trozo en cuestión. Veamos, la sucesión de distancias recorridas es \frac{1}{2^n} desde n=1 hasta el infinito. Es decir, en tiempo 1 hemos recorrido 0.5,… Si sumamos esta serie nos da 1, por lo tanto la suma de los tiempos (infinitos) da un número finito, por lo que el movimiento es posible. Otra vez los número están puestos para que podamos resolver el problema sin considerar series, pues ya sabíamos que tardaríamos uno.

¿Por qué hemos de considerar series aun en casos tan simples? pues porque lo importante, y lo que acaba de desmontar estas paradojas es el concepto de convergencia[negrita], la clave es que una suma de infinitas cosas bajo ciertas condiciones puede tener una suma finita.
Era eso lo que Zenón no tenía nada claro; él veía infinitos tiempos y decía: “no puede ser que nos movamos, pues tardaríamos un tiempo infinito”.

Hemos desmontado 2 de las paradojas de Zenón. Dejaremos para otro post una manera de desmontar la tercera paradoja, pues para ello necesitamos saber que existen distintos tipos de infinitos.
En las próximas entradas de esta serie, veremos más paradojas y cómo evitarlas (si se puede).

Introducción al cálculo variacional en las matemáticas

Esta entrada es la gemela de la entrada Introducción al cálculo variacional en la física (http://scientiapotentiaest.ambages.es/?p=87). En ella David nos decía

Queremos saber qué camino tomará un cuerpo en una cierta situación. Imaginemos que tenemos una cantidad (un funcional, matemáticamente hablando), a la que llamaremos acción (con unidades de energía por segundo), que depende del “camino” que ese cuerpo toma en su movimiento. Esa acción puede ser calculada para cada cualquier camino siempre y cuando tenga una cierta regularidad.  Pues bien, el camino real, el que tomará el cuerpo y que podrá ser predicho, es aquel que hace de la acción un mínimo (más rigurosamente, un valor estacionario).

Así, el enfoque en mecánica clásica es: dado un sistema físico, obtenemos un funcional; a este funcional se le calculan los puntos críticos y esos puntos críticos nos dan las soluciones del problema. Matemáticamente esto es ir del funcional a la ecuación diferencial.

Veamos esto con un ejemplo: Supongamos que tenemos una partícula de masa unidad bajo el influjo de un potencial U(x) (sistema físico).

Entonces el Lagrangiano se define como

L=E_c-E_p

donde E_c=\frac{1}{2}\left(\frac{dx}{dt}\right)^2 es energía cinética, que depende de la velocidad v=\frac{dx}{dt};  y E_p es energía potencial, que depende del potencial U en el lugar donde la particula se encuentra. Entonces se tiene, si la posición de la partícula se denota como x, que el lagrangiano es

L(x)=\frac{1}{2}\left(\frac{dx}{dt}\right)^2-U(x).

Ahora definimos la acción como A[x]=\int_0^t L(x)dt. Esta acción la hemos obtenido de consideraciones físicas como son la definición de energía cinética y potencial.

Una vez tenemos la acción, queremos minimizarla. Para esto hemos de encontrar los puntos críticos. Si fuese una función de una variable normal y corriente derivaríamos e igualaríamos a 0. Derivar es encontrar el cambio de una cantidad cuando se varía otra de manera infinitesimal. Aquí la idea es similar. Lo que hacemos es, dada una perturbación con los extremos fijos (v(t) tal que v(0)=v(t)=0) de nuestra trayectoria x consideramos la curva y(t)= x(t)+sv(t).

Ahora pensamos la acción para esta nueva curva y como una función de s,

A[y](s)=\int_0^t L(y(t))dt,

y obtenemos el cambio en ella cuando variamos ligeramente s; esto es, derivamos en s y hacemos s=0.

\frac{d}{ds}A[y](s)\bigg{|}_{s=0}=\frac{d}{ds}\left(\int_0^t L(y(t))dt\right)\bigg{|}_{s=0}

Calculamos, utilizando la regla de la cadena,

L(y)=\frac{1}{2}\left(\frac{dx}{dt}+s\frac{dv}{dt}\right)^2-U(x+sv),

\frac{d}{ds}U(x+sv)\bigg{|}_{s=0}=U'(x)v, (para el potencial)

\frac{d}{ds}\frac{1}{2}\left(\frac{dx}{dt}+s\frac{dv}{dt}\right)^2\bigg{|}_{s=0}=\frac{dx}{dt}\frac{dv}{dt}, (para la energía cinética).

Sustituyendo obtenemos \int_0^t \frac{dx}{dt}\frac{dv}{dt} dt-\int_0^t U'(x)vdt, y si integramos por partes en la primera integral nos queda

\int_0^t (-\frac{d^2x}{dt^2}-U'(x))vdt.

Esta integral debe ser 0 para que nuestra x sea un punto crítico del funcional, y además debe serlo para toda perturbación v.

Estas consideraciones nos imponen una relación entre las derivadas \frac{d^2x}{dt^2} y U'(x),

\frac{d^2x}{dt^2}+U'(x)=0

que es, nada más y nada menos, la segunda ley de Newton.

Este enfoque va desde el funcional, que se obtiene con consideraciones físicas, a la ecuación diferencial. O de otra manera, se usa una ecuación diferencial para solucionar un problema de minimizar un funcional.

Sin embargo también existe el método inverso. Supongamos que tenemos una ecuación diferencial (generalmente en derivadas parciales) como puede ser

\Delta u= f(u)

con f una función no lineal, por ejemplo un polinomio. Así, el llamado Método Directo del Cálculo de Variaciones consiste en definir un funcional tal que sus puntos críticos vengan dados por la ecuación que era nuestro problema original.

Demostrar la existencia de solución para la ecuación original es lo mismo que conseguir un punto crítico de nuestro funcional. Si además probamos que es único entonces la ecuación tendrá una única solución. Así con este enfoque vamos desde la ecuación al funcional.

Y como seguir abundando en este tema puede ser muy técnico lo dejaremos aquí por el momento.

Las olas: Un matemático en la playa.

Ya va haciendo calor y empieza a apetecer el irse a la piscina o a la playa. Sin duda la playa es uno de los sitios menos entendidos por el mundo científico y más visitados por el resto del mundo. El fenómeno al que me refiero cuando digo que no se comprende completamente, claro está, son las olas. En esta entrada estudiaremos diversos casos de olas entre fluidos ilustrando el texto con diversos videos.

[iframe: width=”400″ height=”320″ src=”http://www.youtube.com/embed/GEl-Qu7ApGQ” frameborder=”0″ allowfullscreen]

Vamos a empezar hablando de un caso un poco más general que las típicas olas en la superficie del mar. En matemáticas entendemos por interfase entre fluidos a la parte donde estos entran en contacto entre sí. Así una ola es la interfase entre el aire y el agua. Una interfase entre fluidos con distintas propiedades puede exhibir un comportamiento muy complicado, patológico si se quiere, pero que es, pienso yo al menos, visualmente muy bonito. Estoy pensando por ejemplo en singularidades como pueden ser las llamadas singularidades de Kelvin-Helmholtz o Rayleigh-Taylor. Hagamos una parada antes de proseguir con nuestras olas.

Supongamos por un momento que tenemos dos fluidos con densidades distintas, por fijar ideas digamos aceite y agua, de manera que el fluido más denso (el agua) está en el fondo de un recipiente cerrado completamente (un tubo con ambos extremos taponados). El fluido menos denso (el aceite) reposa encima del agua. Supongamos ahora que dicho tubo, y por tanto los fluidos, está en reposo, por ejemplo en una mesa. La pregunta es ¿qué ocurre si, repentinamente, inclinamos dicho recipiente? Veamos unos vídeos con este experimento:

[iframe: width=”400″ height=”320″ src=”http://www.youtube.com/embed/CL7s8h7mtPE” frameborder=”0″ allowfullscreen] [iframe: width=”400″ height=”320″ src=”http://www.youtube.com/embed/ggEp4n6Bhps” frameborder=”0″ allowfullscreen] [iframe: width=”400″ height=”320″ src=”http://www.youtube.com/embed/1XqJJfw63zQ” frameborder=”0″ allowfullscreen]

Lo que vemos en el video es que la interfase “se enrolla” sobre sí misma. Esto es debido a que las velocidades (que son un vector en 3D) tangentes a la interfase tienen signo distinto. Es decir, si lo pensamos en una interfase en 2D (una curva) sería que la velocidad en el fluido que está encima de la interfase “señala hacia la izquierda” mientras que para el fluido que está debajo de la interfase “señala a la derecha”. De ahí esa tendencia a girar y enrollarse.

Supongamos ahora que cambiamos el orden de los fluidos. Ahora tenemos (por ejemplo porque tenemos una barrera entre ambos fluidos) el agua reposando sobre el aceite. ¿Qué ocurre si retiramos rápidamente la barrera entre ambos fluidos? Bueno, pues que el fluido más denso, por la gravedad, caerá hacía abajo, empujando en su camino al fluido menos denso, que subirá hacía arriba. Vale, el caso es que lo que va a ocurrir es sencillo de vaticinar, lo curioso aquí es la manera en que ocurre. Vayamos otro rato a youtube…

[iframe: width=”400″ height=”320″ src=”http://www.youtube.com/embed/VlAzyVx7N9M” frameborder=”0″ allowfullscreen] [iframe: width=”400″ height=”320″ src=”http://www.youtube.com/embed/8EkFL-8wIUI” frameborder=”0″ allowfullscreen]

Tras ver estos experimentos y haber pensado un poquito nos damos cuenta de que el que quiera entender bien estos procesos tiene mucho trabajo por delante. Y ahí estamos bregando algunos…

Volvamos a las olas. Hace tan sólo unos días uno de mis jefes (Diego Córdoba) y algunos de mis compañeros (Ángel Castro, Francisco Gancedo y Javier Gómez) y otros colaboradores (el medallista Field Charles Fefferman) hicieron un importante avance. Probaron la existencia de otro tipo de singularidad para el caso de las olas. Bautizaron a esta singularidad como “splash”. Arremanguémonos y veamos un poco las matemáticas que hay debajo de todo esto…

Consideremos una curva en el plano. Esta será nuestra ola inicial. La evolucion de esta ola viene dada por la evolución del fluido bajo ella. Se trata así de un problema de frontera libre, es decir, donde el propio dominio es una incógnita. Así tenemos que, bajo la ola, se verifican las ecuaciones de Euler incompresibles y que además el fluido es irrotacional. Sobre la curva suponemos que tenemos el vacío (esto es un buen modelo porque el agua tiene una densidad mucho mayor a la del aire). Lo que se sabía antes de los trabajos de Diego y compañía eran la existencia local de solución, es decir, que una ola “suave” sigue siendo una ola “suave” al menos un corto tiempo. Esta existencia local es cierta tanto en el caso donde se supone que la profundidad del mar es infinita como en el caso con un lecho marino predeterminado (son resultados de S. Wu y D. Lannes, respectivamente). También se sabe que si las olas “son muy planitas” la existencia es global, es decir, la ola existe para cualquier tiempo (resultados obtenidos independientemente por S. Wu y P. Germain, N. Masmoudi y J. Shatah).

[iframe: width=”400″ height=”320″ src=”http://www.youtube.com/embed/SdPI6yrjJoM” frameborder=”0″ allowfullscreen]

Los resultados con bandera española en este tema comienzan con un artículo (de A. Castro, D. Córdoba, C. Fefferman, F. Gancedo y M. López) donde se prueba que una ola que empieza siendo un grafo, es decir, se puede escribir como (x,f(x)), deja en un tiempo finito T de ser un grafo. De otra manera, la ola rompe. Matemáticamente esto es que la derivada espacial de la ola se hace infinita en algún punto. El resultado de hace unos días que he mencionado más arriba abunda más en esta línea. Lo que A. Castro, D. Córdoba, C. Fefferman, F. Gancedo y J. Gómez prueban es que existen olas que empiezan siendo curvas suaves y que en un tiempo finito se tocan. Es decir, se ha perdido la propiedad de ser una curva sin autointersecciones. Así es plausible el escenario de comenzar con un grafo, evolucionar hasta perder la propiedad de ser un grafo, es decir, la ola rompe, y, al continuar pasando el tiempo, la curva se acabe autointersecando. Esto es justamente lo que hemos visto en el primer video de esta entrada. Así que podemos concluir dos cosas: una es que algo tan cotidiando como una ola puede ser matemáticamente un problema muy difícil. La segunda cosa que podemos aprender es que nuestro modelo para la dinámica de fluidos funciona en el sentido de que recupera comportamientos reales observados en la naturaleza.

Antes de acabar quiero agradecer a mi compañero Javier Gómez que nos haya dejado el video de sus simulaciones.

—-Esta es nuestra contribución a la edición 2.5 del Carnaval de Matemáticas (http://carnavaldematematicas.bligoo.es/), que está siendo albergado por el blog Juegos Topológicos (http://topologia.wordpress.com/d).

Cuántica e incertidumbre (Parte I)

Hoy vamos a hablar, procurando no ser muy rigurosos (aparecen algunas fórmulas pero se pueden saltar), de por qué la mecánica cuántica es necesaria y del principio de incertidumbre de Heisenberg. La entrada la hemos escrito de manera conjunta Rafa y yo mismo.
Werner Heisenberg

Werner Heisenberg, uno de los padres de la Mecánica Cuántica

Principios de incertidumbre hay muchos, básicamente no es mas que una desigualdad de cierto tipo, donde un término controla a otro. En el caso concreto que nos atañe afirma que es imposible conocer con precisión la posición y la velocidad de una partícula cuántica (para fijar ideas un electrón). Los físicos (experimentales al menos) razonan diciendo que eso es porque para detectar un electrón hay que golpearlo con un fotón y entonces cambias su velocidad.
Esto nos deja con la duda: ¿habrá algún método que permita conocer las dos cosas?
La respuesta es que no. Y el motivo, enraizado en las matemáticas, tiene que ver con la transformada de Fourier. El ‘teorema’ aquí es que si tienes una función “grande” su transformada de Fourier es “pequeña” y viceversa (se puede intuir usando la desigualdad de Haussdorf-Young por ejemplo.). ¿Cómo afecta esto a nuestro electrón?. Los impacientes estarán pensando que se me está yendo la olla.
Pero comencemos aclarando por qué todas estas cosas tan raras de la cuántica son necesarias: supongamos que tenemos un átomo de hidrógeno (un electrón y un protón), y que tanto nuestro electrón como el núcleo del átomo se comportan como partículas clásicas. Entonces, al tener el núcleo carga eléctrica positiva y nuestro electrón carga eléctrica negativa deberían atraerse por la fuerza coulombiana entre ellos. Cuando un cuerpo con carga se acelera emite radiación electromagnética (véase la fórmula de Larmor [aquí inglés]) perdiendo así energía.
Trayectoria en espacio fásico

En una dimensión, la posición del electrón, x, oscilaría y caería hacia el origen de coordenadas. Su velocidad, p, también oscilaría y lo llevaría hacia el centro, radiando energía en el proceso.

Según este modelo el electrón se vería atraído irremisiblemente hacia el núcleo y acabaría chocando con éste. Pero esto implicaría ¡que no habría electrones!. En jerga científica diríamos que la materia no sería estable. Puesto que nosotros somos materia y estamos aquí las hipótesis de nuestro modelo no pueden ser correctas.
En otra entrada explicaremos la descripción de los estados en mecánica clásica y cuántica, pero permitidnos ahora que hagamos algunos supuestos. En la mecánica clásica la evolución de un sistema se describe como la trayectoria de un punto en el estado de fases. Sin embargo, en la mecánica cuántica esto no es posible, dado que el estado de un sistema solo puede venir dado como una “probabilidad”, de modo que no existe trayectoria de un solo punto que se adecue a la evolución temporal de un estado. Aquí, pues, la incógnita será una función (con argumentos en el espacio-tiempo y con valores en los complejos) \Psi (x,y,z,t) cuyo módulo al cuadrado (que es un número real) nos dará la densidad de probabilidad de que un sistema se encuentre en un cierto estado.
Esta función, que llamaremos “función de onda”,  evoluciona de acuerdo con la ecuación de Schrödinger. Esta es una ecuación en derivadas parciales (EDP) “cualitativamente” hiperbólica (ver la entrada anterior ). Para mayor simplicidad vamos a suponer aquí que no depende del tiempo, con lo que ahora nuestra ecuación de Schrödinger es elíptica y se puede escribir como la función que minimiza un funcional de acción (ya hablamos antes de este concepto)  J(\Psi)= \int |\nabla \Psi(x)|^2 dx +\int V(s)|\Psi(x)|^2 dx
Si utilizamos, como representación de la función de onda,  la base de POSICIONES, la densidad de probabilidad asociada a nuestra función de onda, \int_A |\Psi(x)|^2dx,  nos dará la probabilidad de que el sistema (en este caso, nuestro electrón) esté en una zona A del espacio.
Si nos interesa el MOMENTO (i.e. la velocidad), su función de onda es la transformada de Fourier de la función de onda de posiciones, \hat{\Psi}(p),  y esta es la madre del cordero.
En la mecánica clásica la posición y el momento eran independientes. Por eso, podríamos realizar medidas sobre una y otra cantidad sin afectar a la otra.
Ahora, no obstante, tenemos una ligadura: hay una relación que conecta la posición y el momento, y ha de cumplirse. Podemos, pues, escribir nuestro funcional en términos de las dos funciones de onda J(\Psi,\hat{\Psi})= \int |\hat{ \Psi}(p)|^2|p^2| dp +\int V(s)|\Psi(x)|^2 dx.
La formulación del principio de incertidumbre de Heisenberg es, pues, \int x^2|\Psi(x)|^2 dx \int p^2|\hat{\Psi}(p)|^2 dp=\int |\nabla_x \Psi(x)|^2 dx \int |\nabla_p \hat{\Psi}(p)|^2 dp\geq C donde C es cierta constante que podemos escribir explícitamente pero que hacerlo nos da una pereza superlativa por lo que lo dejamos ‘para el lector interesado’ ;). La constante es una ensalada de constante de Planck \hbar, \pi, algún dos… Puede escribirse también involucrando sólo una función de onda de la misma manera que se hace con el funcional.
Hemos dicho que \Psi(x,t) nos da una probabilidad, con función de densidad |\Psi(x,t)|^2dx. Así observamos que en realidad el término \int x^2|\Psi(x)|^2 dx es la varianza de nuestra variable aleatoria |\Psi(x,t)|^2 (que asumimos tiene media x=0, es decir, que nuestro electrón está más o menos rondando el origen de coordenadas espaciales).
Entonces si entendemos esas ‘normas’ de los gradientes como los “errores” (utilizaremos esta palabra aquí a modo explicativo, pero hay que ser cautos con la terminología), veremos que un error pequeño en alguna de nuestras mediciones, para fijar ideas, la posición, implica que el error del momento (es decir, de la velocidad) tiene que ser alto para que el producto sea mayor que una constante. Es más: cuanto mejor midamos una (menor error) mayor es el error de la otra. ¡Qué vida más dura la nuestra!
No he hablado nada claro en este último párrafo, y los exigentes se habrán quedado pensando que me explico muy mal (quizá tengan razón). Hemos calculado un par de ejemplos ilustrativos usando python. Hemos supuesto que es unidimensional y que nuestras funciones de onda toman valores en los reales y no en los complejos. No lo hacen, pero sed generosos con nosotros que esto es sólo una afición.
Supongamos que nuestra onda es como la de esta figura
Función de onda con momento definido: seno

Si la funcion de onda es como un seno, la longitud de onda (o el momento) está bien definida.

Entonces por la fórmula de De Broglie, que conecta la visión de partículas con la de ondas, tenemos una velocidad definida (con poco o ningún error), que depende de la longitud de onda (¡otra entrada por hacer!). Esto de nuevo enlaza con nuestra transformada de Fourier, dado que este tipo de transformadas nos llevan desde el espacio de posiciones al espacio de momentos. Sin embargo, no conocemos nada de la posición, pues la probabilidad no se decanta por ninguna zona en particular y salvo puntos donde nunca estarán los electrones por lo demás no podemos decir nada. (Para el lector interesado, decir que esta función de onda no está bien definida en el espacio de posiciones: no es normalizable)
Otro caso interesante es algo así como:
Función de onda de un paquete gaussiano

Un paquete gaussiano es una elección "popular" de función de onda porque tiene incertidumbre mínima

En esta segunda imagen tenemos una función tal que al hacer el cuadrado obtenemos una zona que acapara casi toda la probabilidad, un entorno del origen (como la vida misma, unos pocos acaparan casi toda la proba…, digo, billetes). Es decir, casi sin error podemos saber su posición; sin embargo, no podemos usar la fórmula de De Broglie para calcular su velocidad, pues ¿quién me dice su longitud de onda?…
Para ir concluyendo ¿cómo enlaza esto con los gradientes (es decir, las derivadas)?, observamos que una función como la de la figura 1 tiene un gradiente ‘pequeño’, mientras que una función cómo la de la figura 2 tiene un gradiente ‘grande’. Sólo hay que ver que ese pico tiene una derivada bien grande. Así tenemos que entender que los gradientes me dan una idea del error, pero cambiando la variable. Es decir, una gradiente alto en las x me dice un error grande en las p y un error pequeño en las x. Aunque no hemos hablado de ello, esto tiene que ver con la estructura geométrica de las ecuaciones del movimiento Hamiltonianas (ya llegará, ya llegará…).
Es sorprendente (pero usual) cómo la física a veces acaba teniendo que ver con ideas abstractas de las matemáticas (al revés también ocurre).
Hay más que contar, pero se está insinuando una entrada muy larga, así que en la segunda parte de esta entrada escribiremos más acerca de los desarrollos matemáticos de la Transformada de Fourier y de si se puede obtener alguna propiedad física desde las matemáticas.
=======================
Esta entrada es participante en la XVIII Edición del Carnaval de la Física, alojado por “La Aventura , en la mecánica cuántica esto no es posible, de la Ciencia.

¿Qué es exactamente una EDO?

A lo largo de las entradas de esta bitácora han ido apareciendo conceptos relativamente avanzados (ecuaciones en derivadas parciales…) sin mencionar casi los conceptos previos (previos en el sentido pedagógico, porque cronológicamente surge todo al mismo tiempo) como pueden ser las ecuaciones diferenciales ordinarias.

Una ecuación diferencial ordinaria (EDO a partir de ahora) es una expresión que relaciona la derivada de la función incógnita con la propia función. Así el problema queda reducido a ver si podemos encontrar (o demostrar que existe) una función tal que se verifique una relación más o menos complicada entre ella y sus tasas de cambio.

Un ejemplo lo tenemos en la Ley de Malthus. Supongamos que tenemos un número de insectos f. El incremento del número de insectos evolucionará de manera proporcional a el mismo, o de otra manera, en ausencia de rivales o limitaciones propias del medio la cantidad de hijos que medran es proporcional al número de padres. Razonable, ¿verdad?. Así la EDO la podemos escribir como f'(t)=cf(t), f(0)=f_0.

Unos comentarios antes de seguir: el número de datos iniciales (como f(0)=f_0 en el ejemplo anterior) tiene que ser el mismo que el máximo número de derivadas presentes en la expresión. Así como la ecuación anterior tenía una derivada debíamos poner un dato inicial. En el ejemplo del oscilador armónico al tener la ecuación x''=\omega^2 x necesitamos dos datos iniciales, x(0)=x0 y x'(0)=v0. Supongamos que tenemos una EDO de segundo orden (es decir, con dos derivadas) como la del oscilador armónico, entonces la solución general se escribe como $latex f(t)= c_1 e^{omega t}+ c_2e^{-omega t}$, donde para c_i son dos constantes que se fijan usando los datos iniciales.  Es decir, el conjunto de soluciones de una EDO linear de segundo orden (sin usar los datos iniciales) es un espacio vectorial (gracias a la linearidad) de dimensión 2 (el número de derivadas). Esta es una diferencia fundamental (y poco conocida entre los físicos) con respecto a las EDPs, pues una EDP tiene un espacio de soluciones de dimensión infinita.

Parece claro que conseguir escribir la solución de una EDO de manera explícita, es decir, una fórmula cerrada, no va a ser fácil o siquiera posible en cuanto la EDO sea no-lineal, por ejemplo algo como f''(t)=f^2(t)f'(t). Nos interesa entonces saber que existe dicha solución, ser capaces de simularla con el ordenador y ser capaces de extraer propiedades cualitativas.

Para una EDO general, f'(t)=F(t,f(t)), la existencia se puede segurar si se dan unas propiedades en la expresión F(x,y), a saber, que sea derivable en la variable y.

Para aproximar la solución de la EDO f'=F(t,f(t)) f(t_0)=f_0 se tienen que aproximar unas integrales, f(t)=f_0+\int_0^t F(s,f(s))ds. Según el método que usemos tendremos una mejor o peor cota del error cometido. La manera típica, conocida como métodos Runge-Kutta, de hacerlo es considerar una serie de puntos entre dos nodos temporales y calcular el valor de la función F en esos puntos. Después hemos de sumar dichos valores con unos pesos. La teoría de los métodos Runge-Kutta es bien conocida y se puede encontrar en la red sin mucho problema (siempre que se hable un mínimo de inglés al menos). Aquí voy a colgar unos códigos hecho por mí:

function [u,t,h,totalt]=euler(F,t0,T,u0,N)
%funcion que aproxima con un metodo de Euler explicito la solucion de la edo
%u’=F(u,t) hasta tiempo T con N nodos temporales. u0 es el dato inicial.
%%Rafael Granero Belinchon
tic
h=(T-t0)/N;
t=[t0:h:T];
u=zeros(N+1,1);
u(1)=u0;
for i=2:N+1
u(i)=u(i-1)+feval(F,u(i-1),t(i-1))*h;
end
plot(t,u);
totalt=toc;

function [u,t,h,totalt]=rungekutta4(F,t0,T,u0,N)
%Funcion que aproxima con una RK4 la solucion de
%y’=F(y) y(t0)=u0 y tiempo final T. N da el numero
%de nodos temporales.
%%Rafael Granero Belinchon
tic
h=(T-t0)/N;
t=[t0:h:T];
u=zeros(N+1,1);
u(1)=u0;
for i=2:N+1
s1=feval(F,u(i-1),t(i-1));
s2=feval(F,u(i-1)+h*0.5*s1,t(i-1)+h*0.5);
s3=feval(F,u(i-1)+h*0.5*s2,t(i-1)+h*0.5);
s4=feval(F,u(i-1)+h*s3,t(i-1)+h);
u(i)=u(i-1)+(s1+2*s2+2*s3+s4)*h/6;
end
plot(t,u);
totalt=toc;

function [u,t,totalt]=rungepasovariable(F,t0,T,u0,N,tol)
%funcion que aproxima con un metodo de paso variable
%la solucion de la ecuacion diferencial y’=F(y) en [t0,T]
%con u0 como dato inicial una cantidad N de pasos temporales y una tolerancia tol.
%%Rafael Granero Belinchon
tic
t=[t0];
dt=(T-t0)/N;
u=[u0];
u1=u;
u2=u;
while t(end)<=T
fev=feval(F,u(end),t(end));
s=u(end)+0.5*dt*fev;
u2(end+1)=u(end)+feval(F,s,t(end)+0.5*dt)*dt;
u1(end+1)=u(end)+fev*dt;
err=abs(u2(end)-u1(end));
h=0.9*dt*sqrt(tol/err);
u(end+1)=u(end)+feval(F,s,t(end)+0.5*h)*h;
t(end+1)=t(end)+h;
dt=h;
end
totalt=toc;

Caminos aleatorios e imágenes

Esta es nuestra entrada para el Carnaval de Matemáticas 2.2 (alojado esta vez en Gaussianos).

Muchas veces se ha escrito sobre la relación entre los caminos aleatorios y la ecuación del calor, y quizá próximamente tratemos nosotros ese tema. Sin embargo hoy vamos a ver una aplicación poco conocida de esa relación. En esta entrada vamos a tratar brevemente una manera de emplear las matemáticas, y mas concretamente los caminos aleatorios o las trayectorias brownianas, para que un ordenador sepa qué imagen está ‘viendo’. Ahora que han puesto unos radares de tramo (que funcionan memorizando las matrículas de los coches y midiendo tiempos para calcular la velocidad media del tramo donde está el radar) en las carreteras españolas este problema tiene una clara aplicación práctica.

Desde hace unos años el tratamiento de imágenes usando ecuaciones en derivadas parciales es un área de investigación matemática floreciente. Normalmente tratan el problema de detectar los contornos de una imagen o de suavizarlos (de manera que veamos mejor la imagen). Nuestro problema es ligeramente distinto. Nosotros, dada una silueta (es decir un contorno cerrado y suave que encierra un área negra mientras que lo de fuera es blanco), tenemos que enseñar al ordenador a sacar propiedades de los contornos de manera que aprenda a distinguir entre las distintas siluetas.

La manera usual de extraer propiedades de una silueta es ‘medir’ y ‘clasificar’ los puntos del interior del contorno en función de su posición relativa a la curva que delimita la silueta (a partir de ahora la denotaremos S, mientras que el contorno será \partial S). Esto puede hacerse por ejemplo con la distancia mínima. Es decir, a cada punto interior se le asigna un valor que viene dado por la distancia mínima a \partial S. Se forma así lo que se llama una segmentación (se divide la silueta en partes) que no es muy regular (he apostado con David a que vosotros, los lectores, podéis encontrar un ejemplo muy rápido…). Para utilizar esta manera de relacionar puntos del interior con la frontera lo que se hace es resolver la ecuación eikonal con condiciones de borde Dirichlet sobre la silueta: es decir se resuelve |\nabla u|^2=1\;\;x\in S,\; u(x)=0\;\; x\in \partial S. Esta manera tiene ciertas desventajas, algunas matemáticamente obvias. Por ejemplo podemos convencernos rápidamente de que la ecuación anterior no tiene una única solución. En efecto, consideremos el problema en una dimensión: tenemos así a ecuación diferencial ordinaria |u'(x)|=1 en un intervalo acotado. Podemos construir infinitas soluciones, basta con ir construyendo triángulos con lados de pendiente 1 o -1. Podemos construirlos más grandes, más pequeños, unos pocos o muchos… Cada una de estas construcciones será una solución ‘débil’ (otro día hablaremos más de la soluciones débiles, hoy lo dejo caer sólo :P).

Así que si descartamos la aproximación anterior tenemos que proponer una nueva… para que no nos digan que hacemos críticas destructivas. Así que lo que hacemos (ver la referencia más abajo) es considerar un camino aleatorio, y más concretamente consideramos el tiempo medio, que denotamos por t que tarda una partícula que siga dicho camino aleatorio en golpear \partial S si inicialmente estaba en un punto x\in S. Cuando a cada x le asignamos este t tenemos una segmentación. ¿Qué ecuación diferencial cumple? En (1) la motivan razonando de la siguiente manera: sea t(x,y) el tiempo medio que emplean estas partículas en golpear el contorno del dominio saliendo desde el punto (x,y) (interno de la silueta S). Entonces si (x,y)\in \partial S se tiene que t(x,y)=0, si no, por ser las probabilidades uniformes se tiene que se puede calcular conociendo los valores de los puntos vecinos. Efectivamente, si estamos en un punto (x,y) y conocemos el valor de t en los puntos inmediatamente vecinos lo que podemos hacer es ‘gastar un movimiento’ en movernos a un punto vecino (siguiendo el camino aleatorio uniforme, lo que nos da una probabilidad 1/4 de elegir un determinado punto adyacente) y sumarle el tiempo medio que se emplea desde este nuevo punto. Por lo tanto se tiene que el valor es
t(x,y)=1+\frac{1}{4}\left(t(x+dx,y)+t(x-dx,y)+t(x,y+dx)+t(x,y-dx)\right).

Entonces observamos que la discretización del Laplaciano es
\Delta t(x,y)\approx\frac{t(x+dx,y)+t(x-dx,y)+t(x,y+dx)+t(x,y-dx)-4t(x,y)}{dx^2}, y por lo tanto la ecuación anterior es una versión discretizada de -\Delta t=\frac{4}{dx^2}.

Una manera rigurosa de obtener la misma conclusión es considerar la ecuación
\frac{1}{2}\Delta u=-1, con datos de borde Dirichlet homogéneos. Sea ahora \tau_{(x,y)}=\inf\{s:X_s(x,y)\in\partial S\}. Entonces se tiene
u(x,y)=E[\tau_{(x,y)}].

La idea de la demostración es aplicar la fórmula de It\^ o (ver (2) o (3)) al proceso $u(X_s)$, donde $X_s$ es un movimiento browniano, obteniendo la fórmula siguiente tras tomar esperanzas

E[u(X_{\tau_{(x,y)}})]-E[u(x,y)]=E\bigg{[}\int_0^{\tau_{(x,y)}}\Delta u(X_s)ds\bigg{]}.

Ahora usamos las condiciones de borde y la ecuación para obtener
0-u(x,y)=-E\bigg{[}\int_0^{\tau_{(x,y)}}1ds\bigg{]}=-E[\tau_{(x,y)}], concluyendo la demostración.

Una vez que tenemos t solución de la ecuación de Poisson anterior lo que hacemos es definir nuevas funciones \Phi(x)=u(x)+|\nabla u(x)|^2 y y \Psi(x)=-\nabla\cdot\bigg{(}\frac{\nabla u}{|\nabla u|}\bigg{)} (entre otras). La función Phi tiene ciertas propiedades que la hacen interesantes, pero para el tratamiento de imágenes lo más importante es que los valores altos de \Phi indican concavidades (allí el gradiente es grande) y que podemos utilizar el método del umbral para dividir nuestra forma en partes sin perder información. La función Psi (cuyo operador es el 1-Laplaciano) tiene la propiedad de que ciertos valores se alcanzan en zonas curvadas. Por lo tanto sirve para encontrar esquinas en nuestra forma. Los valores negativos de \Psi indican concavidades. Cuanto más negativo más ‘picuda’ es la concavidad. Al reves también funciona, los valores altos indican convexidades. Así extraemos información de la imagen y el ordenador puede discernir entre ellas.

Para el lector familiarizado con Matlab dejamos un código. Con estas funciones se puede experimentar un poquito lo que hemos estado diciendo.

function [img,img2,u,t,cnt]=imagessor(tol,itmax,image)
%this program use the sor method for solve the poisson equation in a silhouette
%tol is the tolerance
%itmax is the maximum number of iterations
%image is an png image.
%Rafael Granero Belinchon

tic
img=imread(image);
figure;imagesc(img);
input(‘Press any key’)
img=double(img);
[H,W]=size(img);
w= 2 / ( 1 + sin(pi/(H+1)) );%our overrelaxation parameter
for i=1:H
for j=1:W
img2(i,j)=abs(img(i,j)-255); %change white for black and viceversa
end
end
img2;
figure; imagesc(img2);
input(‘Press any key’)
clear i,j;
%now we start with the algorithm. Like maybe it will be difficult put the geometry of the silhouette
%we use the easy bounday conditions to treat all the image, but we only solve the poisson inside the silhouette.
%This maybe is not efficiently, but is easier.
u=img2;
v=u;
err=1;
cnt=0;
while((err>tol)&(cnt<=itmax))
for i=2:H-1
for j=2:W-1
if (img2(i,j)==0)

else
v(i,j)=u(i,j)+w*(v(i-1,j) + u(i+1,j) + v(i,j-1) + u(i,j+1) +1 – 4*u(i,j))/4;
E(i,j)=v(i,j)-u(i,j);
end
end
end
err=norm(E,inf);
cnt=cnt+1;
u=v;
end
u=flipud(u);
figure;imagesc(u);
mesh(u)
t=toc;

function [Phi,t]=phi(u,NGu)
%This program calculate the function phi=u+NGu^2
%NGu is the norm of the gradient of u
%Rafael Granero Belinchon

tic
[H,W]=size(NGu);
for i=1:H
for j=1:W
Phi(i,j)=u(i,j)+NGu(i,j)^2;
end
end
t=toc;

function [Psi,t]=psiimages(u,Gux,Guy,NGu)
%This program calculate the function psi=-div(gradient(u)/norm(gradient(u))
%NGu is the norm of the gradient of u
%Gux is the first component of the gradient,
%Guy is the second one
%Rafael Granero Belinchon

tic
[H,W]=size(NGu);
for i=2:H
for j=2:W
Psix(i,j)=((Gux(i,j)-Gux(i-1,j))*NGu(i,j)-Gux(i,j)*(NGu(i,j)-NGu(i-1,j)))/NGu(i,j)^2;
Psiy(i,j)=((Guy(i,j)-Guy(i,j-1))*NGu(i,j)-Guy(i,j)*(NGu(i,j)-NGu(i,j-1)))/NGu(i,j)^2;
Psi(i,j)=-Psix(i,j)-Psiy(i,j);
end
end
t=toc;

function [Gux,Guy,NGu,t]=gradient(u)
%This program calculate the gradient and its norm
%Gux is the first component of the gradient,
%Guy is the second one
%NGu is the norm of the gradient
%Rafael Granero Belinchon

tic
[H,W]=size(u);
for i=2:H
for j=2:W
Gux(i,j)=u(i,j)-u(i-1,j);
Guy(i,j)=u(i,j)-u(i,j-1);
NGu(i,j)=(Gux(i,j)^2+Guy(i,j)^2)^0.5;
end
end
t=toc;

(1) L.Gorelick, M.Galun, E.Sharon, R.Basri, A.Brandt, ‘Shape Representation and Classification Using the Poisson Equation’, IEEE transaction on pattern analysis and machine intelligence, 28 (2006), no.12, 1991-2004.

(2) H.Kunita, Stochastic differential equation and stochastic flows of diffeomorphism, Lecture Notes in Math. vol 1097, Springer, 1984.

(3) H.Kunita, Stochastic flows and stochastic differential equations, Cambridge studies in advanced mathematics, 1997.

Inferir la Ley: ¿es siquiera posible?

El Viernes pasado estuve en la conferencia “SERIES LÓGICAS Y CRÍMENES EN SERIE” de Guillermo Martínez, el autor de “Crímenes imperceptibles” (que es la novela en la que se basa la película “Los crímenes de Oxford”. La presentadora de la conferencia fue Rosa Montero y estaba organizada por el Instituto de Ciencas Matemáticas (que es donde trabajo).

La presentación del conferenciante no me gustó mucho. Creo que la señora Rosa Montero transmitió una serie de tópicos sobre los matemáticos que se pueden resumir en la siguiente frase, que cito textualmente,

“Tener un amigo matemático es como tener un amigo trapecista: exótico.”

La conferencia en sí no estuvo mal… No eran matemáticas y sospecho que este tipo de charlas divulgativas tienen un efecto contraproducente, pero Guillermo Martínez lo contó muy bien y ameno. En general pienso que este tipo de charlas hace que la gente culta de formación no-matemática piense que nosotros lo que hacemos es…mmm… ¿contar? ¿resolver problemas de lógica como los de los libros de pasatiempos? Y en una ausencia completa de humildad piensan que la matemática es algo completamente inútil. ¡Cómo no va a ser inútil resolver pasatiempos de manera profesional! Creo que toda conferencia divulgativa debería empezar indicando algo así:

“Señores, lo que van a ver aquí está muy alejado del campo en cuestión. Es algo divertido y fácil de entender, no como los problemas reales que tratamos de resolver.”

Vamos ahora al tema de la conferencia en cuestión: las series lógicas. Una serie lógica es una colección de símbolos o números finita y para la que se necesita continuación. Por ejemplo, 2,4,8,16… En la conferencia se nos habló de la falta de unicidad para la continuación. Es decir, que dada una serie la respuesta correcta no es única. En el ejemplo anterior todo el mundo diría que sigue el 32, pero 31 también es una respuesta correcta (se puede razonar, si alguien tiene interés que ponga su duda en los comentarios y la responderé).

Guillermo Martínez usó un argumento basado en interpolación para concluir que dada una colección finita de números hay una manera de razonar que permite continuar la serie con cualquier otro número. La idea es que dada la serie 2,4,8,16, la respuesta puede ser x para cualquier número. Eso es porque podemos construir un polinomio (que se llama polinomio interpolador de Lagrange) de manera que pase por los puntos (1,2), (2,4), (3,8) (4,16) y (5,x), por lo tanto dicho polinomio es una Ley que concuerda con los experimentos anteriores, pero entre las distintas “Leyes” difieren en el 5º experimento. Ludwig Josef Johann Wittgenstein ya habló de eso en su obra.

Así, dada una colección aparentemente aleatoria de números, podemos construir un polinomio interpolador que nos sirva de Ley y nos “explica” como “se han obtenido”. El tema de lo que significa “aleatorio” surge aquí, pues si dada una colección siempre podemos encontrar una Ley… ¿qué significa una colección de números aleatorios? Por ejemplo, en Matlab tenemos la función rand, que nos da un número entre 0 y 1 “aleatorio”. Claramente estos números no son aleatorios, los genera un ordenador usando una fórmula. Sin embargo usando los criterios existentes (que no nos dicen cuándo una secuencia es aleatoria sino cuándo una secuencia PASA POR aleatoria) son indistinguibles de números verdaderamente aleatorios (los que se sacasen con los ojos vendados de un bombo). Por lo tanto en la práctica nos sirven.

El problema de la inferencia de una Ley dado un número finito de experimentos es irresoluble, ya lo dijo Wittgenstein, sin embargo es lo que hace la física todos los días de manera más que aceptable. Basta con tener una Ley “dinámica”, me explico, si vale la usamos, cuando no valga la cambiamos por una que nos cumpla todos los nuevos experimentos y así vamos tirando para delante. Y he de decir que de manera más que satisfactoria. Por lo tanto, quiero desde aquí tranquilizar a todos los asistentes a la conferencia a los que vi visiblemente sorprendidos, casi en estado de shock. De acuerdo, no podemos saber si la Ley que usamos es la correcta, pero, mientras nos funcione bien ¿qué más nos da? Lo demás son pasatiempos.

Proteinas, ¡dobláos!

El “misterio” del plegamiento de proteinas está más cerca de su resolución: científicos en China han descubierto la ley que relaciona el comportamiento del plegado con la temperatura [1].

Hasta ahora se había pensado que las proteínas, largas cadenas de aminoácidos, se plegaban de modo “mecánico” (clásico), de modo que la proteína tenía que pasar por todos los estados intermedios hasta la forma funcional final. Simulaciones se habían llevado a cabo utilizando modelos clásicos de plegamiento de proteinas.

Imagen del plegamiento de una proteina. (Wikipedia)

Las proteinas se pliegan hasta su forma funcional, que es la de mínima energía

No obstante, los posibles disposiciones en que las proteínas se pueden doblar son MUCHAS [imaginémonos de cuantas maneras se puede doblar una cuerda muy larga], y la forma funcional es una determinada de estas disposiciones. En concreto, esta forma funcional sería el mínimo de energía en el plegado de la proteína, y parece ser que este mínimo no depende del modo en que se llega a la forma funcional (clásico o cuántico).

Además, los biólogos tienen datos que avalan que este proceso es muy sensible a la temperatura, y lo extraño es que no sigue la ley de Arrhenius [1](tendría que ser lineal en el logaritmo de la tasa de plegado con la inversa de la temperatura), sino que se comporta de modo no-lineal.

Lo que proponen estos científicos es que las proteínas no se mueven de modo mecánico hasta su forma final, sino que realizan un “salto cuántico” hasta ella. De este modo, al no tener que evaluar todas esas disposiciones, este plegamiento puede ser muy rápido (del orden de nanosegundos).

Utilizando este método, los científicos son capaces de predecir la dependencia de la tasa de plegado con la temperatura y sus resultados se ajustan bastante bien con los datos experimentales [2].

Referencias:

[1] Enlace en inglés, desde el MIT technology review blog: http://www.technologyreview.com/blog/arxiv/26421/?ref=rss

[2] “Ecuación de Arrhenius” en la wikipedia. Nivel básico en español o más completo en inglés.

[3]  L. Luo and J. Lu, “Temperature Dependence of Protein Folding Deduced from Quantum Transition”, eprint arXiv:1102.3748 [arxiv]