Interpretando los votos de Imdb: Exageraciones y distribuciones de probabilidad

 

Uno de los factores que me ayudan a decidir si ver o no una película es la valoración que se le da en la web por los internautas (normalmente desde Imdb). Con el tiempo he aprendido a no darle mucha importancia. Lo que pasa es que he aprendido a interpretar el voto, y he sacado algunas conclusiones, que quiero compartir aquí, con una poca (muy poca) ayuda de la estadística. 

En primer lugar es importante que una muestra de opiniones sea relativamente grande, preferiblemente de decenas de miles de votos como mínimo, si se supone que tiene que representar lo que la mayoría opina. Así se consigue que la distribución de los votos se acerca lo máximo a la poblacional, sea la que sea. Esto yo diría que se consigue normalmente en casi todas las películas, salvo que sean de cine independiente o muy poco conocidas.

Por otro lado es de suponer que los votos son independientes. Es decir, que cada uno vota independientemente de la valoración ya existente, o de la publicidad, o de otras críticas, o los prejuicios, o de si el actor cae bien o mal, o de si el director hizo otra película buena o mala, etc. Esto es mucho suponer, y yo diría que no se cumple del todo. 

También se supone que la muestra es aleatoria, es decir, que no presenta sesgos (que haya gente de todas la edades, de los dos sexos, y de cualquier gusto en cuanto a géneros…). Esto sí encuentro más probable que se cumpla, sobretodo en películas que van dirigidas al gran público y las acaba viendo casi todo el mundo (Avatar (2009), por ejemplo). No está tan claro, de nuevo, en películas que está claro que no va a ver gente de toda clase, como el cine de festivales independientes, o el cine de gore.  

 

image

Histograma de una muestra que sigue la ley normal (©The MathWorks, Inc.)

 

No tengo claro si la distribución de la población “debe ser” una distribución normal, o de algún otro tipo, porque no creo que pueda asegurarse que los votos sean siempre independientes, como he dicho antes,  pero lo que está claro es que en los casos con muchos votos se observa una función de distribución con un máximo en alguno de los votos que decrece monótonamente al alejarnos de ese máximo.

El problema es que mucha gente valora de forma exagerada, asignando 10 o 1, lo que puede hacer que la función de probabilidad no sea exactamente como la hemos definido antes, sino que siempre se muestra un pequeño pico en los extremos. Esto pasa casi siempre en películas con una valoración media que no sea la máxima de 10. Por ejemplo, en Batman Vuelve (1992):

 

image

Distribución de votos en Batman Vuelve (Fuente) 

 

Se ve como el máximo está en el 7, y a medida que nos alejamos el número de votantes disminuye, pero en los extremos (el 1 y el 10) hay un pequeño pico.

Si el máximo está situado en el 10, entonces inevitablemente habrá un pico ahí, que no necesariamente es el resultado de un voto “poco razonable”. En cambio puede (y suele) aparecer de nuevo el pico en el voto 1. Es como los votos negativos en YouTube, siempre hay alguno que tiene que darle. Un ejemplo de eso mismo sucede en las películas mejor valoradas, como por ejemplo El Padrino (1972):

 

image

Distribución de votos en El Padrino (Fuente)

 

La valoración disminuye suavemente, como se espera, salvo por el pico del 1. Aunque podríamos discutir sobre cómo afecta la valoración previa al voto, que hace que no sea completamente independiente, no hay duda de que 26.709 personas han votado exageradamente, si los comparamos con la distribución de la muestra.

En estos dos ejemplos anteriores, a pesar de los votos exagerados que hemos visto, la distribución con un máximo es bastante evidente, y podríamos llegar a la conclusión que para la mayoría de los votantes, Batman Vuelve es una película de 7, y El Padrino es excelente. Y cuanto más nos alejamos de esa valoración, menos personas encontramos (exceptuando los extremos mencionados).

Ahora voy a poner un ejemplo en el que el voto exagerado que hemos visto estropea toda la valoración, porque representa una parte muy significativa de la población. Se trata de La saga crepúsculo: Amanecer – Parte 1 (2011):

 

image

Distribución de votos en La Saga Crepúsculo: Amanecer – parte 1 (Fuente)

 

Esta distribución parece el Taj Mahal tumbado. En esta caso la valoración de la película es 4.7, pero ¿sirve de algo? ¿Es representativa de la población? Más bien es el resultado de la guerra entre las dos grandes fuerzas de los extremos 10 y 1. Más del 60% de los votantes se encuentra en alguno de los dos extremos, no entorno al valor 4 o 5, como cabría esperar si la distribución fuese como las anteriores. Ese 4.7 no sirve de nada, porque podría cambiar de un día para otro, ya que ese valor es muy sensible a los extremos.

Podemos achacar esas votaciones “poco responsables” a la impetuosidad juvenil, por llamarlo de alguna forma. También hay quien vota pensando que los valores positivos compensarán los negativos, o viceversa. En realidad lo que consiguen es que la valorización en general no sirva para mucho.

 


Mi consejo

 

Por esto que hemos visto, mi recomendación es que no está mal tener en cuenta estas valoraciones, pero hay que saber interpretarlas. Aconsejo echarle un vistazo a la distribución de los votos, por si acaso (se accede a partir del enlace en el número de votantes). Además no hay que olvidar que esto representa el gusto de la gente, no el de uno propio. A veces películas con valoración mediocre me han gustado mucho, y con una media de 8 yo les habría puesto un 6. Pero al menos va bien conocer si el valor que nos muestran tiene validez de entrada o no, fijándonos si sigue una distribución normal, sin muchos valores extremos. Y por supuesto si votáis en Imdb (o en cualquier otro sitio), intentad que los 10 y 1 sean todo lo excepcionales que se merecen.

 

 

3 comentarios

  1. Información Bitacoras.com…

    Valora en Bitacoras.com:   Uno de los factores que me ayudan a decidir si ver o no una película es la valoración que se le da en la web por los internautas (normalmente desde Imdb). Con el tiempo he aprendido a no darle mucha importancia. Lo que pasa…..

  2. […] normales (sin ninguno de los fenómenos que numero después) la nota sería distinta. En la entrada anterior hice una pequeña reflexión sobre cómo creo que se debían que interpretar los votos en Imdb (o […]

  3. […] otra también tiene que ver con Imdb y la dividí en dos partes: la primera es ‘Interpretando los votos de Imdb: Exageraciones y distribuciones de probabilidad’ y su segunda parte: ‘Expectativas y prejuicios’. Esas dos entradas llevaban mucho tiempo […]

¿Qué te parece?

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: