Jaký film si ve volných dnech pustit? Z více než devíti milionů hodnocení filmů a seriálů na serveru csfd.cz jsme zjišťovali, které filmy jsou si z hlediska hodnocení nejblíže. Platí, že lidé mají rádi pouze filmy jednoho žánru nebo se divácké preference dělí podle něčeho jiného? Náš interaktivní graf vám pomůže zjistit, jaké filmy se líbí lidem s podobným vkusem, jako máte vy.
Ze shlukové analýzy vyplývá, že vkus diváků, kteří na ČSFD filmy hodnotí, se žánrem příliš neřídí. Vznikly nám čtyři hlavní skupiny, v nichž žánr téměř nehraje roli:
- Filmy pro náročného diváka
- Filmová klasika
- Mainstream
- Nenáročné filmy
Nejsoudržnější skupinu tvoří nenáročná, odpočinková díla, která mívají průměrně nižší hodnocení. Nejčastěji si připisují 3 hvězdičky, často je ale uživatelé označují i za odpad. Patří mezi ně například Kameňák a Ordinace v růžové zahradě, nebo také Kobra 11, Rychle a zběsile a Madagaskar.
Dalším druhem je mainstreamová tvorba, jejíž hodnocení se nejčastěji pohybuje okolo 80 %. Tato skupina je poměrně nesourodá, patří sem nejrůznější filmy od sci-fi trháků jako je Zrození planety opic či Star Trek přes animované filmy jako jsou Příšerky s. r. o. nebo Wall-E až po oblíbené akční filmy jako je Rocky nebo různé Bondovky.
Naopak jednoznačně je oddělený shluk klasických filmů, kam se řadí z valné většiny filmy z československé předválečné, respektive předrevoluční tvorby (Cesta do hlubin študákovy duše, Šíleně smutná princezna, Vrchní prchni atd.), najdeme tu ale i v Česku proslulou zahraniční tvorbu jako třeba Mr. Bean, Deník Bridget Jonesové, Někdo to rád horké, seriál M*A*S*H* a další.
Poslední skupinou jsou filmy a seriály pro náročného diváka. Pouze část z nich patří mezi nejlepší filmy na ČSFD (mimo jiné Kmotr a Pulp Fiction), zatímco jiné jsou dobře přijímané pouze částí uživatelů (např. Mechanický pomeranč a 2001: Vesmírná odysea). Přesto je tato skupina v průměru nejlépe hodnocenou.
Zobrazení filmů pomocí techniky t-SNE: filmy, které se líbí stejným lidem, jsou blízko sebe.
Jaký film si mám pustit?
Díky tomu, že analýza vychází z hodnocení uživatelů, může vám výše uvedený graf pomoci zjistit, který film by se vám mohl líbit. Snímky na grafu jsou totiž sdruženy tak, aby si byly nejblíže ty, které mají rádi stejní lidé. Je-li vedle vašeho oblíbeného filmu snímek, který jste ještě neviděli, je pravděpodobné, že se vám bude líbit.
Metodika
Analyzovali jsme 9 375 903 hodnocení filmů, které přidali uživatelé s alespoň 200 komentáři (takových uživatelů bylo v říjnu tohoto roku 4040). Z 198 532 zjištěných filmů jsme zpracovávali pouze vyběr 566, které hodnotila alespoň polovina analyzovaných uživatelů, abychom minimalizovali počet případů, kdy více uživatelů film nevidělo nebo nehodnotilo. Chybějící hodnoty jsme nahrazovali metodou soft-impute (Mazumder, Hastie, Tibshirani. 2010).
Shlukovou analýzu filmů jsme prováděli pomocí k-means algoritmu na binarizovaných datech hodnocení filmů uživateli (zda je hodnocení filmu uživatele větší nebo menší než průměrné hodnocení snímku). Bylo vybráno 5 shluků podle vysokého průměru siluetových skórů a interpretovatelnosti (2 nejednoznačné shluky byly spojeny do jedné skupiny mainstreamových filmů). Vizualizace je provedená technikou t-SNE (Maaten, Hinton. 2008). Méně výrazné (průhlednější) filmy v grafu patří do svých skupin méně jednoznačně (tj. mají menší siluetový skór). Velikost kolečka odpovídá průměrnému hodnocení filmu.Michal Zeman Analytik sociálních médií ve společnosti NEWTON Media, a. s.