Elevenítsük fel röviden, hogy mi is a Billie Beane-től, mint első megvalósítótól eredeztetett Moneyball. A Moneyball olyan mintákat keres a játékosok teljesítményéről szóló adataiban, melyeket mások nem ismernek, és ezeket a mintákat kihasználva - a versenytársaknál informáltabbá válva - alulértékelt játékosok vásárlásával lehet a várhatónál jóval magasabb eredményt elérni. Ez pedig végső soron pozitív pénzügyi mérleghez vezet. Attől függően, hogy mekkora tétekben játszunk - liga alsó harmad vagy topcsapatok -, tudjuk hosszú távon az összes riválisunkat felülmúlni.
Mi az a Matiné?
Vasárnap délelőttönként egy-egy regényből mutatunk részletet, jobbára kortárstól, remek szövegeket, történeteket. Ha tetszik, az oldal alján ott a kötet szerzője, címe, kiadója, irány a könyvesbolt vagy a könyvtár.
A Matiné eddigi termését itt találni.
A Moneyballnál az alapanyag tehát az adat, ebben kell mintákat keresni. Az ezt leíró tudományág pedig nem más, mint a statisztika és a valószínűségszámítás. Furcsa belegondolni, de a matematika két legújabb ágáról van szó, alig több, mint 100 évesek. A könyv olvasóinak egy része talán nem is tanult róla a középiskolában sem, hiszen annyira marginálisnak tűnt akár csak néhány évtizede is a kézzel fogható alkalmazhatóságuk. Érdekes diszcíplínákról van szó, hisz az elmélet és az algoritmusok feltalálása sok-sok évvel megelőzte például annak megvalósítását, hogy előrejelezzük, milyen idő lesz holnap.
Ennek a késésnek a legfőbb oka két dologban keresendő. Az egyik maga az alapanyag: az adat előállítása nehéz és munkaigényes. Gondoljunk csak bele, milyen kihívás volt száz éve megszámolni egy ország népességét. Az USA-ban a múlt évszázad elején olyan szintű volt a népességnövekedés, hogy mire végeztek a lakosság megszámlálásával - ez nagyjából nyolc évbe telt -, a statisztikában már csak a népesség fele szerepelt a halálozások, születések, illetve a bevándorlás miatt. Lényegében ekkor jelent meg a statisztika első gyakorlati alkalmazása: a mintavételezés.
A klasszikus statisztika arra épül, hogy kevés az üzemanyag, vagyis az adat. A fentiekből kiindulva ez sokáig nagyon is reális elméleti feltétel volt. Hogy ezt a problémát meg tudjuk oldani, szükséges a valószínűségszámítás. Ezzel ugyanis olyan alapokat tudunk definiálni, ami számtanilag képes megfogni a bizonytalanságot. Példának vegyük ismét a 20. század elején lebonyolított amerikai népszámlálást. Vajon tényleg mindenkit meg kell egyesével számolnunk, vagy elég mondjuk, a városi háztartások ötödét és a farmerek felét, amit aztán valahogyan területi alapon felszorzunk? A válasz az, hogy pontos népességszámhoz ez persze nem jó, de pontos népességszámot egyébként se kaphattunk volna abban a korban. Viszont a valószínűségelmélet szerint, ha jól választjuk meg a megszámolandó népesség mintát, ez a pontosságtól való eltérés - vagyis statisztikai hiba - nagyon is kényelmes határon belül tartható. Mondjuk, ha megszámoljuk a fent említett arányokat, akkor abból végül maximum 2,5%-ot tévedünk a végső számot tekintve. Ez az eloszlások viselkedéséből, valószínűségi változók összeadására vonatkozó tételekből stb. adódik, mely természetesen nem témája ennek a könyvnek.
A klasszikus statisztika persze napjainkban is meghatározó. Például választások előtt pár ezer megkérdezett alapján elég jól lehet előre jelezni a végső eredményt, vagy éppen járvány idején elég tízezer magyart letesztelni, hogy abból az egész országra való képet kapjunk. A kulcs persze ezeknél az elemzéseknél mindig az, hogy jó, azaz eléggé reprezentatív mintát vegyünk.
Klasszikus Moneyball
Hogyan is jelenik meg a futballban, azon belül is a Moneyballban a klasszikus statisztika? Menjünk egy kicsit vissza a hőskorba: a Bootroomból, vagyis a Bill Shankly által megalapozott liverpooli stábból valaki megfigyelte Kenny Dalglisht, mikor még a Celticben játszott. Ezt az értékelést figyelembe véve pedig Paisley úgy döntött, hogy leigazolja őt Kevin Keegan pótlására. A történet folytatása persze ismert. Mi volt itt a statisztika?
Mikor 90 percig egy adott játékost figyelünk, akkor lényegében nem történik más, mint adatot gyűjtünk. Nem számoljuk papíron - valószínűleg -, de kialakul az emberben egy benyomás a passzok hosszáról, számáról, kiugratásokról, sprintekről, lövési pontosságról stb. Ez persze egy pontatlan adat, de lényegében ez egy mintavételezés, melyet az agyunkban tárolunk.
Itt jön a képbe a klasszikus statisztika második nagy problémája, a számítási kapacitás. Talán nem túlzás azt állítani, hogy Paisley idején a leggyorsabb számítógép még az emberi agy volt. Vagyis, amikor egy játékosmegfigyelő összegyűjtötte fejben Dalglish adatait, arra rögtön rá is engedte a mintakereső illetve játékosértékelő algoritmusait. Persze, amikor arról beszélünk, hogy "ez a játékos jónak tűnik", vagy "az a benyomásom, hogy beválhat nálunk", akkor nem algoritmusokban beszélgetünk, de az agyunkban mégis ilyen számítási folyamatok mennek végbe. Ezeket persze ma sem értjük pontosan, de mikor neurális hálókról hallunk a data science területén, akkor ott nyugodtan gondolhatunk arra, hogy matematikai modellel próbáljuk meg utánozni az agyunkat.
A játékosmegfigyelők tapasztaltságának ezért igen fontos szerepe volt régen, hiszen akinek nem csak Dalglishról, de több ezer másik játékosról volt benyomása, illetve sok száz átigazolást látva formálódott az értékelő algoritmusa, sokkal jobb találati aránnyal tudott a klubok számára megfelelő játékosokat találni. Viszont a labdarúgást nagyon sok esetben az érzelmek dominálják, amelyek jelentősen befolyásolhatják ítélőképességünket. Azonban ha a megfelelő mennyiségű és minőségű adat áll rendelkezésünkre, akkor sokkal könnyebb az adott helyzetben meghozni a helyes döntést. (A gépi tanulás, vagyis "machine learning" algoritmusok ugyanígy működnek napjainkban, csak kevésbé humánusak.)
Az amerikai baseballban néhány évtizede elindult forradalmat az adatok elérhetősége tette lehetővé. Ekkor már nem az emberi memória és benyomások, hanem kockás füzet, nyomtatott adattáblák és statisztikai módszertanok alapozták meg a precízebb előrejelzést. Ez a lépés csökkenteni tudta a hibahatárt, és ez a kisebb tévedés vezetett a Moneyball sikeréhez. De hogy még közelebb kerüljünk a pénz világához: a tőzsdecápák működése is akkor alakult át, amikor az adathalmazra végre rá lehetett engedni a számítógépes modelleket, lecserélve az emberi információkat és megérzéseket. Hosszú távon az adatalapú elemzések pedig megverték a világ érzés alapú részét, mert jóval pontosabban működhettek az alacsonyabb statisztikai hibahatár tartásával.
Moneyball a Mersey partján
Ezt a tudományt hozta el tehát az FSG a Red Soxhoz, majd a Liverpoolhoz. Mindig jól mutatja egy-egy speciális tudományág hozzáadott értékét, hogy mely iparágak szívják fel szakértőit. Az adattudománynál (azaz data science) ez nem véletlenül a pénzügyi szektor és a sport, ahol napjainkban elképesztő mértékű, és óriási ütemben növekvő pénzösszegek forognak.
A futballban viszonylag későn kezdődött meg ezt a felszívás. Angliában a ProZone nevű cég nevezhető az úttörőnek, mely 1998-ban kezdte el adatbázis alapú, sporthoz kötődő működést. Jól mutatja a projekt garázs jellegét, hogy főleg részmunkaidős tanárok, professzorok dolgoztak itt kezdetben, és bár tanácsot adtak néhány klubnak, jellemzően inkább még csak kutatómunkát végeztek. Az egyik ilyen informatikus tanárt egyébként Michael Edwardsnak hívták. Ő kezdetben a Portsmouth-t segítette tanácsaival, amikor pedig Harry Redknappel új világ kezdődött a Tottenhamnél, már főállásban nekik dolgozott.
Damien Comolli szintén Redknapp alatt kezdett a Spursnél, ahol egyik legmegbízhatóbb elemzőjének mindig is Ian Graham fizikust nevezte. Az pedig már történelem, hogy innen aztán elhozta videóelemzőjét, Edwardsot a klubhoz, aki nemcsak végigjárta a klub szervezeti létráját, de minden bizonnyal az egyik legnagyobb szerepe neki volt a 2010-es évek végére beérett sikerekben. Ian Graham pedig ma már a Liverpool FC kutató csapatát vezeti, ahol hatan dolgoznak még rajta kívül, négy data scientist, ketten pedig az adattárház építéséért és fenntartásáért felelnek.
Ez az arány pedig jól mutatja, hogy ma már nem is annyira az alapanyag megszerzése a nehéz feladat - bár még mindig kincset ér az is, és gombamód nőnek az ezzel foglalkozó független cégek -, hanem az algoritmusok további kutatása és fejlesztése a még pontosabb előrejelzés érdekében.
A sikerben pedig további kulcsszereplő az új tudományra nyitott és hatását elismerő vezetőedző: Jürgen Klopp hetente beszél Grahammel, a taktikai stáb pedig folyamatosan támaszkodik az elemzői munkára.
Big data és data science
Ez a kutatócsoport ma már viszont rettentő messze áll attól a Moneyballtól, amit az azonos című filmből, illetve könyvből ismerhetünk. Ennek fő oka pedig egy másik kulcsszó, amit az elmúlt években milliószor hallhatott bármelyikünk: big data.
2020-ban, a könyv írásának évében egy elég váratlan és kellemetlen jelenség rázta meg a világot: a COVID-19 okozta pandémia. Emlékezzünk a klasszikus statisztikai példánkra: azon matematikai eszköztár segítségével elég akár tízezer magyar állampolgárt megvizsgálni, hogy egy szűk toleranciahatáron belül tudjuk megbecsülni a fertőzés mértékét hazánkban. A 21. század statisztikai modellezése viszont ettől már messzebb van. A víruspéldánál maradva: a Google 2009-ben dolgozta ki először azt a modelljét, mely valós időben tudta megjósolni az USA-ban, hogy a következő napokban hol terjed jobban az influenza. Az alapmanyag, vagyis az adat ebben az esetben már több milliárd, éveken át naponta gyűjtött keresőszó volt, és az azokhoz illesztett késleltetett területalapú megbetegedések. A koronavírus kapcsán pedig egy bizonyos BlueDot nevű cégről hallhattunk, amely repülési adatokból már évek óta valós időben jósolta az egész világra a betegségek terjedését. 2020 elején is már jól látták, hogy 1-2 hónapon belül mi vár Európára és az USA-ra a Kínából induló járvány tekintetében.
Ez legalább akkora lépés, mint a játékosmegfigyelők megérzései után az adattábla alapú számolás. Napjaink kihívása tehát nem az, hogy kevés az adat és ebben kellene valami jó mintát találnunk, hanem pont hogy irtózatosan sok az adat, és ebben még nehezebb mintát találni. Csak, hogy legyen egy érzésünk minderről: a klasszikus Moneyballnál meccsenkénti adatokból dolgoztunk volna - és tesszük ezt persze manapság is, hiszen azért ezek a módszertanok sokszor még mindig nagyon jók -, játékosonkénti bontásban, akár sok éven át. Ez gyakran sok száz változó, több ezer vagy akár tízezer adatpontra nézve. A klasszikus modellek ilyen adathalmazokon már nagyon jól működnek, csak a megfelelő algoritmusokat kell megtalálni. Többek közt például, hogy mi határozza meg a top 4 vagy top 6 helyezést a Premier League-ben.
Ezzel szemben a big data azt jelenti, hogy felteszünk Roberto Firminóra egy műszert, ami tizedmásodpercenként méri a szív értékeit, és rögzíti a mozgását 3 dimenzióban. Képzeljük el ezt minden játékosra, több idényen át. A néhány tízezer adatpont hirtelen milliós, sőt milliárdos nagyságrenddé válik. Ez a big data. Ennek a kezelése pedig már egy egészen más kihívás, mint a klasszikus problémák.
A modern Moneyball
A játékosok vásárlása az egyik legnagyobb pénzügyi kockázatú döntés, így persze a modern Moneyball is még mindig e köré épül. Azonban érdemes - a fenti példán is okulva - belegondolni abba, hogy a data science milyen sok más területen alkalmazható még ebben a sportágban. Például az edzésadatokból már előre láthatóak sérülések, egy-egy játékos optimális pozícionálása az ellenfél játékosainak mozgása és sebessége alapján, illetve bármilyen csapattaktika személyre szabása egyszerűen új értelmezési környezetbe kerül ebben a világban. Ha pedig arra gondolunk, mennyivel több adat áll rendelkezésünkre a klubnál lévő játékosok esetén, mint az új kiszemelteknél, akkor érthetjük, hogy miért győzi le sokszor az új igazolás kockázatát a játékostartás és a konzisztencia.
A modern statisztika kiteljesedése pedig a valós idejű elemzés: nemcsak, hogy milliárdos nagyságrendű adatot gyűjtünk, és dolgozunk fel az elemzői munka által, de mindezt gyakorlatilag valós időben. Ha edzés közben olyan mintát találunk egy játékos 3D pozícióján, ami nem tökéletes az ellenfél félterület játéka ellen, akkor azonnal, az edzés közepén finomhangolhatjuk azt. Ha az ellenfél jobbösszekötő passzsávjai a korábban gondolttól kicsit eltérnek, akkor a félidőben erre már új taktikai utasítást lehet adni a bal oldali játékosoknak.
Ez a kihívás pedig számítási kapacitásban ma már leküzdhető - ez néhány éve még nem volt így -, másrészt Ian Graham csapata nem véletlenül áll elméleti fizikusokból és sakkbajnokokból: a data science algoritmusok ilyen komplex kutatása és alkalmazása egy nagyon magas szintű tudományos munka. Sokszor hallhatjuk még a machine learning szót: az egy dolog, hogy algoritmusok maguktól tanulnak, de ezeket az öntanuló algoritmusokat is ki kell fejleszteni, folyamatosan finomhangolni és nagyon precízen beállítani, hogy jól is működjenek a valóságban. Napjainkban a futball világában a Liverpool ebben a tudományban vezető szerepet játszik, és ez nem véletlenül korrelál erősen a sikerrel.
Nem túlzás azt állítani, hogy az adat az új olaj. Ennek alkalmazása pedig egyre több és több szektorban a kulcs ahhoz, hogy a versenytársak elé kerüljünk. A futballban sincs ez másképp, sőt, a Premier League-ben gyakorlatilag már minden klub foglalkozik ezzel valamilyen szinten. A Liverpoolt nevezhetjük az egyik úttörőnek, és ebben hatalmas szerepe volt annak, hogy az FSG 2010-ben megvásárolta a klubot.
Vörös fonat: Merseyball
Szerzői kiadás, 2020