Trabajo elaborado para la asignatura “Programación y manejo de datos en la era del Big Data” de la Universitat de València durante el curso 2020-2021. El repo del trabajo está aquí. La página web de la asignatura y los trabajos de mis compañeros pueden verse aquí.


1. Introducción

Este trabajo consiste en un análisis de los distintos torneos de tenis que existen, así como de los tenistas que participan en los campeonatos. El objetivo fundamental del trabajo, además de demostrar lo aprendido en la asignatura de Programación y manejo de datos en la era del Big Data es, profundizar un poco en la historia de este deporte.
Figura 1

Figura 1

2. Datos

Los datos los he obtenido de la ruta que se muestra en el siguiente chunk. Al tener tantos datos he tenido que ir haciendo modificacines a los datos originales y realizar el análisis diviendo estos en segmentos.
datos_tenis <- read_excel("./Datos/datos_tenis.xlsx")

2.1. Procesando los datos

Para poder usar los datos: Primero, he separado la columna de Date en tres: Año, mes y día y después he eliminado las columnas: Serie, Court y Best of. De esta forma he conseguido unos datos limpios y fáciles de manipular.
datos_tenis1 <- datos_tenis %>% separate(col = Date, 
              into = c("Año", "Mes", "Dia"),
              sep  = "-")
datos_tenis2 <- datos_tenis1 %>% select(-Series, -Court, -`Best of`)

3. Cuestiones

3.1 ¿Cuántos campeonatos de tenis existen?.

Con el siguiente código agrupamos los diferentes torneos y averiguamos que se juegan en todo el mundo 206 torneos distintos.

tabla1 <- datos_tenis2 %>% group_by(Tournament) %>% count() %>% arrange(desc(n))
Figura 2

Figura 2

La sigiente tabla muestra los torneos que existen por nombre y número de veces que se han jugado.

3.2 Análisis del torneo Wimbledon.

Es el más prestigioso y antiguo del mundo. Lo organiza el All England Lawn Tennis and Croquet Club y se lleva a cabo en junio/julio en Wimbledon, Londres, desde el año 1877. Se juegan torneos simultáneos de individuales masculinos y femeninos, dobles masculinos y femeninos, y dobles mixtos e incluso se hacen torneos juveniles individuales masculinos y femeninos y en dobles. Los campeones en el año 2016 en la categoría de individuales fueron Andy Murray y Serena Williams.
Figura 3

Figura 3

FEDERER

El tenista que más torneos Wimbledon ha ganado es Federer. Roger Federer es un tenista suizo. Vencedor de 20 títulos individuales en torneos de Grand Slam, el mayor número de toda la historia en tenis masculino junto a Rafael Nadal y ha mantenido el puesto número 1 en el ranking de la ATP por un tiempo récord de 310 semanas, 237 consecutivas. Actualmente ocupa el quinto lugar en la clasificación ATP.
Ha logrado ocho títulos del Campeonato de Wimbledon, seis del Abierto de Australia y cinco del Abierto de Estados Unidos, así como un título del Torneo de Roland Garros. Es uno de los ocho tenistas que ha logrado vencer en los cuatro torneos del Grand Slam. También ostenta el mejor registro en el número de finales de Grand Slam jugadas: 31, diez de estas consecutivas, entre la final de Wimbledon 2005 y el Abierto de Estados Unidos 2007. Así mismo, ha logrado un registro imbatido de seis ATP World Tour Finals, 28 Masters 1000, récord de 24 títulos ATP World Tour 500 y 25 ATP World Tour 250.
tablawimbledon2 <- tablawimbledon1 %>%group_by(Winner) %>% summarise(n=n()) %>% na.omit(datos) %>% slice_max(n,n =1)
Winner n
Federer R. 82
Figura 4

Figura 4

Los 10 tenistas que más torneos han ganado:

En el siguiente gráfico se pueden observar los 10 tenistas que más torneos Wimbledon han ganado. Se puede observar como Federer va en cabeza con un poco de ventaja, le siguen Murray y Djokovic.

3.3 Análisis torneo Australian Open.

Tiene lugar cada mes de enero en Melbourne, Australia, en el complejo deportivo situado en Melbourne Park y es famoso por las elevadas temperaturas en las que se juega. La competición se divide en categorías, existiendo categorías individuales y de dobles tanto para hombres como para mujeres, así como mixtos dobles y en estos últimos años, se han incluido también competiciones para jugadores en silla de ruedas. En el año 2017 el campeón de la categoría masculina fue Roger Federer venciendo en la final al mallorquín Rafa Nadal. En la categoría femenina la ganadora fue la conocida tenista estado unidense Serena Williams que curiosamente jugó la final contra su hermana Venus Williams.
Figura 5

Figura 5

Winners

A continuación se pueden observar los nombres de los ganadores del torneo Australian Open según el número de victorias.

De forma más visual se pueden observar los ganadores del torneo relacionando el número de victorias con el tamaño de la letra.

Torneos completados Vs Torneos retirados

En la tabla siguiente se puede observar como de los 2159 torneos que se han jugado tan solo en 89 ocasiones un jugador se ha retirado.

tablaAustralianOpen2 <- tablaAustralianOpen %>% group_by(Tournament, Comment)%>% count()
Tournament Comment n
Australian Open Completed 2067
Australian Open Retired 89
Australian Open Walkover 3

3.4 Análisis torneo US Open.

El torneo US Open se celebra anualmente entre agosto y septiembre en el USTA Billie Jean King National Tennis Center de Nueva York y consta de cinco modalidades: individuales de hombres y mujeres, dobles de hombres y mujeres y dobles mixtos, y también torneos adicionales para jugadores Junior y Senior. El torneo reparte casi veinticuatro millones de dólares en premios.

FELICIANO LÓPEZ

Con el siguiente chunk podemos ver que el tenista que más torneos US Open ha perido es:

tablaUSOpen2 <- tablaUSOpen1 %>%group_by(Loser) %>% summarise(n=n()) %>% na.omit(datos) %>% slice_max(n,n =1)
Loser n
Lopez F. 15
La derrota de Feliciano López ante Gilles Simon por 6-4 y 6-3 en su debut en el Torneo de Viena ha hecho que el toledano se convierta en el tenista con más derrotas sufridas en el circuito ATP junto al francés Fabrice Santoro. A sus 38 años y tras 22 temporadas como profesional (debutó en 1997), Feliciano es uno de los jugadores más veteranos del circuito junto con Roger Federer. Esto no quiere decir que Feliciano sea uno de los peores tenistas del circuito, sino que los números se deben a su longevidad en el mismo. Feliciano López ha disputado un total de 929 partidos con 485 victorias y 444 derrotas, con un porcentaje de triunfos del 52,3%
Figura 6

Figura 6

WINNERS Vs LOSERS

Con el siguiente chunk podemos observar las diferencias entre los 10 jugadores que más veces han ganado el US Open y los 10 jugadores que más tonreos han perdido

tablaWRank <- tablaUSOpen1 %>%group_by(Winner) %>% summarise(Ranking=n()) %>% na.omit(datos) %>% slice_max(Ranking,n =10)

graficoWRank <- tablaWRank %>% mutate(Winner = forcats::as_factor(Winner))
graficoWRank1.1 <- ggplot (graficoWRank,aes(x=Winner, y = Ranking), aes(fct_rev(Winner))) + geom_bar(stat="identity", fill = "green") + coord_flip()
graficoWRank1.1 + labs(title = "Gráfico de los 10 jugadores que más veces han ganado el US Open",
       caption = "Datos provenientes del datos_tenis2",
       x = "Winner",
       y = "n",
       color = "Especie de lirio")

tablaWRank2 <- tablaUSOpen1 %>%group_by(Loser) %>% summarise(Ranking=n()) %>% na.omit(datos) %>% slice_max(Ranking,n =10)

graficoWRank2 <- tablaWRank2 %>% mutate(Loser = forcats::as_factor(Loser))
graficoWRank1.2 <- ggplot (graficoWRank2,aes(x=Loser, y = Ranking), aes(fct_rev(Loser))) + geom_bar(stat="identity", fill = "green") + coord_flip()
graficoWRank1.1 + labs(title = "Gráfico de los 10 jugadores que más veces han perdido el US Open",
       caption = "Datos provenientes del datos_tenis2",
       x = "Loser",
       y = "n",
       color = "Especie de lirio")
Dos gra´ficos R cara a caraDos gra´ficos R cara a cara

Dos gra´ficos R cara a cara

4. Las 10 ciudades en las que se juegan más torneos

En este gráfico se pueden observar las 10 ciudades en las que más torneos se juegan.

Este mapa nos muestra de forma más visual las 10 ciudades mencionadas anteriormente.


par(mar=c(0,0,0,0))
map('world',
    col="#f2f2f2", fill=TRUE, bg="white", lwd=0.05,
    mar=rep(0,4),border=0, ylim=c(-80,80)
)

London <- c(-0.12,51)
Paris <- c(2,49)
Melbourne <- c(145,-38)
New_York <- c(-73,40)
Miami <- c(-80,25)
Indian_Wells <- c(-116,33)
Cincinnati <- c(-84,39)
Monte_Carlo <- c(7,43)
Rome <- c(12,41)
Barcelona <- c(2,41)


data <- rbind(London, Paris, Melbourne, New_York, Miami, Indian_Wells, Cincinnati, Monte_Carlo, Rome, Barcelona) %>% 
  as.data.frame()
colnames(data) <- c("long","lat")

map('world',
    col="#f2f2f2", fill=TRUE, bg="white", lwd=0.05,
    mar=rep(0,4),border=0, ylim=c(-80,80) 
)
points(x=data$long, y=data$lat, col="slateblue", cex=3, pch=20)

5. Conclusiones

En conclusión, existen un gran número de torneos de tenis dividos en distintas categorías. Los puestos ganadores de los grandes torneos suelen estas disputados siempre por los mismos tenistas. Después de este análisis podemos ver como llegar a alcanzar el historial de Federer, Djokovic y Nadal está muy dificil hoy en día. También hemos visto como importa mucho la longevidad que se tiene en este deporte ya que el porcentaje de victorias y derrotas puede variar. Por otro lado, en el apartado del gráfico del mapa del mundo se puede observar como la mayoría de las ciudades en las que más torneos de tenis se juegan son ciudades Europeas.

6. Bibliografía

Apuntes de la asignatura de Programación y Manejo de datos en la era del Big Data: https://perezp44.github.io/intro-ds-20-21-web/04-tutoriales.html

Información sobre distintos torneos: http://www.tenispontdincanou.com/blog/torneos/principales-campeonatos-y-torneos-del-tenis

Información sobre Feliciano Lopez: https://as.com/tenis/2019/10/23/mas_tenis/1571813516_380403.html

Página de referencia para los gráficos: https://www.r-graph-gallery.com/196-the-wordcloud2-library.html

Excel con los datos: https://www.kaggle.com/edouardthomas/beat-the-bookmakers-with-machine-learning-tennis

7. Sesión Informativa

    sessioninfo::session_info() %>% details::details(summary = 'current session info')

current session info


- Session info ---------------------------------------------------------------
 setting  value                       
 version  R version 4.0.2 (2020-06-22)
 os       Windows 10 x64              
 system   x86_64, mingw32             
 ui       RTerm                       
 language (EN)                        
 collate  Spanish_Spain.1252          
 ctype    Spanish_Spain.1252          
 tz       Europe/Paris                
 date     2021-01-16                  

- Packages -------------------------------------------------------------------
 package       * version    date       lib source                        
 assertthat      0.2.1      2019-03-21 [1] CRAN (R 4.0.2)                
 backports       1.2.0      2020-11-02 [1] CRAN (R 4.0.3)                
 blob            1.2.1      2020-01-20 [1] CRAN (R 4.0.2)                
 broom           0.7.0      2020-07-09 [1] CRAN (R 4.0.2)                
 cellranger      1.1.0      2016-07-27 [1] CRAN (R 4.0.2)                
 cli             2.2.0      2020-11-20 [1] CRAN (R 4.0.2)                
 clipr           0.7.1      2020-10-08 [1] CRAN (R 4.0.3)                
 colorspace      2.0-0      2020-11-11 [1] CRAN (R 4.0.3)                
 crayon          1.3.4      2017-09-16 [1] CRAN (R 4.0.2)                
 crosstalk       1.1.0.1    2020-03-13 [1] CRAN (R 4.0.2)                
 data.table      1.13.0     2020-07-24 [1] CRAN (R 4.0.2)                
 DBI             1.1.0      2019-12-15 [1] CRAN (R 4.0.2)                
 dbplyr          1.4.4      2020-05-27 [1] CRAN (R 4.0.2)                
 desc            1.2.0      2018-05-01 [1] CRAN (R 4.0.2)                
 details         0.2.1      2020-01-12 [1] CRAN (R 4.0.3)                
 digest          0.6.27     2020-10-24 [1] CRAN (R 4.0.3)                
 dplyr         * 1.0.2      2020-08-18 [1] CRAN (R 4.0.2)                
 ellipsis        0.3.1      2020-05-15 [1] CRAN (R 4.0.2)                
 evaluate        0.14       2019-05-28 [1] CRAN (R 4.0.2)                
 fansi           0.4.1      2020-01-08 [1] CRAN (R 4.0.2)                
 farver          2.0.3      2020-01-16 [1] CRAN (R 4.0.2)                
 fastmap         1.0.1      2019-10-08 [1] CRAN (R 4.0.2)                
 forcats       * 0.5.0      2020-03-01 [1] CRAN (R 4.0.2)                
 formatR         1.7        2019-06-11 [1] CRAN (R 4.0.3)                
 fs              1.5.0      2020-07-31 [1] CRAN (R 4.0.3)                
 gapminder     * 0.3.0      2017-10-31 [1] CRAN (R 4.0.3)                
 generics        0.1.0      2020-10-31 [1] CRAN (R 4.0.3)                
 gganimate     * 1.0.7      2020-10-15 [1] CRAN (R 4.0.3)                
 ggplot2       * 3.3.2      2020-06-19 [1] CRAN (R 4.0.2)                
 ggThemeAssist * 0.1.5      2016-08-13 [1] CRAN (R 4.0.3)                
 gifski          0.8.6      2018-09-28 [1] CRAN (R 4.0.3)                
 glue            1.4.2      2020-08-27 [1] CRAN (R 4.0.2)                
 gt            * 0.2.2      2020-11-20 [1] Github (rstudio/gt@416ca71)   
 gtable          0.3.0      2019-03-25 [1] CRAN (R 4.0.2)                
 haven           2.3.1      2020-06-01 [1] CRAN (R 4.0.2)                
 here            1.0.0      2020-11-15 [1] CRAN (R 4.0.3)                
 highr           0.8        2019-03-20 [1] CRAN (R 4.0.2)                
 hms             0.5.3      2020-01-08 [1] CRAN (R 4.0.2)                
 htmltools       0.5.0      2020-06-16 [1] CRAN (R 4.0.2)                
 htmlwidgets     1.5.2      2020-10-03 [1] CRAN (R 4.0.3)                
 httpuv          1.5.4      2020-06-06 [1] CRAN (R 4.0.2)                
 httr            1.4.2      2020-07-20 [1] CRAN (R 4.0.2)                
 jsonlite        1.7.2      2020-12-09 [1] CRAN (R 4.0.3)                
 klippy        * 0.0.0.9500 2020-11-14 [1] Github (rlesur/klippy@378c247)
 knitr         * 1.30       2020-09-22 [1] CRAN (R 4.0.3)                
 labeling        0.4.2      2020-10-20 [1] CRAN (R 4.0.3)                
 later           1.1.0.1    2020-06-05 [1] CRAN (R 4.0.2)                
 lazyeval        0.2.2      2019-03-15 [1] CRAN (R 4.0.2)                
 lifecycle       0.2.0      2020-03-06 [1] CRAN (R 4.0.2)                
 lubridate       1.7.9.2    2020-11-13 [1] CRAN (R 4.0.3)                
 magrittr        2.0.1      2020-11-17 [1] CRAN (R 4.0.3)                
 maps          * 3.3.0      2018-04-03 [1] CRAN (R 4.0.3)                
 mime            0.9        2020-02-04 [1] CRAN (R 4.0.0)                
 miniUI          0.1.1.1    2018-05-18 [1] CRAN (R 4.0.3)                
 modelr          0.1.8      2020-05-19 [1] CRAN (R 4.0.2)                
 munsell         0.5.0      2018-06-12 [1] CRAN (R 4.0.2)                
 pillar          1.4.7      2020-11-20 [1] CRAN (R 4.0.2)                
 pkgconfig       2.0.3      2019-09-22 [1] CRAN (R 4.0.2)                
 plotly        * 4.9.2.1    2020-04-04 [1] CRAN (R 4.0.3)                
 png             0.1-7      2013-12-03 [1] CRAN (R 4.0.0)                
 prettyunits     1.1.1      2020-01-24 [1] CRAN (R 4.0.2)                
 progress        1.2.2      2019-05-16 [1] CRAN (R 4.0.2)                
 promises        1.1.1      2020-06-09 [1] CRAN (R 4.0.2)                
 purrr         * 0.3.4      2020-04-17 [1] CRAN (R 4.0.2)                
 R6              2.5.0      2020-10-28 [1] CRAN (R 4.0.3)                
 Rcpp            1.0.5      2020-07-06 [1] CRAN (R 4.0.2)                
 reactable     * 0.2.3      2020-10-04 [1] CRAN (R 4.0.3)                
 reactR          0.4.3      2020-07-12 [1] CRAN (R 4.0.3)                
 readr         * 1.4.0      2020-10-05 [1] CRAN (R 4.0.3)                
 readxl        * 1.3.1      2019-03-13 [1] CRAN (R 4.0.2)                
 reprex          0.3.0      2019-05-16 [1] CRAN (R 4.0.2)                
 rlang           0.4.9      2020-11-26 [1] CRAN (R 4.0.3)                
 rmarkdown       2.5        2020-10-21 [1] CRAN (R 4.0.3)                
 rprojroot       2.0.2      2020-11-15 [1] CRAN (R 4.0.3)                
 rstudioapi      0.13       2020-11-12 [1] CRAN (R 4.0.3)                
 rvest           0.3.6      2020-07-25 [1] CRAN (R 4.0.2)                
 scales        * 1.1.1      2020-05-11 [1] CRAN (R 4.0.3)                
 sessioninfo     1.1.1      2018-11-05 [1] CRAN (R 4.0.2)                
 shiny           1.5.0      2020-06-23 [1] CRAN (R 4.0.2)                
 stringi         1.5.3      2020-09-09 [1] CRAN (R 4.0.2)                
 stringr       * 1.4.0      2019-02-10 [1] CRAN (R 4.0.2)                
 tibble        * 3.0.4      2020-10-12 [1] CRAN (R 4.0.3)                
 tidyr         * 1.1.2      2020-08-27 [1] CRAN (R 4.0.2)                
 tidyselect      1.1.0      2020-05-11 [1] CRAN (R 4.0.2)                
 tidyverse     * 1.3.0      2019-11-21 [1] CRAN (R 4.0.3)                
 tweenr          1.0.1      2018-12-14 [1] CRAN (R 4.0.2)                
 vctrs           0.3.5      2020-11-17 [1] CRAN (R 4.0.3)                
 viridisLite     0.3.0      2018-02-01 [1] CRAN (R 4.0.2)                
 withr           2.3.0      2020-09-22 [1] CRAN (R 4.0.3)                
 wordcloud2    * 0.2.1      2018-01-03 [1] CRAN (R 4.0.3)                
 xfun            0.19       2020-10-30 [1] CRAN (R 4.0.3)                
 xml2            1.3.2      2020-04-23 [1] CRAN (R 4.0.2)                
 xtable          1.8-4      2019-04-21 [1] CRAN (R 4.0.2)                
 yaml            2.2.1      2020-02-01 [1] CRAN (R 4.0.2)                

[1] C:/Users/noeli/OneDrive/Documentos/R/win-library/4.0
[2] C:/Program Files/R/R-4.0.2/library


