Twitter | Search | |
EstatSite
Uma thread meio inútil, mas divertida Estava brincando com base do hj. As variaveis Reaction, Composure, Potential e Special sao as com maior correl com Overall, aparentemente sao as que importam (imagem a esq.). Peso tem correl negativa com quase tudo (imagem a dir.)
Reply Retweet Like More
EstatSite Jun 27
Replying to @EstatSite
Aqui, temos times mais fortes com base na media do Overall dos jogadores (imagem a esq.). E os times mais caros, com base na soma das release clause (imagem a dir.). Chelsea, Atlético Madrid e Tottenham são caros e nao fazem por merecer.
Reply Retweet Like
EstatSite Jun 27
Replying to @EstatSite
Considerando só os países com mais de 250 jogadores, a lista dos que possuem maior media de Overall surpreende com Portugal no topo e Turquia na 10a posição (imagem a esq.). Inglaterra está só em 20o, mas é uma das q possuem maior desvio padrão, fica em 3o, Turquia fica em 12o.
Reply Retweet Like
EstatSite Jun 27
Replying to @EstatSite
Talvez alguns jogadores da Inglaterra puxem a média pra baixo. Então resolvi plotar a distribuição do Overall deles (imagem 1 e 2) e os quartis (imagem 3). Então parece que a Inglaterra tem alguns jogadores mais fortes, mas muitos fracos nos primeiros quartis.
Reply Retweet Like
EstatSite Jun 27
Replying to @EstatSite
Depois vou postar um código legalzinho, organizado no blog, tive q mexer em bastante coisa da base, então acho q vai ser útil. Mas segue uma parte que achei interessante, algumas coisas úteis q eu desconhecia do Python (alerta para código zoneado abaixo!!!).
Reply Retweet Like
EstatSite Jun 27
Replying to @EstatSite
# Filtra somente variaveis numericas no dataframe numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64'] df_numeric = _dtypes(include=numerics) df_numeric = df_numeric.drop(['ID'], axis=1) list(df_numeric.columns.values)
Reply Retweet Like
EstatSite Jun 27
Replying to @EstatSite
# Correlacao entre Overall e demais variaveis corr = df_numeric[list(df_numeric.columns.values)].corrwith(df_numeric['Overall']) # Ordena so maior q 0.25 ou menor q 0.25 corr[abs(corr) > 0.25].sort_values(kind="quicksort")
Reply Retweet Like
EstatSite Jun 27
Replying to @EstatSite
# Paises com maior media Overall (incluindo soh quem tem mais de 250 jogadores) df[df.groupby('Nationality')['Overall'].transform('size') > 250].groupby(['Nationality'])['Overall'].mean().nlargest(10)
Reply Retweet Like
EstatSite Jun 27
Replying to @EstatSite
# Plota histograma filtrando nacionalidade %matplotlib notebook import matplotlib.pyplot as plt plt.figure() plt.title("Histograma Turquia") df[df.Nationality=='Turkey'].Overall.hist(bins=20) plt.savefig("histTurkey.png") ()
Reply Retweet Like
EstatSite Jun 27
Replying to @EstatSite
filtrando a nacionalidade desejada print(df[df.Nationality=='England'].Overall.quantile([.1, .25, .5, .75, .99]))
Reply Retweet Like
EstatSite Jun 27
Replying to @EstatSite
sorry for the long post here's a potato
Reply Retweet Like