-
Notifications
You must be signed in to change notification settings - Fork 0
/
Cap03-02-Big-Data-na-Pratica1.R
112 lines (84 loc) · 3.46 KB
/
Cap03-02-Big-Data-na-Pratica1.R
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
# Big Data na Prática 1 - Analisando a Temperatura Média nas Cidades Brasileiras
# Obs: Caso tenha problemas com a acentuação, consulte este link:
# https://support.rstudio.com/hc/en-us/articles/200532197-Character-Encoding
# Configurando o diretório de trabalho
# Coloque entre aspas o diretório de trabalho que você está usando no seu computador
# Não use diretórios com espaço no nome
setwd("C:/FCD/BigDataRAzure/Cap03")
getwd()
# Dataset:
# Berkeley Earth
# http://berkeleyearth.org/data
# TemperaturasGlobais.csv ~ 78 MB (zip) ~ 496 MB (unzip)
# Façs o download do arquivo zip no link abaixo e descompacte na mesma pasta onde está este script.
# https://drive.google.com/open?id=1nSwP3Y0V7gncbnG_DccNhrTRxmUNqMqa
# Instalando e Carregando Pacotes
# Obs: os pacotes precisam ser instalados apenas uma vez. Se já instalou em outros scripts, não é necessário instalar novamente!
install.packages("readr")
install.packages("data.table")
install.packages("dplyr")
install.packages("ggplot2")
library(readr)
library(dplyr)
library(ggplot2)
library(scales)
library(data.table)
# Carregando os dados (Usando um timer para comparar o tempo de carregamento com diferentes funções)
# Usando read.csv2()
system.time(df_teste1 <- read.csv2("TemperaturasGlobais/TemperaturasGlobais.csv"))
# Usando read.table()
system.time(df_teste2 <- read.table("TemperaturasGlobais/TemperaturasGlobais.csv"))
# Usando fread()
?fread
system.time(df <- fread("TemperaturasGlobais/TemperaturasGlobais.csv"))
# Criando subsets dos dados carregados
cidadesBrasil <- subset(df, Country == 'Brazil')
cidadesBrasil <- na.omit(cidadesBrasil)
head(cidadesBrasil)
nrow(df)
nrow(cidadesBrasil)
dim(cidadesBrasil)
# Preparação e Organização
# Convertendo as Datas
cidadesBrasil$dt <- as.POSIXct(cidadesBrasil$dt,format='%Y-%m-%d')
cidadesBrasil$Month <- month(cidadesBrasil$dt)
cidadesBrasil$Year <- year(cidadesBrasil$dt)
# Carregando os subsets
# Palmas
plm <- subset(cidadesBrasil, City == 'Palmas')
plm <- subset(plm, Year %in% c(1796,1846,1896,1946,1996,2012))
# Curitiba
crt <- subset(cidadesBrasil, City == 'Curitiba')
crt <- subset(crt, Year %in% c(1796,1846,1896,1946,1996,2012))
# Recife
recf <- subset(cidadesBrasil, City=='Recife')
recf <- subset(recf,Year %in% c(1796,1846,1896,1946,1996,2012))
# Construindo os Plots
p_plm <- ggplot(plm, aes(x = (Month), y = AverageTemperature, color = as.factor(Year))) +
geom_smooth(se = FALSE,fill = NA, size = 2) +
theme_light(base_size = 20) +
xlab("Mês")+
ylab("Temperatura Média") +
scale_color_discrete("") +
ggtitle("Temperatura Média ao longo dos anos em Palmas") +
theme(plot.title = element_text(size = 18))
p_crt <- ggplot(crt, aes(x = (Month), y = AverageTemperature, color = as.factor(Year))) +
geom_smooth(se = FALSE,fill = NA, size = 2) +
theme_light(base_size = 20) +
xlab("Mês")+
ylab("Temperatura") +
scale_color_discrete("") +
ggtitle("Temperatura Média ao longo dos anos em Curitiba") +
theme(plot.title = element_text(size = 18))
p_recf <- ggplot(recf, aes(x = (Month), y = AverageTemperature, color = as.factor(Year))) +
geom_smooth(se = FALSE,fill = NA, size = 2) +
theme_light(base_size = 20) +
xlab("Mês")+
ylab("Temperatura Média") +
scale_color_discrete("") +
ggtitle("Temperatura Média ao longo dos anos em Recife") +
theme(plot.title = element_text(size = 18))
# Plotando
p_plm
p_crt
p_recf