1. Tải dữ liệu tại đây: https://www.kaggle.com/fossouodonald/titaniccsv
2. Một sô câu hỏi
- Độ tuổi của hành khách phân bố ra sao?
- Độ tuổi Nam Nữ phân bố như thế nào?
- Tỉ lệ sống sót theo độ tuổi ra sao?
- Tỉ lệ sống sót theo độ tuổi giữa các hạng vé như thế nào ( Hạng 1, Hạng 2, Hạng 3)
- Tỉ lệ sống sót theo độ tuổi và giữa nam nữ như thế nào.
3. Clip bài giới thiệu
4. Một số hình ảnh từ Clip
5. Danh sách câu lệnh
t = file.choose() ## File: titanic3.csv
da=read.csv(t,header=T)
attach(da)
View(da)
------
require(ggplot2)
ggplot(da,aes(x=age)) + theme_bw() + geom_histogram(fill="blue", binwidth = 5) + labs(title ="Passenger Age Distribution")
-------
ggplot(da,aes(x=age,fill=sex)) + theme_bw() + geom_histogram(binwidth = 5) + labs(title ="Passenger Age Distribution by Gender")
-------
da$survived =as.factor(da$survived)
ggplot(da,aes(x=age,fill=survived)) + theme_bw() + geom_histogram(binwidth = 5) + labs(title ="Passenger survived by Age")
-------
da$pclass = as.factor(da$pclass)
ggplot(da,aes(x=age,fill=survived)) + theme_bw() + facet_wrap( ~ pclass) + geom_histogram(binwidth = 5) + labs(title ="Passenger survived by Age and ticket class")
-------
ggplot(da,aes(x=age,fill=survived)) + theme_bw() + facet_wrap( ~ sex) + geom_histogram(binwidth = 5) + labs(title ="Passenger survived by Age and gender")
<Viet Nguyen-ngvietlg@gmail.com>
Không có nhận xét nào:
Đăng nhận xét