Tìm kiếm (search)

Thứ Sáu, 17 tháng 8, 2018

DATA VISUALIZATION- PHÂN TÍCH DỮ LIỆU BẰNG HÌNH ẢNH_GGPLOT2-HISTOGRAM

Bài này giới thiệu với các bạn về Histogram với ggplot2 và phần mềm R

1. Tải dữ liệu tại đây:  https://www.kaggle.com/fossouodonald/titaniccsv

2. Một sô câu hỏi
- Độ tuổi của hành khách phân bố ra sao?
- Độ tuổi Nam Nữ  phân bố như thế nào?
- Tỉ lệ sống sót theo độ tuổi ra sao?
- Tỉ lệ sống sót theo độ tuổi giữa các hạng vé như thế nào ( Hạng 1, Hạng 2, Hạng 3)
- Tỉ lệ sống sót theo độ tuổi và giữa nam nữ như thế nào.

3. Clip bài giới thiệu



4. Một số hình ảnh từ Clip








5. Danh sách câu lệnh

t = file.choose() ## File: titanic3.csv
da=read.csv(t,header=T)
attach(da)
View(da)
------
require(ggplot2)
ggplot(da,aes(x=age)) + theme_bw() + geom_histogram(fill="blue", binwidth = 5) + labs(title ="Passenger Age Distribution")
-------
ggplot(da,aes(x=age,fill=sex)) + theme_bw() + geom_histogram(binwidth = 5) + labs(title ="Passenger Age Distribution by Gender")
-------
da$survived =as.factor(da$survived)
ggplot(da,aes(x=age,fill=survived)) + theme_bw() + geom_histogram(binwidth = 5) + labs(title ="Passenger survived by Age")
-------
da$pclass = as.factor(da$pclass)
ggplot(da,aes(x=age,fill=survived)) + theme_bw() + facet_wrap( ~ pclass) + geom_histogram(binwidth = 5) + labs(title ="Passenger survived by Age and ticket class")
-------
ggplot(da,aes(x=age,fill=survived)) + theme_bw() + facet_wrap( ~ sex) + geom_histogram(binwidth = 5) + labs(title ="Passenger survived by Age and gender")

<Viet Nguyen-ngvietlg@gmail.com>

Không có nhận xét nào:

Đăng nhận xét