Xử lý dữ liệu lớn
Kết hợp TF Records + Apache Beam để xử lý hàng tỉ điểm dữ liệu.

Kỹ năng xử lý dữ liệu lớn là một trong những kỹ năng rất quan trọng của một người kỹ sư AI. Từ TF 04 chúng tôi sẽ tập trung vào hoàn thiện kỹ năng này cho học viên. 

Phân tích cảm xúc khách hàng

Tải 230 triệu phản hồi khách hàng chưa đầy 100ms

Tốc độ tải dữ liệu

61ms

Xem trên Colab

Bộ dữ liệu hình ảnh COCO

1

Bộ dữ liệu COCO nặng hơn 815 MB bao gồm 36781 ảnh và 91 nhãn khác nhau.

Sử dụng TPU + TF Records, team đóng gói bộ dữ liệu thành 8 Tensorflow Records (TFRecords)

Tốc độ tải dữ liệu ấn tượng với TF Records

50ms

Xem trên Colab

Bộ dữ liệu giọng nói Tiếng Việt

2

Bộ dữ liệu 11GB VLSP Voice với 100 giờ giọng nói với hơn 112 000 tệp giọng nói chú thích 

Sử dụng GPU + TF Records, team đóng gói bộ dữ liệu thành 20 Tensorflow Records (TFRecords) mỗi file nặng khoảng 600 MB.

Tốc độ tải dữ liệu ấn tượng với TF Records. Chưa đầy 3s để tải hơn 11GB dữ liệu

2.43s

Xem trên Colab
3

Bộ dữ liệu Image Net Subset 1 – 17GB bao gồm 300036 ảnh thuộc 991 nhãn.

 

Sử dụng GPU V100 + TF Records, team đóng gói bộ dữ liệu thành 61 Tensorflow Records (TFRecords) mỗi file nặng khoảng 380 MB.

Thời gian đóng gói: 20 phút

Chưa đầy 30ms để tải hơn 17GB dữ liệu

25.9ms

Image Net Subset 2 bao gồm hơn 800000 ảnh thuộc gần 1000 nhãn

Thời gian tải 50GB dữ liệu

10s

im-net-sub2

Các bộ dữ liệu mới

Bộ dữ liệu Movie Lens (ml-20m)

Bộ dataset này chứa hơn 20 triệu bình chọn trên 26744 bộ phim của 138493 người dùng
Movie Lens
Quá trình xây dựng 100%