13.5TB - Yahoo ra mắt bộ Dataset cực lớn cho lĩnh vực máy học

Feb 9, 2016

Yahoo Labs đã tung ra nhiều loại bộ dữ liệu khác nhau cho những ai nghiên cứu trong lĩnh vực máy học (Machine Learning). Các bộ dữ liệu này chủ yếu được thu thập từ các dịch vụ của Yahoo, như thông tin hoạt động người dùng, dữ liệu đồ thị, ảnh đã gán nhãn, ngôn ngữ tự nhiên, tin nhắn, tương tác mạng xã hội, tương tác tin tức … từ Yahoo News, Yahoo Sports, Yahoo Finance, Yahoo Movies, …

Các bộ dữ liệu dùng làm tập train này thuộc nhiều lĩnh vực, bao gồm:

Một số bộ dữ liệu như:

Nổi bật nhất là bộ dataset với dung lượng cực khủng là 13.5TB (chưa nén), ghi nhận hoạt động khoảng 110 tỉ tương tác của 20 triệu người dùng Yahoo từ tháng 2/2015 đến tháng 5/2015

Các bộ Dataset được cung cấp miễn phí cho các nhà nghiên cứu, sinh viên, … phục vụ cho mục đích nghiên cứu và phi thương mại.

Để tải về các Dataset này, truy cập vào trang chủ của Yahoo Webscope tại đây: http://webscope.sandbox.yahoo.com/

Đăng ký với tài khoản mail edu, chọn bộ dữ liệu thích hợp, nêu mục đích nghiên cứu, sử dụng. Yahoo sẽ xét duyệt trong khoảng 1 ngày đến dưới 1 tuần.

Ở đây cũng cung cấp nhiều bài báo khoa học cũng như các kết quả nghiên cứu của Yahoo Labs.

Tham khảo

Yahoo Releases the Largest-ever Machine Learning Dataset for Researchers