Yahoo Labs đã tung ra nhiều loại bộ dữ liệu khác nhau cho những ai nghiên cứu trong lĩnh vực máy học (Machine Learning). Các bộ dữ liệu này chủ yếu được thu thập từ các dịch vụ của Yahoo, như thông tin hoạt động người dùng, dữ liệu đồ thị, ảnh đã gán nhãn, ngôn ngữ tự nhiên, tin nhắn, tương tác mạng xã hội, tương tác tin tức … từ Yahoo News, Yahoo Sports, Yahoo Finance, Yahoo Movies, …
Các bộ dữ liệu dùng làm tập train này thuộc nhiều lĩnh vực, bao gồm:
- Advertising and Market Data
- Competition Data
- Computing Systems Data
- Graph and Social Data
- Image Data
- Language Data
- Ratings and Classification Data
Một số bộ dữ liệu như:
- L27 - Yahoo Answers Factoids Queries, version 1.0 (3.5MB)
- R10 - Yahoo News Feed dataset, version 1.0 (1.5TB)
- L26 - Yahoo! Answers consisting of questions asked in French, version 1.0 (3.8Gb)
- I4 - Title-based Video Summarization dataset, version 1.0(644M)
- S5 - A Labeled Anomaly Detection Dataset, version 1.0(16M)
- …
Nổi bật nhất là bộ dataset với dung lượng cực khủng là 13.5TB (chưa nén), ghi nhận hoạt động khoảng 110 tỉ tương tác của 20 triệu người dùng Yahoo từ tháng 2/2015 đến tháng 5/2015
Các bộ Dataset được cung cấp miễn phí cho các nhà nghiên cứu, sinh viên, … phục vụ cho mục đích nghiên cứu và phi thương mại.
Để tải về các Dataset này, truy cập vào trang chủ của Yahoo Webscope tại đây: http://webscope.sandbox.yahoo.com/
Đăng ký với tài khoản mail edu, chọn bộ dữ liệu thích hợp, nêu mục đích nghiên cứu, sử dụng. Yahoo sẽ xét duyệt trong khoảng 1 ngày đến dưới 1 tuần.
Ở đây cũng cung cấp nhiều bài báo khoa học cũng như các kết quả nghiên cứu của Yahoo Labs.
Tham khảo
Yahoo Releases the Largest-ever Machine Learning Dataset for Researchers