Hàng triệu video tin tức YouTube bị dùng để huấn luyện AI trái phép
Ít nhất 15 triệu video trên YouTube đã bị các tập đoàn công nghệ âm thầm sử dụng làm dữ liệu đào tạo AI, gồm cả video từ các hãng truyền thông hàng đầu.
Tháng trước, tờ The Atlantic công bố loạt điều tra mới về nguồn dữ liệu mà các công ty công nghệ sử dụng để huấn luyện trí tuệ nhân tạo tạo sinh. Nhà báo Alex Reisner tiết lộ ít nhất 15 triệu video tin tức trên YouTube đã bị khai thác trái phép cho mục đích nghiên cứu hoặc để phát triển các mô hình video AI thương mại. Trong danh sách này có video của nhiều hãng truyền thông lớn như The New York Times, Al Jazeera, Fox News, Bloomberg và Vox.
Các nhà báo phát hiện những tập dữ liệu khổng lồ này đang được dùng bởi các công ty công nghệ hàng đầu như Microsoft, Meta, ByteDance (công ty mẹ của TikTok), Tencent, Snap và Runway - đơn vị đứng sau mô hình tạo video AI nổi tiếng Gen-3.

Ảnh minh họa: Unsplash
Runway được cho là đã thu thập hơn 8.000 video từ kênh YouTube của The New York Times để huấn luyện Gen-3. Những video đó bao gồm phim tài liệu, phỏng vấn Barack Obama, phóng sự biểu tình ở Hồng Kông và nhiều nội dung tin tức khác. Một tài liệu nội bộ của công ty cho biết họ đánh giá cao video tin tức vì “tính kể chuyện và đồ họa hấp dẫn”.
Không chỉ Runway, nhiều tập dữ liệu khác do các trường đại học và công ty nghiên cứu phát triển - như HD-VILA-100M của Microsoft Research hay YT-Temporal-180M của Đại học Washington - cũng bị phát hiện chứa hàng chục nghìn video tin tức từ YouTube. Những bộ dữ liệu này sau đó được chia sẻ công khai, tải xuống hàng nghìn lần và có thể đã được nhiều công ty AI khác sử dụng để huấn luyện mô hình video của riêng họ.
Giám đốc điều hành YouTube, Neal Mohan, từng khẳng định việc tải video YouTube cho mục đích huấn luyện AI là vi phạm điều khoản sử dụng của nền tảng. Tuy nhiên, trên thực tế, các bộ dữ liệu nói trên vẫn đang được lưu hành rộng rãi mà không bị chặn.
Các hãng truyền thông bị ảnh hưởng tỏ ra phẫn nộ. Đại diện Vox Media cho biết các công ty AI đang “chi hàng tỷ USD cho phần cứng nhưng gần như không trả gì cho nội dung giúp mô hình của họ hoạt động tốt hơn”. The New York Times cũng khẳng định chưa bao giờ cho phép Runway hay bất kỳ bên nào khác sử dụng video của mình và đang xem xét hành động pháp lý.
Không chỉ các hãng lớn, nhiều kênh YouTube độc lập cũng bị ảnh hưởng. David Pakman - chủ kênh The David Pakman Show - nói việc hàng chục nghìn video của ông bị lấy đi là hành vi “xâm phạm bản quyền quy mô lớn”. Người dẫn chương trình Sam Seder của The Majority Report thì chỉ trích rằng các công ty AI đang “chiếm đoạt văn hóa chính trị độc lập mà họ không hề tạo ra”.
Theo quy định hiện nay, người đăng video lên YouTube vẫn giữ bản quyền, nhưng chỉ YouTube mới có quyền sử dụng video đó cho việc huấn luyện các mô hình AI của chính họ, chẳng hạn như Gemini hoặc Veo của Google. Việc các công ty khác lấy video từ YouTube để huấn luyện AI là hoàn toàn trái phép.
Phát ngôn viên The New York Times kết luận: “Công nghệ không thể phát triển bằng cách cướp đi công sức của những người làm báo. Nếu AI tiếp tục lấy nội dung miễn phí mà không trả công xứng đáng, người thiệt cuối cùng chính là công chúng”.







