Hàng triệu video tin tức YouTube bị dùng để huấn luyện AI trái phép

Ít nhất 15 triệu video trên YouTube đã bị các tập đoàn công nghệ âm thầm sử dụng làm dữ liệu đào tạo AI, gồm cả video từ các hãng truyền thông hàng đầu.

Tháng trước, tờ The Atlantic công bố loạt điều tra mới về nguồn dữ liệu mà các công ty công nghệ sử dụng để huấn luyện trí tuệ nhân tạo tạo sinh. Nhà báo Alex Reisner tiết lộ ít nhất 15 triệu video tin tức trên YouTube đã bị khai thác trái phép cho mục đích nghiên cứu hoặc để phát triển các mô hình video AI thương mại. Trong danh sách này có video của nhiều hãng truyền thông lớn như The New York Times, Al Jazeera, Fox News, Bloomberg và Vox.

Các nhà báo phát hiện những tập dữ liệu khổng lồ này đang được dùng bởi các công ty công nghệ hàng đầu như Microsoft, Meta, ByteDance (công ty mẹ của TikTok), Tencent, Snap và Runway - đơn vị đứng sau mô hình tạo video AI nổi tiếng Gen-3.

alexander-shatov-niUkImZcSP8-unsplash (1) — Ảnh minh họa: Unsplash

Runway được cho là đã thu thập hơn 8.000 video từ kênh YouTube của The New York Times để huấn luyện Gen-3. Những video đó bao gồm phim tài liệu, phỏng vấn Barack Obama, phóng sự biểu tình ở Hồng Kông và nhiều nội dung tin tức khác. Một tài liệu nội bộ của công ty cho biết họ đánh giá cao video tin tức vì “tính kể chuyện và đồ họa hấp dẫn”.

Không chỉ Runway, nhiều tập dữ liệu khác do các trường đại học và công ty nghiên cứu phát triển - như HD-VILA-100M của Microsoft Research hay YT-Temporal-180M của Đại học Washington - cũng bị phát hiện chứa hàng chục nghìn video tin tức từ YouTube. Những bộ dữ liệu này sau đó được chia sẻ công khai, tải xuống hàng nghìn lần và có thể đã được nhiều công ty AI khác sử dụng để huấn luyện mô hình video của riêng họ.

Giám đốc điều hành YouTube, Neal Mohan, từng khẳng định việc tải video YouTube cho mục đích huấn luyện AI là vi phạm điều khoản sử dụng của nền tảng. Tuy nhiên, trên thực tế, các bộ dữ liệu nói trên vẫn đang được lưu hành rộng rãi mà không bị chặn.

Các hãng truyền thông bị ảnh hưởng tỏ ra phẫn nộ. Đại diện Vox Media cho biết các công ty AI đang “chi hàng tỷ USD cho phần cứng nhưng gần như không trả gì cho nội dung giúp mô hình của họ hoạt động tốt hơn”. The New York Times cũng khẳng định chưa bao giờ cho phép Runway hay bất kỳ bên nào khác sử dụng video của mình và đang xem xét hành động pháp lý.

Không chỉ các hãng lớn, nhiều kênh YouTube độc lập cũng bị ảnh hưởng. David Pakman - chủ kênh The David Pakman Show - nói việc hàng chục nghìn video của ông bị lấy đi là hành vi “xâm phạm bản quyền quy mô lớn”. Người dẫn chương trình Sam Seder của The Majority Report thì chỉ trích rằng các công ty AI đang “chiếm đoạt văn hóa chính trị độc lập mà họ không hề tạo ra”.

Theo quy định hiện nay, người đăng video lên YouTube vẫn giữ bản quyền, nhưng chỉ YouTube mới có quyền sử dụng video đó cho việc huấn luyện các mô hình AI của chính họ, chẳng hạn như Gemini hoặc Veo của Google. Việc các công ty khác lấy video từ YouTube để huấn luyện AI là hoàn toàn trái phép.

Phát ngôn viên The New York Times kết luận: “Công nghệ không thể phát triển bằng cách cướp đi công sức của những người làm báo. Nếu AI tiếp tục lấy nội dung miễn phí mà không trả công xứng đáng, người thiệt cuối cùng chính là công chúng”.

Nguồn:https://congluan.vn/hang-trieu-video-tin-tuc-youtube-bi-dung-de-huan-luyen-ai-trai-phep-10316423.html Copy link

Hàng triệu video tin tức YouTube bị dùng để huấn luyện AI trái phép

AI thúc đẩy đổi mới sáng tạo cho thế hệ trẻ Việt Nam

AI – công cụ mới định hình nền giáo dục trong bối cảnh mới

Phát triển năng lực AI như một năng lực nền tảng của người học trong kỷ nguyên số

Úc kiện Microsoft vì quảng cáo 'gây hiểu lầm'

Tạp chí gần trăm năm tuổi của Thụy Sĩ 'hồi sinh' nhờ AI

OpenAI ra mắt trình duyệt Atlas, muốn lật đổ thế thống trị của Chrome

TikTok đang biến thành 'tiền tuyến tin tức' như thế nào?

Cấy ghép mắt điện tử giúp bệnh nhân mù có thể đọc trở lại

Alibaba giảm tới 82% số lượng chip Nvidia trong vận hành mô hình AI

Meta chính thức ngừng hỗ trợ Messenger trên máy tính từ tháng 12

Xác định 5 tiêu chí đánh giá sáng kiến đột phá phát triển khoa học, công nghệ

Đột phá theo Nghị quyết 57: Huy động nguồn lực xã hội cho khoa học, công nghệ

Chủ động ứng phó mưa lớn, gió mạnh trên biển ở Trung Bộ và Nam Bộ

VIB lãi 5.180 tỷ đồng, tài sản vượt 580 nghìn tỷ trong 6 tháng

Giá đậu tương tăng mạnh, nguồn cung toàn cầu thêm áp lực