Tưởng chừng vô giá trị, các video thừa, không được sử dụng trở thành món hàng được săn đón, khi các công ty AI ngày càng cần dữ liệu độc nhất, chưa từng xuất hiện.
Có lẽ bạn sẽ bất ngờ khi biết rằng những đoạn phim chưa từng được đăng tải, những thước phim hậu trường bị bỏ xó trong máy tính của các YouTuber, TikToker lại có giá trị không hề nhỏ đối với các ông lớn công nghệ như OpenAI, Meta. Họ sẵn sàng chi trả hàng nghìn USD để có được những tư liệu này. Câu hỏi đặt ra là tại sao?
Câu trả lời nằm ở sự thèm khát dữ liệu của các hệ thống AI. Để đào tạo các mô hình AI ngày càng thông minh hơn, các công ty này cần một lượng dữ liệu khổng lồ. Trong đó, video là một trong những nguồn dữ liệu đắt giá.
Nhưng không phải video nào cũng có giá trị như nhau. Các công ty AI đặc biệt quan tâm đến những video chưa được công bố, bởi chúng được coi là “hàng độc”, không trùng lặp với bất kỳ nội dung nào đã có trên mạng. Những video này giúp các thuật toán AI học hỏi một cách đa dạng và chính xác hơn, từ đó tạo ra những sản phẩm AI ưu việt hơn.
Cơn khát dữ liệu của các ông lớn AI
Một nghiên cứu vào năm 2020 của nhà vật lý lý thuyết Jared Kaplan thuộc Đại học Johns Hopkins đã thúc đẩy nhu cầu về dữ liệu lớn trong AI. Nghiên cứu của ông cho thấy rằng mô hình ngôn ngữ càng được huấn luyện trên nhiều dữ liệu, kết quả càng chính xác. Nghiên cứu này đã trở thành kim chỉ nam cho nhiều công ty AI, dẫn đến việc phát triển các mô hình như GPT-3 với 300 tỷ token (đơn vị nhỏ nhất trong văn bản).
Kể từ đó, các mô hình AI lớn hơn đã lần lượt ra đời, như Chinchilla của DeepMind với 1.400 tỷ token và PaLM 2 của Google với 3.600 tỷ token. Những con số này cho thấy cuộc đua về dữ liệu không có dấu hiệu chậm lại.
Tuy nhiên, phụ thuộc quá mức vào dữ liệu hiện có trên Internet đang dẫn đến một khủng hoảng dữ liệu tiềm tàng. Theo nghiên cứu của tổ chức Epoch AI, năm 2028, các tập dữ liệu dùng để huấn luyện mô hình AI có thể sẽ đạt đến giới hạn, tức là tương đương với toàn bộ nội dung văn bản công khai trên Internet. Nói cách khác, AI có thể sẽ hết dữ liệu đào tạo trong khoảng 3 năm nữa.
Trước viễn cảnh thiếu hụt dữ liệu, các công ty AI đã và đang tìm cách tiếp cận các nguồn dữ liệu không truyền thống.
Đơn cử như năm 2021, OpenAI - cha đẻ ChatGPT - đã gặp phải vấn đề với nguồn cung. Họ đã khai thác hết mọi kho dữ liệu văn bản có sẵn trên Internet, nhưng vẫn cần thêm rất nhiều dữ liệu để huấn luyện phiên bản AI mới của mình.
Để giải quyết vấn đề này, các nhà nghiên cứu tại OpenAI đã phát triển công cụ nhận dạng giọng nói có tên Whisper. Nó có thể rã băng các video trên YouTube để thu thập dữ liệu văn bản cho việc phát triển AI.
Bằng cách đó, đội ngũ của OpenAI vẫn thu thập và phiên âm hơn một triệu giờ video trên YouTube, huấn luyện thành công một trong những mô hình AI mạnh mẽ nhất thế giới, GPT-4.
Google, chủ sở hữu YouTube, cũng sử dụng bản ghi video YouTube để huấn luyện các mô hình AI của mình, bất chấp khả năng vi phạm bản quyền. Vào năm ngoái, Google đã mở rộng các điều khoản sử dụng dịch vụ của mình, cho phép công ty khai thác các nội dung từ Google Docs, Google Maps và các tài liệu trực tuyến khác để phục vụ cho các sản phẩm AI.
Tại Meta, công ty mẹ của Facebook và Instagram, các quản lý và kỹ sư thậm chí đã thảo luận về việc mua lại nhà xuất bản Simon & Schuster để có quyền truy cập vào các tác phẩm dài. Những cuộc thảo luận cũng xoay quanh việc thu thập dữ liệu có bản quyền từ khắp nơi trên Internet, New York Times đưa tin.
Meta tuyên bố họ đã tích hợp hàng tỷ hình ảnh và video công khai từ Instagram và Facebook vào hệ thống huấn luyện của mình. Tập đoàn còn sử dụng dữ liệu từ kính thực tế ảo Meta Quest.
Tại sao video "ế" lại có giá?
Song, hành vi sử dụng tác phẩm của các nhà sáng tạo để huấn luyện AI đã dấy lên nhiều tranh cãi về bản quyền. Năm ngoái, New York Times đã kiện OpenAI và Microsoft vì sử dụng bài viết của mình mà không được phép. OpenAI và Microsoft cho rằng việc sử dụng này nằm trong phạm vi "sử dụng hợp lý" (fair use) theo luật bản quyền, vì dữ liệu được chuyển đổi để phục vụ một mục đích khác.
Hơn 10.000 nhóm ngành nghề, tác giả và tổ chức đã gửi ý kiến tới Văn phòng Bản quyền Mỹ để yêu cầu hướng dẫn rõ ràng về cách áp dụng luật bản quyền trong thời đại AI.
Chính vào lúc đó, mua lại video chưa đăng tải từ các YouTuber, TikToker sẽ là một trong những giải pháp tiềm năng, vừa giải quyết được bài toán dữ liệu, vừa tránh được các cuộc chiến bản quyền.
Những người làm video thường có rất nhiều đoạn hình ảnh quay trám, minh họa, và thường không dùng hết chúng, đồng nghĩa cũng không đăng tải ở đâu. Việc các hãng AI sẵn sàng trả số tiền lớn là một tín hiệu đáng mừng cho thấy rằng các nhà sáng tạo nội dung có thể kiếm tiền từ những sản phẩm "dư thừa" của mình.
Hiện tại, OpenAI, Google và các công ty AI khác đang trả từ 1-4 USD cho mỗi phút video, tùy thuộc vào chất lượng và định dạng. Những video có độ phân giải 4K, quay bằng flycam, hay những video có hiệu ứng 3D sẽ có giá cao hơn. Tuy nhiên, phần lớn video "ế" từ các nền tảng như YouTube, Instagram, TikTok được bán với giá từ 1-2 USD/phút, Bloomberg đưa tin.
Có vẻ như một vài USD mỗi phút không phải là quá nhiều. Nhưng nếu một YouTuber hay TikToker quay hàng trăm giờ video mỗi năm, họ có thể bán đi một vài đoạn phim chưa dùng đến. Đó sẽ là một nguồn thu nhập khổng lồ, vừa giúp đa dạng hóa nguồn thu bên cạnh nhận quảng cáo, vừa bù đắp lại chi phí và công sức đã bỏ ra.
Tuy nhiên, Dan Levitt, Phó chủ tịch bộ phận sáng tạo tại công ty quản lý tài năng Wasserman, cảnh báo rằng "cửa sổ" kiếm tiền từ việc cấp phép dữ liệu có thể không tồn tại lâu. Các công ty sẽ phải tìm ra các phương pháp huấn luyện khác, hoặc có thể sử dụng dữ liệu tổng hợp (synthetic data) thay cho dữ liệu thực.
Theo Nature, cha đẻ ChatGPT đã phát triển dữ liệu tổng hợp từ sớm, tức là dữ liệu được tạo ra bởi AI để huấn luyện chính AI. Các chuyên gia đều đồng ý rằng dữ liệu này hoạt động tốt đối với các lĩnh vực có quy tắc cụ thể, có thể xác định được, chẳng hạn như cờ vua, toán học hoặc mã hóa máy tính.
Đơn cử như công cụ AlphaGeometry của DeepMind đã được đào tạo thành công để giải các bài toán hình học bằng cách sử dụng 100 triệu ví dụ tổng hợp và không cần con người minh họa.
Song, dữ liệu tổng hợp cũng đi kèm với không ít rủi ro. Việc AI học từ dữ liệu do chính nó tạo ra có thể dẫn đến những vòng lặp tự củng cố, khiến các mô hình AI mắc sai lầm hoặc duy trì các quan niệm sai lệch. Một nghiên cứu năm 2023 đã đặt tên cho hiện tượng này là “Model Autophagy Disorder” (tạm dịch: Rối loạn tự thực ở mô hinh). Thuật ngữ này ám chỉ việc AI có thể “tự ăn chính mình” khi sử dụng dữ liệu không chuẩn.
Bên cạnh đó, một hướng đi khác là tập trung vào các tập dữ liệu chuyên biệt, chẳng hạn như dữ liệu thiên văn học hoặc hệ gen học. Nhà nghiên cứu Fei-Fei Li tại Đại học Stanford tin rằng dữ liệu trong các lĩnh vực như y tế, môi trường và giáo dục là một kho tàng chưa được khai thác.
Theo: Thùy Liên - znews.vn
https://znews.vn/vi-sao-openai-google-san-sang-tra-nghin-usd-cho-clip-e-cua-tiktoker-post1524809.html