What's new

Google e OpenAI treinam IAs com vídeos do YouTube, diz jornal

i827979.jpeg

Uma reportagem do jornal The New York Times revela que as empresas Google e OpenAI utilizam materiais públicos postados no YouTube para treinar seus modelos de inteligência artificial, especificadamente o Gemini e o GPT-4. O problema é que o YouTube, de propriedade do Google, proíbe o uso dos vídeos para aplicações fora da plataforma.

Coleta irregular de dados​

Segundo a publicação, a OpenAI criou uma ferramenta de transcrição de áudio chamada Whisper que foi utilizada para coletar materiais do YouTube a partir do final de 2021.
Em vez de utilizar os vídeos no treinamento do modelo de IA, a companhia usou as transcrições em textos de mais de um milhão de horas de conteúdo da plataforma. Ainda que esses vídeos sejam “públicos”, a prática viola as políticas do YouTube e os direitos dos criadores de conteúdo.
-
Podcast Canaltech: de segunda a sexta-feira, você escuta as principais manchetes e comentários sobre os acontecimentos tecnológicos no Brasil e no mundo. Links aqui: https://canaltech.com.br/podcast/
-
Conteúdos publicados no YouTube são utilizados no treinamento de IAs, diz jornal (Imagem: Reprodução/Freepik)

Conteúdos publicados no YouTube são utilizados no treinamento de IAs, diz jornal (Imagem: Reprodução/Freepik)
Nesse caso, as horas de materiais — mesmo que transcritas em texto — reutilizam o trabalho e a produção de milhares de pessoas para o desenvolvimento de uma ferramenta de uma outra empresa, a qual ainda pode ganhar muito dinheiro com seu modelo de IA.
A situação é ainda curiosa em relação ao próprio Google e a sua IA Gemini. O New York Times destaca que a Big Tech também utilizou conteúdos do YouTube para treinar o modelo e, mesmo sendo a proprietária da plataforma, também não teria o direito de coletar esses dados.

Corrida pelos dados​

A reportagem do jornal descreve o cenário de corrida das grandes empresas de tecnologia pelos maiores bancos de dados e informações disponíveis para treinar os modelos de inteligência artificial.
“A corrida para liderar o setor de IA tornou-se uma busca desesperada pelos dados digitais necessários para o avanço da tecnologia. Para obter esses dados, empresas de tecnologia, incluindo OpenAI, Google e Meta, pegaram atalhos, ignoraram políticas corporativas e debateram violar a lei”, escreve o Times.
Na corrida por volume de dados para treinar IAs, as Big Techs ignoram políticas (Imagem: Rawpixel/Freepik)

Na corrida por volume de dados para treinar IAs, as Big Techs ignoram políticas (Imagem: Rawpixel/Freepik)
De acordo com a publicação, as atividades recentes dessas companhias ilustram como todas as informações publicadas na web estão sendo usadas pela indústria de IA. A prática pode ser vista como um roubo de conteúdos de propriedade intelectual — sejam eles em texto, áudio ou vídeo.
Essa corrida desesperada das Big Techs está relacionada à necessidade de ter volumes robustos de dados para realizar o treinamento dos modelos de IA nas mais diferentes especialidades. O jornal destaca que esse movimento fez o Google, por exemplo, mudar os termos de serviços de seus produtos para permitir a coleta de dados em documentos públicos no Drive e avaliações de estabelecimentos no Maps.
Sem uma regulamentação sobre essas práticas, as pessoas ficam reféns das Big Techs — sem alternativa de manter seus dados seguros e sem a garantia de que seus trabalhos não sejam usados para treinar IAs, enquanto elas lucram e não pagam pelo uso dessas informações.
Leia a matéria no Canaltech.
Trending no Canaltech:

Fonte: Canal Tech
 
Top Bottom