Quatro conclusões na corrida para acumular dados para IA

Deprecated: preg_split(): Passing null to parameter #3 ($limit) of type int is deprecated in /home/freshbar/public_html/wp-content/themes/jannah/framework/functions/post-functions.php on line 805

Christina S. Brown April 6, 2024

0 2 minutes read

Os dados online sempre foram uma mercadoria valiosa. Durante anos, a Meta e o Google usaram dados para direcionar sua publicidade online. Netflix e Spotify o usaram para recomendar mais filmes e músicas. Os candidatos políticos recorreram a dados para saber em que grupos de eleitores devem concentrar-se.

Nos últimos 18 meses, tornou-se cada vez mais claro que os dados digitais também são cruciais para o desenvolvimento da inteligência artificial. Aqui está o que você deve saber.

Quanto mais dados, melhor.

O sucesso da IA depende de dados. Isso ocorre porque os modelos de IA se tornam mais precisos e mais humanos com mais dados.

Da mesma forma que um aluno aprende lendo mais livros, ensaios e outras informações, grandes modelos de linguagem — os sistemas que são a base dos chatbots — também se tornam mais precisos e mais poderosos se receberem mais dados.

Alguns grandes modelos de linguagem, como o GPT-3 da OpenAI, lançado em 2020, foram treinados em centenas de bilhões de “tokens”, que são essencialmente palavras ou pedaços de palavras. Grandes modelos de linguagem mais recentes foram treinados em mais de três trilhões de tokens.

Os dados online são um recurso precioso e finito.

As empresas tecnológicas estão a utilizar dados online disponíveis publicamente para desenvolver os seus modelos de IA, mais rapidamente do que a produção de novos dados. De acordo com uma previsão, os dados digitais de alta qualidade estarão esgotados até 2026.

As empresas de tecnologia não medem esforços para obter mais dados.

Na corrida por mais dados, OpenAI, Google e Meta estão recorrendo a novas ferramentas, alterando seus termos de serviço e participando de debates internos.

Na OpenAI, os pesquisadores criaram um programa em 2021 que converteu o áudio dos vídeos do YouTube em texto e depois inseriu as transcrições em um de seus modelos de IA, indo contra os termos de serviço do YouTube, disseram pessoas com conhecimento do assunto.

(O New York Times processou a OpenAI e a Microsoft por usarem artigos de notícias protegidos por direitos autorais sem permissão para o desenvolvimento de IA. A OpenAI e a Microsoft afirmaram que usaram artigos de notícias de maneiras transformadoras que não violavam a lei de direitos autorais.)

O Google, dono do YouTube, também usou dados do YouTube para desenvolver seus modelos de IA, entrando em uma área legal cinzenta de direitos autorais, disseram pessoas com conhecimento da ação. E o Google revisou sua política de privacidade no ano passado para poder usar material disponível publicamente para desenvolver mais produtos de IA.

Na Meta, executivos e advogados debateram no ano passado como obter mais dados para o desenvolvimento de IA e discutiram a compra de uma grande editora como a Simon & Schuster. Em reuniões privadas, ponderaram a possibilidade de incluir obras protegidas por direitos de autor no seu modelo de IA, mesmo que isso significasse que seriam processados mais tarde, de acordo com gravações das reuniões, obtidas pelo The Times.

Uma solução pode ser dados “sintéticos”.

OpenAI, Google e outras empresas estão explorando o uso de sua IA para criar mais dados. O resultado seria o que é conhecido como dados “sintéticos”. A ideia é que os modelos de IA gerem novos textos que possam então ser usados para construir uma IA melhor

Os dados sintéticos são arriscados porque os modelos de IA podem cometer erros. Confiar nesses dados pode agravar esses erros.

Source link