A Vana planeja permitir que os usuários aluguem seus dados do Reddit para treinar IA

Na área generativa boom da IA, os dados são o novo petróleo. Então, por que você não poderia vender seus próprios dados?

De grandes empresas de tecnologia a startups, os fabricantes de IA estão licenciando e-books, imagens, vídeos, áudios e muito mais de corretores de dados, tudo com o objetivo de treinar produtos com tecnologia de IA mais capazes (e mais legalmente defensáveis). A Shutterstock tem acordos com a Meta, Google, Amazon e Apple para fornecer milhões de imagens para o treinamento de modelos, enquanto a OpenAI assinou acordos com várias organizações de notícias para treinar seus modelos em arquivos de notícias.

Em muitos casos, os criadores individuais e os proprietários desses dados não viram um centavo do dinheiro mudando de mãos. Uma start-up chamada Vana quer mudar isso.

Anna Kazlauskas e Art Abal, que se conheceram em uma aula no MIT Media Lab voltada para a criação de tecnologia para mercados emergentes, cofundaram a Vana em 2021. Antes da Vana, Kazlauskas estudou ciência da computação e economia no MIT, e acabou saindo para lançar uma startup de automação de fintech, a Iambiq, da Y Combinator. Abal, um advogado corporativo por formação e educação, foi associado do The Cadmus Group, uma empresa de consultoria sediada em Boston, antes de liderar o fornecimento de impacto na empresa de anotação de dados Appen.

Com a Vana, Kazlauskas e Abal se propuseram a criar uma plataforma que permita aos usuários “reunir” seus dados – inclusive bate-papos, gravações de fala e fotos – em conjuntos de dados que possam ser usados para treinamento de modelos de IA generativa. Eles também querem criar experiências mais personalizadas – por exemplo, um correio de voz motivacional diário com base em suas metas de bem-estar ou um aplicativo de geração de arte que entenda suas preferências de estilo – ajustando modelos públicos nesses dados.

“A infraestrutura da Vana cria, de fato, uma tesouraria de dados de propriedade do usuário”, disse Kazlauskas ao TechCrunch. “Ela faz isso permitindo que os usuários agreguem seus dados pessoais de uma forma não custodial… A Vana permite que os usuários possuam modelos de IA e usem seus dados em aplicativos de IA.”

Veja como a Vana apresenta sua plataforma e API aos desenvolvedores:

A API da Vana conecta os dados pessoais de um usuário em várias plataformas… para permitir que você personalize seu aplicativo. Seu aplicativo obtém acesso instantâneo ao modelo de IA personalizado ou aos dados subjacentes de um usuário, simplificando a integração e eliminando as preocupações com o custo de computação… Acreditamos que os usuários devem poder trazer seus dados pessoais de jardins murados, como Instagram, Facebook e Google, para o seu aplicativo, para que você possa criar uma experiência personalizada incrível desde a primeira vez que um usuário interage com seu aplicativo de IA para o consumidor.

Criar uma conta na Vana é bastante simples. Depois de confirmar seu e-mail, você pode anexar dados a um avatar digital (como selfies, uma descrição de si mesmo e gravações de voz) e explorar aplicativos criados usando a plataforma e os conjuntos de dados da Vana. A seleção de aplicativos varia de chatbots no estilo ChatGPT e livros de histórias interativos a um gerador de perfil Hinge.

Créditos da imagem: Vana

Agora, você pode perguntar: por que, nesta época de maior conscientização sobre a privacidade dos dados e ataques de ransomware, alguém ofereceria voluntariamente suas informações pessoais a uma startup anônima, muito menos a uma startup apoiada por capital de risco? (A Vana arrecadou US$ 20 milhões até o momento da Paradigm, Polychain Capital e outros patrocinadores). Pode-se realmente confiar que alguma empresa com fins lucrativos não abusará ou manipulará incorretamente os dados monetizáveis em que colocar as mãos?

Créditos da imagem: Vana

Em resposta a essa pergunta, Kazlauskas enfatizou que o objetivo da Vana é que os usuários “recuperem o controle sobre seus dados”, observando que os usuários da Vana têm a opção de auto-hospedar seus dados em vez de armazená-los nos servidores da Vana e controlar como seus dados são compartilhados com aplicativos e desenvolvedores. Ela também argumentou que, como a Vana ganha dinheiro cobrando dos usuários uma assinatura mensal (a partir de US$ 3,99) e cobrando uma taxa de “transação de dados” dos desenvolvedores (por exemplo, para transferir conjuntos de dados para treinamento de modelos de IA), a empresa não é incentivada a explorar os usuários e os montes de dados pessoais que eles trazem consigo.

“Queremos criar modelos de propriedade e governados por usuários que contribuam com seus dados”, disse Kazlauskas, “e permitir que os usuários tragam seus dados e modelos com eles para qualquer aplicativo”.

Agora, enquanto Vana não está vendendo os dados dos usuários a empresas para treinamento de modelos de IA generativa (ou pelo menos é o que afirma), ela quer permitir que os próprios usuários façam isso, se assim desejarem – começando com suas publicações no Reddit.

Este mês, a Vana lançou o que está chamando de Reddit Data DAO (Digital Autonomous Organization), um programa que reúne dados do Reddit de vários usuários (incluindo seu carma e histórico de postagens) e permite que eles decidam juntos como esses dados combinados serão usados. Depois de ingressar com uma conta do Reddit, enviar uma solicitação ao Reddit para obter seus dados e fazer o upload desses dados para a DAO, os usuários ganham o direito de votar junto com outros membros da DAO em decisões como o licenciamento dos dados combinados para empresas de IA generativa para um lucro compartilhado.

Analisamos os números e o r/datadao é agora o maior DAO de dados da história: A Fase 1 recebeu 141.000 usuários do reddit com 21.000 uploads de dados completos.

– r/datadao (@rdatadao) 11 de abril de 2024

É uma espécie de resposta às recentes iniciativas do Reddit para comercializar dados em sua plataforma.

Anteriormente, o Reddit não permitia o acesso a postagens e comunidades para fins de treinamento de IA generativa. Mas reverteu o curso no final do ano passado, antes de sua IPO. Desde a mudança de política, o Reddit arrecadou mais de US$ 203 milhões em taxas de licenciamento de empresas como o Google.

“A ideia geral (com o DAO) é liberar os dados dos usuários das principais plataformas que procuram acumulá-los e monetizá-los”, disse Kazlauskas. “Essa é a primeira vez e faz parte do nosso esforço para ajudar as pessoas a reunir seus dados em conjuntos de dados de propriedade do usuário para treinar modelos de IA.”

Não é de surpreender que o Reddit – que não está trabalhando com a Vana em nenhuma função oficial – não esteja satisfeito com o DAO.

O Reddit baniu o subreddit da Vana dedicado à discussão sobre o DAO. E um porta-voz do Reddit acusou a Vana de “explorar” seu sistema de exportação de dados, que foi projetado para cumprir os regulamentos de privacidade de dados, como o GDPR e a Lei de Privacidade do Consumidor da Califórnia.

“Nossos acordos de dados nos permitem colocar barreiras de proteção nessas entidades, mesmo em informações públicas”, disse o porta-voz ao TechCrunch. “O Reddit não compartilha dados pessoais não públicos com empresas comerciais e, quando os Redditors solicitam a exportação de seus dados, eles recebem dados pessoais não públicos de volta, de acordo com as leis aplicáveis. Parcerias diretas entre o Reddit e organizações examinadas, com termos claros e responsabilidade, são importantes, e essas parcerias e acordos evitam o uso indevido e o abuso dos dados das pessoas”.

Mas será que o Reddit tem algum motivo real para se preocupar?

Kazlauskas prevê o crescimento da DAO a ponto de afetar o valor que o Reddit pode cobrar dos clientes por seus dados. Isso está muito longe de acontecer, supondo que algum dia aconteça; a DAO tem pouco mais de 141.000 membros, uma fração minúscula da base de 73 milhões de usuários do Reddit. E alguns desses membros poderiam ser bots ou contas duplicadas.

Além disso, há a questão de como distribuir de forma justa os pagamentos que a DAO poderá receber dos compradores de dados.

Atualmente, a DAO concede “tokens” – criptomoeda – aos usuários correspondentes ao seu carma no Reddit. Mas o karma pode não ser a melhor medida de contribuições de qualidade para o conjunto de dados, especialmente em comunidades menores do Reddit com menos oportunidades de ganhá-lo.

Kazlauskas apresenta a ideia de que os membros do DAO poderiam optar por compartilhar seus dados demográficos e de plataforma cruzada, tornando o DAO potencialmente mais valioso e incentivando as inscrições. Mas isso também exigiria que os usuários confiassem ainda mais na Vana para tratar seus dados confidenciais de forma responsável.

Pessoalmente, não vejo o DAO da Vana atingindo massa crítica. Os obstáculos que se interpõem no caminho são muitos. Acredito, no entanto, que essa não será a última tentativa popular de afirmar o controle sobre os dados que estão sendo cada vez mais usados para treinar modelos de IA generativos.

Startups como a Spawning estão trabalhando em maneiras de permitir que os criadores imponham regras que orientem como seus dados são usados para treinamento, enquanto fornecedores como Getty Images, Shutterstock e Adobe continuam a fazer experiências com esquemas de compensação. Mas ninguém ainda decifrou o código. Será que isso é possível? ser quebrado? Dada a natureza cruel do setor de IA generativa, certamente é uma tarefa difícil. Mas talvez alguém encontre uma maneira – ou os legisladores forcem uma.