Sou uma mulher cis, de 62 anos, que começou uma transição de carreira aos 60. Abusada? Corajosa? Rótulos não me definem. Mas hoje posso dizer que continuo jornalista com a missão de promover a Inteligência Artificial Generativa para o bem. Na minha jornada de transformação profissional, foi esse o tema que me escolheu. Do dia para a noite, estava mergulhada em estudos acadêmicos, artigos, pesquisas, notícias, acompanhando e vivendo o trem-bala do futuro – ao vivo e a cores.
À medida que fui explorando o treinamento dos algoritmos e os parâmetros dos LLMs (os modelos de linguagem que imitam a conversa humana) uma questão pulou à frente de todas as outras: a importância da diversidade e da inclusão no treinamento e uso de ferramentas de IA.
Em meu aprendizado constante, percebi que que isso é essencial para evitar vieses e preconceitos indesejados na geração de conteúdo através de chatbots – os robôs de conversa que entraram na nossa vida para ficar. Quando os conjuntos de dados utilizados para treinar modelos de IA são limitados em sua representação, replicamos e amplificamos injustiças existentes na sociedade. A diversidade nos dados de treinamento permite uma compreensão mais abrangente e precisa do mundo real,levando a soluções mais equitativas e inclusivas.
Um estudo superimportante da Deepmind (a empresa de pesquisa e desenvolvimento de IA do Google), já alertava para isso em 2021, um ano antes do lançamento do ChatGPT da concorrente OpenAI. O documento “Ethical and social risks of harm from Language Models” assinado por 15 especialistas aponta um cenário de muitos riscos associado aos LLMs.
Esses riscos foram analisados detalhadamente, com base na literatura multidisciplinar da ciência da computação, linguística e ciências sociais.
A primeira área de risco discutiu a injustiça e a toxicidade em modelos de linguagem em larga escala, desdobrando-as em quatro riscos distintos:
1. Os LLMs podem criar discriminação injusta e danos representacionais e materiais ao perpetuar estereótipos e preconceitos sociais, ou seja, associações prejudiciais de características específicas com identidades sociais.
2. As normas e categorias sociais podem excluir ou marginalizar aqueles que existem fora delas. Onde um LLM perpetua tais normas – por ex. que as pessoas chamadas “Max” são “homens”, ou que as “famílias” sempre consistem em pai, mãe e filho – esse uso restrito de categorias podem negar ou sobrecarregar identidades que diferem delas.
3. A linguagem tóxica pode incitar ao ódio ou à violência ou causar ofensa.
4. Finalmente, um LLM que tenha um desempenho pior para alguns grupos sociais do que para outros pode criar danos para grupos desfavorecidos, por exemplo, quando tais modelos sustentam tecnologias que afetam estes grupos. Estes riscos decorrem, em grande parte, do treinamento que inclui linguagem prejudicial e representa negativamente algumas identidades sociais.
A perpetuação de estereótipos e discriminação nos modelos que imitam a linguagem natural já está sendo documentada desde muito antes. Especialistas vêm mostrando que a discriminação manifesta-se no tratamento diferenciado ou no acesso a recursos entre indivíduos ou grupos com base em características sensíveis como sexo, religião, identidade de gênero, orientação afetivo-sexual, habilidades e idade (olha a vovó aqui falando!)
Ora, como o treinamento dos algoritmos é feito por humanos de diferentes culturas e valores, o conteúdo gerado vem sendo contaminado por esses valores, quaisquer que sejam eles. Como me disse Pri Bertucci: “Bias in, Bias out”! Ou seja, o robô vai te dar o viés que ele recebeu. Por isso que eu digo aos quatro ventos. A tecnologia hoje não é mais sobre tecnologia. É sobre “ser humano” com toda a bagagem que ser “pessoa” traz. Para o bem. Ou não.
Particularmente agora, momento da história em que qualquer pessoa pode construir seu chatbot sem saber escrever uma linha de código, é fundamental incluir pessoas de diferentes origens culturais, socioeconômicas e habilidades no desenvolvimento de modelos de linguagem personalizados para empresas, indústrias, instituições e outras organizações públicas e privadas.
Só assim poderemos garantir que as soluções de IA sejam verdadeiramente inclusivas, dêem visibilidade a pessoas trans binárias e não binárias e assegurem a voz de todos os outros indivíduos que são subrepresentados em grupos e organizações.
Para orientar o desenvolvimento e uso responsável da IA, é necessário um diálogo aberto e
inclusivo entre uma variedade de vozes – desde pesquisadores e desenvolvedores até legisladores, ativistas e membros da comunidade. Não é mais um debate de um nicho jovem e masculino que atua na área computacional.
Só a multiplicidade de vozes vai tornar efetivas as potenciais mitigações.
Os estudiosos recomendam pipelines mais inclusivos e escaláveis na escolha de conjuntos de dados que serão usados no treinamento das LLMs. Da mesma forma, é necessário mais trabalho sobre robustez contra o vazamento de informações privadas. Também são necessárias mais ferramentas para aperfeiçoar as LLMs para mitigar os riscos sociais ou éticos.
Uma ferramenta essencial é a RIE, a primeira inteligência artificial não binária e inclusiva lançada em 2023 por Pri Bertucci, fundadore e CEO da [DIVERSITY BBOX]. Pri nos traz a linguagem neutra/não binária em um modelo de linguagem artificial para mitigar as desigualdades e discriminações embutidas no treinamento dos robôs que imitam a linguagem humana.
Enfim, à medida que avançamos neste desafiador campo da inteligência artificial, temos que priorizar múltiplas vozes em todas as etapas do processo. A diversidade não é apenas uma questão de representação superficial, mas sim uma força vital que impulsiona a inovação,promove a equidade e fortalece os fundamentos éticos da IA. treinamento que inclua linguagem prejudicial e representem negativamente algumas identidades sociais.
Somente assim poderemos alcançar o verdadeiro potencial da Inteligência Artificial Generativa como uma força para o Bem.
Inteligência Artificial Generativa: Modo de usar – Por Lucia Leão