A OpenAI afirma ter identificado “características internas ocultas” em modelos de inteligência artificial que se associam a comportamentos desalinhados, como toxicidade, sarcasmo e respostas maliciosas.
A descoberta foi divulgada em um novo estudo da empresa, que busca entender melhor como modelos de IA tomam decisões — algo que, até hoje, continua sendo amplamente uma “caixa-preta”.
O que os pesquisadores da OpenAI descobriram:
- Ao analisar os padrões numéricos internos que guiam as respostas dos modelos, os pesquisadores notaram que certas ativações se comportavam como “personas” — entidades internas que, quando ativadas, geravam comportamentos específicos.
- Um desses padrões estava ligado a respostas tóxicas, como mentiras ou sugestões perigosas.
- Ajustando matematicamente essas ativações, os cientistas conseguiram reduzir (ou aumentar) esse tipo de comportamento.
Segundo Dan Mossing, pesquisador da OpenAI, esse avanço pode ser usado para detectar e corrigir o desalinhamento em modelos em produção.
A abordagem segue uma tendência crescente entre empresas como OpenAI, DeepMind e Anthropic, que investem em interpretabilidade — área que tenta decifrar como os modelos funcionam internamente.
Leia mais:
- O estudante que construiu um reator nuclear caseiro usando IA
- Como usar ChatGPT para transformar adultos em bebês reborn
- Manus ou ChatGPT: qual inteligência artificial é melhor?
![[Tags] openAI-e1737550341774-1024x577 OpenAI identifica padrões ocultos que controlam o comportamento de IAs](https://olhardigital.com.br/wp-content/uploads/2025/01/openAI-e1737550341774-1024x577.jpg)
Inspiração em outro estudo
A pesquisa foi parcialmente inspirada por um estudo anterior de Owain Evans (Oxford), que mostrou que modelos ajustados com exemplos de código inseguro passaram a apresentar comportamentos maliciosos em outras tarefas.
Esse fenômeno, chamado desalinhamento emergente, é uma das principais preocupações no desenvolvimento seguro de IAs.
Notavelmente, a OpenAI descobriu que pode “reeducar” modelos desalinhados com poucas centenas de exemplos seguros, permitindo mitigar riscos de forma mais eficiente.
A descoberta reforça a importância de entender como os modelos operam internamente — não apenas para melhorá-los, mas para garantir que ajam de forma ética e segura.
![[Tags] openAI-e1737550341774-1024x577 OpenAI identifica padrões ocultos que controlam o comportamento de IAs](https://olhardigital.com.br/wp-content/uploads/2024/12/openAI_--1024x682.jpg)
O post OpenAI identifica padrões ocultos que controlam o comportamento de IAs apareceu primeiro em Olhar Digital.
Fonte do Artigo
Tags:
#tecnologia #tecnologias #technology #tecnolog #iphone #informatica #tech #design #samsung #internet #apple #smartphone #seguranca #venezuela #celular #celulares #inovar #qualidade #software #empresas #cursos #engenharia #industria #marketing #ti #tecnoblog #veja #olhardigital #mundodigital #inteligenciaartificial #criar site #criar site curitiba #wiysolutions