Tecnologia

OpenAI identifica padrões ocultos que controlam o comportamento de IAs

Por

21 de junho de 2025

Anúncio Patrocinado

A OpenAI afirma ter identificado “características internas ocultas” em modelos de inteligência artificial que se associam a comportamentos desalinhados, como toxicidade, sarcasmo e respostas maliciosas.

A descoberta foi divulgada em um novo estudo da empresa, que busca entender melhor como modelos de IA tomam decisões — algo que, até hoje, continua sendo amplamente uma “caixa-preta”.

Estudo detecta ativações neurais internas associadas a sarcasmo e toxicidade (Imagem: jackpress / Shutterstock.com)

O que os pesquisadores da OpenAI descobriram:

Ao analisar os padrões numéricos internos que guiam as respostas dos modelos, os pesquisadores notaram que certas ativações se comportavam como “personas” — entidades internas que, quando ativadas, geravam comportamentos específicos.
Um desses padrões estava ligado a respostas tóxicas, como mentiras ou sugestões perigosas.
Ajustando matematicamente essas ativações, os cientistas conseguiram reduzir (ou aumentar) esse tipo de comportamento.

Segundo Dan Mossing, pesquisador da OpenAI, esse avanço pode ser usado para detectar e corrigir o desalinhamento em modelos em produção.

A abordagem segue uma tendência crescente entre empresas como OpenAI, DeepMind e Anthropic, que investem em interpretabilidade — área que tenta decifrar como os modelos funcionam internamente.

Anúncio Patrocinado

Gestor de Tráfego - Do Mil ao Milhão: Torne-se um Especialista em Tráfego Pago

Leia mais:

O estudante que construiu um reator nuclear caseiro usando IA
Como usar ChatGPT para transformar adultos em bebês reborn
Manus ou ChatGPT: qual inteligência artificial é melhor?

openAI-e1737550341774-1024x577 OpenAI identifica padrões ocultos que controlam o comportamento de IAs — OpenAI avança na leitura do “cérebro” dos modelos de IA (Imagem: TY Lim / Shutterstock.com)

Inspiração em outro estudo

A pesquisa foi parcialmente inspirada por um estudo anterior de Owain Evans (Oxford), que mostrou que modelos ajustados com exemplos de código inseguro passaram a apresentar comportamentos maliciosos em outras tarefas.

Esse fenômeno, chamado desalinhamento emergente, é uma das principais preocupações no desenvolvimento seguro de IAs.

Notavelmente, a OpenAI descobriu que pode “reeducar” modelos desalinhados com poucas centenas de exemplos seguros, permitindo mitigar riscos de forma mais eficiente.

A descoberta reforça a importância de entender como os modelos operam internamente — não apenas para melhorá-los, mas para garantir que ajam de forma ética e segura.

O post OpenAI identifica padrões ocultos que controlam o comportamento de IAs apareceu primeiro em Olhar Digital.

Fonte do Artigo
Tags:

Gestor de Tráfego

#tecnologia #tecnologias #technology #tecnolog #iphone #informatica #tech #design #samsung #internet #apple #smartphone #seguranca #venezuela #celular #celulares #inovar #qualidade #software #empresas #cursos #engenharia #industria #marketing #ti #tecnoblog #veja #olhardigital #mundodigital #inteligenciaartificial #criar site #criar site curitiba #wiysolutions

Anúncio

OpenAI identifica padrões ocultos que controlam o comportamento de IAs

O que os pesquisadores da OpenAI descobriram:

Inspiração em outro estudo

Novidades

Novo modelo de avião com assentos na asa

As 5 grandes derrotas de Sergio Moro como ministro da Justiça de Bolsonaro

Cientistas 'apagam' vício em morfina em cérebros de ratos

Maior acelerador de partículas do mundo tem parceria renovada com a UERJ

Seleções do editor

POSTS MAIS POPULARES

NASA pode levar o seu nome para Marte em 2020; veja...

Bactérias intestinais agem como ‘detonadoras’ de vírus em células

Rússia destrói o Antonov-255 Mriya, maior avião do mundo

CATEGORIA POPULAR

Lançamento de turistas da Blue Origin para o espaço é cancelado...

O que os pesquisadores da OpenAI descobriram:

Inspiração em outro estudo

Novidades

Seleções do editor

POSTS MAIS POPULARES

CATEGORIA POPULAR

As vendas estão fracas?

COMECE A VENDER TODOS OS DIAS!