Acontece que na cena em andamento, a interação social é melhor do que os modelos atuais de IA-depende do sistema de IA para carros autônomos, robôs úteis e outras tecnologias que navegam no mundo real.
O estudo, liderado por cientistas da Universidade de Johns Hopkins, descobriu que os sistemas de inteligência artificial falham em entender a mobilidade social e o contexto necessários para interagir com as pessoas e sugerir que o problema pode ser fundamental na infraestrutura dos sistemas de IA.
“Por exemplo, um veículo autônomo precisa ser reconhecido por IA, motoristas e pedestres humanos. Você quer que qualquer pedestre comece a caminhar de uma maneira, ou se duas pessoas estão conversando sobre atravessar a rua”, diz Laila Isic, professora assistente da Universidade de John’s Hopkins. “Sempre que você quiser entrar em contato com um homem da IA, você quer que ele seja capaz de reconhecer o que as pessoas estão fazendo eu
Durante o estudo, a estudante de doutorado Kathy Garcia, uma estudante de doutorado que trabalha no Laboratório de Esik, apresentará os resultados da pesquisa na Conferência Internacional sobre Apresentação de Aprendizagem em 25 de abril.
Para determinar como os modelos de IA medem os modelos de IA em comparação com a percepção humana, os pesquisadores pediram aos participantes humanos que examinassem os três segundos de videoclipe e os recursos para entender a interação social em escala de um a cinco. Nos clipes, as pessoas conversam entre si, além de realizar atividades ou realizar atividades independentes.
Os pesquisadores então pediram a mais de 350 modelos de idiomas, vídeos e imagens de IA sobre como as pessoas julgavam vídeos e respondiam como seus cérebros deveriam assistir. Para grandes modelos de idiomas, os pesquisadores avaliaram as legendas curtas e escritas em humanos.
Os participantes, na maioria das partes, concordaram entre si em todas as perguntas; Modelos de IA, tamanho ou não o fizeram, independentemente dos dados treinados. Os modelos de vídeo não conseguiram descrever o que as pessoas estão fazendo nos vídeos. Mesmo os modelos da imagem que receberam uma série de quadros constantes para analisar não podiam prever de maneira confiável se as pessoas estão se comunicando. Os modelos de idiomas foram melhores na previsão do comportamento humano, enquanto os modelos de vídeo eram melhores no cérebro para prever atividades neurológicas.
Os resultados são intensamente contrários ao sucesso da IA na leitura de imagens de aço, dizem os pesquisadores.
“Não é apenas uma imagem para ver e identificar objetos e rostos, que é o primeiro passo, que contribuiu muito em nossa IA, mas não é a vida real.
Os pesquisadores acreditam que isso ocorre porque as redes neurais de IA foram inspiradas na infraestrutura do cérebro que processou as imagens estáveis, que são diferentes dos campos cerebrais que processam o cenário social dinâmico.
“Existem muitas deficiências aqui, mas nenhum dos grandes modelos de IA da Tekway corresponde à reação do cérebro humano e do comportamento na cena em todo o quadro, como fazem para uma cena constante”, disse Isik. “Acho que as pessoas têm algo básico sobre a falta desses modelos”.