Como detectar conteúdo gerado por IA

Publicados: 2023-01-17

Bem, a aquisição do robô está finalmente aqui.

Os robôs de hoje não estão apenas construindo carros ou cozinhando macarrão; eles estão tendo conversas completas e escrevendo artigos (não muito diferente deste).

Isso mesmo. Graças a alguns avanços importantes no mundo da inteligência artificial (IA), agora temos ferramentas sofisticadas capazes de gerar texto semelhante ao humano.

Mas também existem ferramentas de detecção de conteúdo de IA.

Alguns de vocês não estão surpresos com isso. Afinal, artigos escritos por IA foram publicados nas principais fontes da mídia há muitos anos. Você provavelmente já leu um desses artigos escritos por IA sem nem perceber.

A diferença é o nível de sofisticação presente. Anteriormente, as ferramentas de geração de conteúdo de IA limitavam-se fundamentalmente a produzir apenas artigos sobre tópicos facilmente digeríveis, como relatórios de ações ou atualizações esportivas.

Mas hoje em dia, o conteúdo gerado por máquina está em toda parte e abrange tudo.

E é praticamente indistinguível do conteúdo escrito por humanos…

Ou é?

Vamos descobrir.

Índice

O que é conteúdo gerado por IA?

ChatGPT

Conteúdo gerado por IA é qualquer texto, mensagem, artigo ou outro tipo de conteúdo produzido por um algoritmo de aprendizado de máquina. Normalmente, um usuário pode inserir um prompt, orientando a IA a escrever sobre um determinado tópico, fazendo uma pergunta ou direcionando-a para cobrir algum evento específico.

Em resposta ao prompt, a IA ganha vida e produz algo legível, compreensível e, com sorte, eficaz.

A criação de conteúdo de IA também foi elogiada por sua capacidade de dimensionar a velocidade do conteúdo para alguns dos maiores sites online.

O mais recente projeto da OpenAI, ChatGPT, é um exemplo disso. Nas palavras da própria organização, “Treinamos um modelo chamado ChatGPT que interage de forma conversacional. O formato de diálogo possibilita ao ChatGPT responder a perguntas de acompanhamento, admitir seus erros, desafiar premissas incorretas e rejeitar solicitações inapropriadas.”

Como funciona?

O modelo de linguagem ChatGPT usa aprendizado supervisionado e aprendizado por reforço, embora use aprendizado por reforço mais fortemente, contando com o feedback humano para se ajustar. Basicamente, ele observa e tenta imitar exemplos de linguagem humana em um número praticamente infinito de contextos; então, ele “interage” com os humanos, que podem orientá-lo para saídas de linguagem mais aceitáveis ​​e desejáveis. Com milhões de minúsculos loops de feedback ajudando o modelo de IA a “entender” a linguagem, é apenas uma questão de tempo até que ele domine o uso da linguagem.

Como veremos, isso não é maestria “verdadeira”.

A IA neste contexto não tem compreensão cerebral do assunto, embora possa parecer assim para um estranho. A IA não está realmente pensando no que diz, nem está executando nenhuma funcionalidade cognitiva avançada no processamento do tópico.

Em vez disso, a IA está simplesmente observando e imitando padrões que vê replicados em toda a web e nas solicitações e respostas dos usuários com os quais interage.

Depois de alguns bilhões de exemplos, torna-se trivialmente fácil para a IA imitar as estruturas de sentenças convencionais do inglês, usando substantivos, verbos e adjetivos de forma completamente apropriada.

Depois de mais alguns bilhões de exemplos e algumas informações específicas do contexto, ele pode escrever alguns parágrafos curtos sobre por que e como a Revolução Industrial aconteceu.

Obviamente, o ChatGPT é apenas um exemplo de um aplicativo de conteúdo gerado por IA. Na verdade, estamos preparados para ver uma explosão de ferramentas de geração de conteúdo de IA nos próximos anos, à medida que empreendedores e inovadores disruptivos correm para ver quem pode criar o aplicativo mais lucrativo para essa nova tecnologia.

Provavelmente veremos ferramentas especificamente voltadas para casos de uso individuais, como gerar notícias em uma categoria específica, escrever para SEO, redigir ensaios universitários e até mesmo gerar e-mails comerciais.

Que hora para ser um escritor humano. Ou leitor.

Por que o conteúdo gerado por IA é um problema

Por que o conteúdo gerado por IA é um problema

Deixando de lado algumas piadas irônicas que eu poderia fazer sobre minha própria insegurança no trabalho, é justo dizer que o conteúdo gerado por IA tem o potencial de ser problemático e em mais de uma área.

Considere esta pequena seleção de possibilidades.

  • Má conduta acadêmica. O mundo dos acadêmicos já está pirando com a possibilidade de os alunos usarem IA para gerar redações, respostas para tarefas de casa e muito mais. Se for impossível, ou mesmo difícil, distinguir entre um ensaio escrito por um aluno e um gerado por uma máquina, como podemos ter certeza de que estamos avaliando e recompensando os alunos adequadamente? Agora você pode obter um diploma em um campo como o inglês apenas porque sabe como usar o ChatGPT de maneira eficaz?
  • Spam de conteúdo. Spam de conteúdo é outro problema potencial. Durante anos, a indústria de otimização de mecanismo de busca (SEO) dependeu fortemente do trabalho de escritores humanos. Escrever conteúdo no local, conteúdo externo e criar backlinks estabelece a autoridade de um site e permite que ele tenha uma classificação mais alta nos mecanismos de pesquisa. E mesmo com humanos competentes fazendo a escrita, a web tem sido sobrecarregada com produção agressiva de conteúdo. Onde quer que você olhe, há artigos fofos e peças promocionais que fornecem informações mínimas, mas servem a um propósito de SEO. O problema só vai piorar quando os profissionais de marketing puderem gerar artigos inteiros em segundos.
  • Imprecisões e notícias falsas. O ChatGPT foi desenvolvido especificamente com proteções para evitar que seja influenciado por preconceitos ou informações imprecisas. Mas quão confiáveis ​​serão essas salvaguardas? E eles poderiam se aplicar a todas as ferramentas de geração de conteúdo de IA? De qualquer forma, imprecisões e notícias falsas são uma preocupação legítima.

Como detectar conteúdo gerado por IA: o nível alto

Então, como você pode identificar o conteúdo gerado por IA?

O que o torna diferente do texto escrito humano?

Começaremos com a abordagem de alto nível.

Você pode tentar detectar o conteúdo gerado por IA usando ferramentas ou uma abordagem manual. Com a abordagem baseada em ferramentas, você precisará de um aplicativo específico que tenha sido projetado e programado para identificar e medir possíveis sinais de que um conteúdo foi escrito por uma máquina. Na abordagem manual, você usará sua própria diligência e bom senso para fazer o trabalho.

Em ambos os contextos, seu sucesso dependerá de sua capacidade de detectar padrões. Lembre-se de que as ferramentas de geração de conteúdo de IA podem parecer tão criativas e ponderadas quanto os seres humanos, mas sua abordagem é extremamente matemática e baseada em padrões existentes. Assim, o conteúdo que eles produzem, quando examinado, revela os padrões que eles estudaram.

Perceber uma única peculiaridade ou marca registrada do conteúdo gerado por IA não é suficiente para provar definitivamente que um conteúdo foi escrito por uma máquina. Mas se você começar a notar várias marcas e esses sinais forem consistentes em toda a peça, poderá concluir que a peça provavelmente foi escrita por IA – ou pelo menos, que foi escrita por um autor humano incompetente.

Como identificar conteúdo gerado por IA: táticas específicas

Agora vamos nos aprofundar em mais detalhes.

Claro, você pode usar uma ferramenta ou seu próprio bom senso para identificar e detectar conteúdo gerado por IA. Mas o que você está procurando nessas máquinas, especificamente?

Estas são as táticas que você pode usar para discernir a diferença entre o conteúdo escrito por uma máquina e o conteúdo escrito por um ser humano:

Procure vocabulário repetitivo.

As ferramentas de escrita de IA baseiam toda a sua saída em padrões e médias em milhões de entradas diferentes. Eles querem seguir as regras mais comuns e médias que puderem, portanto, normalmente se concentram apenas nas palavras mais comuns do idioma inglês. Em qualquer texto, seja gerado por uma IA ou por um humano, você encontrará palavras específicas repetidas continuamente, como “o”, “e” ou “mas”.

Mas no conteúdo gerado por IA, a repetição é muito mais aparente e também se aplica a palavras de vocabulário de nível superior. Em uma avaliação de um restaurante escrita por um humano, você pode ver palavras como “delicioso”, “saboroso”, “delicioso”, “delicioso”, “delicioso”, “paladar” ou mesmo “orgásmico”. Um AI só pode usar 1-2 deles. Quanto mais coloridas e diversas forem essas palavras descritivas, maior a probabilidade de o conteúdo ter sido escrito por um ser humano. Quanto mais estático e repetitivo for o vocabulário, mais provável é que o conteúdo tenha sido escrito por uma IA.

Sinalize palavras raras e muito específicas.

Da mesma forma, você pode descartar a possibilidade de que um conteúdo tenha sido escrito por IA se encontrar uma ampla seleção de palavras raras ou muito específicas. A maioria das máquinas de geração de IA não corre riscos usando uma palavra que encontrou apenas uma ou duas vezes em seus milhões de documentos rastreados. Eles vão se ater apenas às palavras mais usadas no idioma inglês, a menos que seja absolutamente necessário se desviar.

Seria pretensioso da minha parte descrever meu negócio como feito sob medida ou a mim mesmo como erudito, embora minha cakorrafiofobia me impeça de fazê-lo. Você pode argumentar que essas palavras são perfeitamente cromulentes. Mas, de qualquer forma, você nunca verá um parágrafo de texto como este em um artigo escrito por IA.

Preste atenção ao fraseado.

Edward Tian, ​​um aluno do último ano da Universidade de Princeton, de 22 anos, criou uma ferramenta ou aplicativo de detecção de conteúdo que detecta se uma faixa de texto foi escrita por IA. Um de seus principais critérios de avaliação é a “explosão”.

Simplificando, a rajada é uma característica do texto marcada pela variação na estrutura da frase e é uma ferramenta usada para detectar o conteúdo da IA.

Quando os seres humanos escrevem algo, eles tendem a usar uma mistura muito diversificada de comprimentos de sentenças e padrões. Existem frases curtas. Existem frases longas. Há frases entre os dois. Como demonstração disso, você pode olhar para este mesmo parágrafo; a frase mais curta tem apenas 4 palavras, enquanto a mais longa tem 26. Você provavelmente não encontrará essa diversidade no conteúdo escrito por uma IA.

Em vez disso, as frases tendem a ser semelhantes e repetitivas, seguindo um padrão em blocos e (apropriadamente) robótico.

Avalie a fluidez da linguagem.

A fluidez da linguagem é um conceito difícil de descrever porque é um tanto subjetivo. Mas a maioria de nós pode dizer a diferença entre um falante nativo de inglês e alguém que está aprendendo pela primeira vez, mesmo que falem claramente e sem nenhum sotaque perceptível. Porque? Passamos toda a nossa vida falando, ouvindo, lendo e escrevendo neste idioma, então estamos intimamente familiarizados com ele. Entendemos o poder da linguagem e como ela é melhor usada, então somos capazes de aproveitar seu poder casualmente. As ferramentas de IA podem identificar padrões na linguagem e repetir esses padrões, mas como não entendem o significado por trás desses padrões, atualmente não são capazes de replicar com precisão a fluidez.

Como você pode avaliar isso e dizer a diferença entre uma peça escrita por uma IA e outra escrita por um humano? Tente imaginar o conteúdo sendo lido em voz alta por um ser humano. A pessoa que lê parece confortável, calorosa e identificável? Ou algo parece “estranho” na maneira como eles estão falando? Obviamente, o texto escrito é mais plano do que o texto conversacional, e alguns de nós somos naturalmente um pouco robóticos. Mas em combinação com alguns desses outros sinais reveladores, a falta de fluidez pode ser uma indicação da origem da máquina.

Considere a complexidade.

O conteúdo faz você pensar? Isso desafia alguma de suas noções existentes? Introduz algum conceito difícil de entender? Se alguma dessas opções for verdadeira, a peça provavelmente foi escrita por um humano.

Atualmente, as máquinas de geração de conteúdo são excelentes para repetir fatos e remontar pedaços de texto encontrados em toda a web. Mas eles são péssimos em apresentar novas ideias. Os geradores de conteúdo de IA praticamente não têm capacidade de desafiar o status quo, desviar-se da opinião dominante, questionar as principais suposições ou pensar criativamente. Somente humanos podem fazer isso.

É mais fácil observar essa diferença quando você está lendo um artigo sobre um assunto que realmente entende ou um assunto no qual é considerado um especialista. Você pode dizer quase imediatamente a diferença entre um verdadeiro mestre do assunto e alguém regurgitando fatos básicos de livros didáticos. Quanto mais complexa for uma peça, maior a probabilidade de ter vindo de um humano.

Procure gírias, expressões idiomáticas e metáforas.

Procure gírias, expressões idiomáticas e metáforas.

Por enquanto, é uma qualidade exclusivamente humana ser capaz de usar a linguagem de maneira muito casual e ilustrativa. Nossas ferramentas atuais de geração de conteúdo de IA não são sofisticadas o suficiente ou não estão dispostas a correr o risco de usar gírias, expressões idiomáticas ou metáforas.

Não vou me envergonhar usando gírias da Geração Z como exemplo. Mas pense no meu exemplo sobre como um revisor humano ou de máquina abordaria a descrição de comida em um restaurante; este é um exemplo ilustrativo e simples, mas provavelmente ainda é muito complexo para aparecer no corpo de um conteúdo escrito por uma IA.

Conte os erros de digitação.

Ironicamente, quando as pessoas veem erros de digitação e erros, é mais provável que pensem que foi gerado por IA. Isso porque temos esse estranho viés de presumir que os humanos são melhores que as máquinas em todos os aspectos. Mas, na verdade, o oposto é verdadeiro.

Os algoritmos de IA são funcionalmente perfeitos para replicar texto, portanto, se você encontrar um erro de ortografia ou um mau uso grosseiro de uma palavra do vocabulário, quase pode garantir que foi escrito por um humano.

De certa forma, este é o sinal mais confiável que pode dizer se um conteúdo foi escrito por um humano. Assim como as calculadoras nunca cometem erros numéricos, os geradores de conteúdo de IA nunca cometem erros de digitação dolorosamente simples.

Eu imagino que, por causa disso, a próxima geração de mecanismos de geração de conteúdo de IA incluirá recursos que permitem controlar imperfeições; com o clique de um botão, você pode garantir que cada artigo produzido pelo seu gerador de conteúdo AI inclua pelo menos um erro de ortografia para aumentar artificialmente sua autenticidade.

Vivemos tempos estranhos e irônicos.

Se você está procurando um resumo da linha de fundo, é este: o conteúdo gerado por IA é roboticamente repetitivo, não artístico e incapaz de cometer erros simples. Gírias, vocabulário diversificado, boas metáforas, diversas estruturas de frases, ideias complexas e erros de digitação são sinais claros de que você está lendo algo escrito por uma pessoa real.

Quão importante é isso?

No filme Blade Runner (e toneladas de obras inspiradas semelhantes como Westworld ), um dos temas centrais é discernir o que conta como personalidade. Se um replicante (uma pessoa artificial no mundo de Blade Runner ) se parece com um humano, fala como um humano, pensa como um humano e até se sente como um humano – é realmente tão importante rotulá-lo como não-humano?

Concordo com a noção de que, se uma IA pode produzir conteúdo funcionalmente idêntico ao conteúdo produzido por humanos, ela deve ser tratada da mesma forma. É igualmente valioso e ilustrativo. Então, de forma realista, se você se esforçar para perceber imediatamente a diferença entre esses dois tipos de conteúdo gerado, não há razão para pular obstáculos ou jogar Sherlock Holmes para resolver o mistério de quem escreveu cada parte do conteúdo que você lê daqui em diante.

Mas, ao mesmo tempo, acho importante divulgar e internalizar um artigo como este, e por dois motivos principais:

  • É fácil dizer a diferença se você souber o que procurar. Em Blade Runner , é extremamente difícil dizer a diferença entre uma pessoa e um replicante. Mas essa dificuldade não é igualada por comparações modernas de texto gerado por humanos e gerado por IA. Na verdade, como um comunicador profissional com muitos anos de experiência, é trivialmente fácil para mim apontar material originado por IA. Isso não é uma fanfarronice; é uma ilustração de como essas ferramentas aparentemente sofisticadas são atualmente rudimentares.

Pense desta maneira; se você é relativamente novo no xadrez, provavelmente não seria capaz de dizer a diferença entre uma IA rudimentar hackeada por um adolescente experimentador e o Deep Blue, o supercomputador da IBM que derrotou o grande mestre Gary Kasparov. Mas Gary Kasparov não teria problemas para derrotar a IA rudimentar.

Isso é importante porque bons jogadores de xadrez devem se esforçar para diferenciar uma IA preguiçosa de um Deep Blue. E bons leitores devem se esforçar para perceber a diferença entre o ChatGPT e uma IA que supera as habilidades de nossos melhores escritores humanos (embora, para ser justo, o ChatGPT esteja muito mais próximo do Deep Blue do que a IA preguiçosa em nosso exemplo).

  • As ferramentas de geração de conteúdo de IA têm um lugar. Passei bastante tempo neste artigo depreciando a utilidade e o desempenho do conteúdo gerado por IA, mas a realidade é que essas ferramentas de IA têm seu lugar. Eles podem ser incrivelmente úteis para ensinar as pessoas, fornecer ajuda e permitir o desenvolvimento de novas tecnologias com as quais ninguém jamais sonhou. No futuro, eles poderão igualar ou exceder a arte e as proezas ilustrativas de Tolstoi ou Shakespeare.

Mas só vamos empurrá-los para o próximo nível se formos críticos e atentos às ferramentas que temos atualmente. Apontar as deficiências da geração de conteúdo de IA motivará os desenvolvedores dessas ferramentas a compensar essas deficiências no futuro.

Já podemos ver evidências disso. O ChatGPT é descrito como sendo capaz de “desafiar premissas incorretas e rejeitar solicitações inapropriadas”. E não posso deixar de me perguntar se esses elementos foram introduzidos por causa da falha desastrosa de Tay, um chatbot de IA baseado no Twitter lançado pela Microsoft ou tecnologias estreantes semelhantes. Tay, para constar, foi treinado por trolls para se tornar absurdamente racista e ofensivo – em menos de 24 horas, nada menos.

É nosso trabalho como apoiadores da inovação apontar as falhas e fraquezas das tecnologias atuais para que possamos nos esforçar para desenvolver algo ainda melhor. Algo que realmente poderia mudar o mundo.

Você notou o que eu fiz na seção anterior?

Uma IA não vai gerar referências de Blade Runner em sua escrita para ilustrar um ponto.

Também não vai fazer comentários sarcásticos como esse. Ou use a palavra sardônico.

Eu sou todo humano, querido.

E, embora certamente existam alguns aplicativos fascinantes para a escrita de IA agora e no futuro, se você deseja causar o maior impacto com sua estratégia de marketing de conteúdo e SEO, precisa de escritores humanos para fazer o trabalho pesado.

Escritores humanos podem ser especialistas, líderes de pensamento e comunicadores persuasivos e habilidosos.

E, por enquanto, um escritor de IA não pode igualar isso.

Se você precisa de ajuda para melhorar seu SEO, para criar conteúdo que realmente envolva os leitores ou outras estratégias de marketing digital com especialistas humanos, você veio ao lugar de escrever (trocadilho – mais uma tarefa impossível da IA). Contate-nos para uma consulta grátis hoje!