De nouvelles études stylométriques identifient des motifs récurrents dans la prose de l'IA, y compris un rythme prévisible, un sentiment uniforme et une faible variété lexicale.
Une analyse du Washington Post de 328 744 messages ChatGPT révèle une forte dépendance aux emojis, aux mots favoris et au cliché du pivot “Non seulement X, mais Y.”
Le vocabulaire évolue rapidement, mais des habitudes structurelles telles que la symétrie, la propreté et le parallélisme négatif persistent à travers les générations de modèles.
Le hub d'art, de mode et de divertissement de Decrypt.
Découvrez SCENE
Est-ce que tout est écrit par l'IA de nos jours ? Cet article l'est-il ?
La prolifération des grands modèles de langage a suscité une nouvelle littératie méfiante : les gens peuvent désormais lire un paragraphe et se demander qui—ou quoi—l'a écrit. Cette anxiété existe pour de bonnes raisons.
Des études récentes continuent de montrer que le flot toujours croissant de prose générée par machine diffère de l'écriture humaine de manière de plus en plus subtile, allant du choix de mots spécifiques aux tics structurels facilement identifiables. Ces schémas sont importants car ils affectent bien plus que les essais scolaires et les thèses de recherche ; ils façonnent les communications d'entreprise, le journalisme et les e-mails interpersonnels de manière à troubler la confiance ou l'authenticité.
Les chercheurs qui étudient les techniques de détection stylométrique ont trouvé des motifs cohérents et mesurables dans la variété lexicale, la structure des clauses et les distributions de mots fonctionnels—une empreinte statistique qui persiste à travers les tâches et les incitations. Alors que ces indices diminuent à chaque génération de modèles—OpenAI vient par exemple de corriger sa dépendance excessive aux tirets—la différence entre le contenu généré par IA et celui écrit par des humains reste suffisamment grande pour influencer la manière dont les lecteurs et les éditeurs abordent un texte apparemment poli.
Une récente analyse du Washington Post de 328 744 messages ChatGPT renforce ce point avec des données réelles. Elle a trouvé que le modèle s'appuie fortement sur les emojis, une palette restreinte de mots favoris, et le truc préféré de tout le monde, "le parallélisme négatif : “Ce n'est pas X, c'est Y ;” ou “C'est moins à propos de X et plus à propos de Y.”
Le Post a également mis en garde contre l'excès de confiance : aucun de ces traits ne prouve l'autorité de l'IA ; ils n'augmentent que la probabilité. Cependant, lorsqu'un texte présente plusieurs d'entre eux, le signal devient plus difficile à ignorer.
Voici les cinq signaux les plus forts indiquant qu'un texte a pu être généré par une machine, chacun ancré dans des recherches actuelles.
Les 5 signes les plus courants de l'IA
Parallélisme négatif et contraste simplifié
L'IA abuse de la charnière nette et dramatique de “Ce n'est pas X, c'est Y,” et de son cousin, “pas seulement X, mais Y.” Ces structures créent l'illusion d'une perspicacité tout en fournissant très peu. Des études stylométriques montrent que les sorties des LLM tendent vers des structures de clauses équilibrées et formulaïques plutôt que vers les rythmes inégaux et intuitifs utilisés par les écrivains humains. Dans le jeu de données du Post, des variations de “pas seulement X, mais Y” sont apparues dans environ 6 % de tous les messages de juillet—un pourcentage étonnant pour un seul tic rhétorique.
Structure trop soignée et rythme conspicuement cohérent
Le texte généré par les LLM ressemble souvent à quelque chose écrit par une personne qui révise de manière compulsive mais n'improvise jamais. Les paragraphes suivent des modèles académiques, les transitions sont fluides, et le rythme est presque mathématiquement uniforme, selon une analyse récente publiée dans Nature. L'écriture humaine—même l'écriture soignée—reflet généralement des digressions, des interruptions, des changements de ton et un rythme asymétrique. Un travail stylométrique comparant les sorties des LLM à des nouvelles humaines constate que les modèles présentent une variance beaucoup plus étroite en longueur de phrase et en forme syntaxique.
Ton émotionnel adouci et atténuation excessivement courtoise
L'IA a tendance à sonner amicale d'une manière qu'aucun adulte ne sonne réellement, sauf s'il travaille dans les RH ou le support client. Des phrases comme “Il est compréhensible que…” ou des conclusions qui résument doucement tout (“En fin de compte…”) apparaissent avec une régularité non naturelle. Des examens quantitatifs des méthodes de détection notent que la prose générée par les LLM présente un sentiment plus uniforme et moins de modulations émotionnelles brusques que le texte humain.
Abstractions vagues et vocabulaire “sûr” évolutif
Les modèles s'appuient fortement sur des noms génériques—“écosystème,” “cadre,” “dynamique”—et des verbes comme “exploiter,” “déverrouiller,” ou “naviGate” lorsqu'ils manquent de spécificités. Les études montrent systématiquement une diversité lexicale plus faible et une plus grande nominalisation dans les textes d'IA. Les analyses du Washington Post et de Nature ont également révélé que certains clichés de l'IA ne sont pas statiques : le célèbre “approfondir” a largement disparu, remplacé par de nouveaux favoris comme “cœur” et “moderne.” Cela a de l'importance car le vocabulaire évolue rapidement ; la structure est plus fiable que toute liste de mots fixe.
Clauses équilibrées et formulation conspicuement soignée
Les LLM aiment la symétrie : “Alors que X est vrai, Y est également important,” ou “Que vous soyez débutant ou expert…” Ces structures semblent sûres car elles évitent l'engagement. Des études stylométriques montrent que le texte généré par l'IA utilise trop certains schémas de mots fonctionnels et constructions de clauses à des taux qui diffèrent fortement des références humaines. Les humains ont tendance à être soit plus abrupts, soit plus discursifs ; les machines visent un équilibre diplomatique à chaque fois.
Au fait, la plupart de cet article a été écrit par une IA.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Les 5 plus grands "indices" qu'un texte a été écrit par une IA
En bref
Le hub d'art, de mode et de divertissement de Decrypt.
Découvrez SCENE
Est-ce que tout est écrit par l'IA de nos jours ? Cet article l'est-il ?
La prolifération des grands modèles de langage a suscité une nouvelle littératie méfiante : les gens peuvent désormais lire un paragraphe et se demander qui—ou quoi—l'a écrit. Cette anxiété existe pour de bonnes raisons.
Des études récentes continuent de montrer que le flot toujours croissant de prose générée par machine diffère de l'écriture humaine de manière de plus en plus subtile, allant du choix de mots spécifiques aux tics structurels facilement identifiables. Ces schémas sont importants car ils affectent bien plus que les essais scolaires et les thèses de recherche ; ils façonnent les communications d'entreprise, le journalisme et les e-mails interpersonnels de manière à troubler la confiance ou l'authenticité.
Les chercheurs qui étudient les techniques de détection stylométrique ont trouvé des motifs cohérents et mesurables dans la variété lexicale, la structure des clauses et les distributions de mots fonctionnels—une empreinte statistique qui persiste à travers les tâches et les incitations. Alors que ces indices diminuent à chaque génération de modèles—OpenAI vient par exemple de corriger sa dépendance excessive aux tirets—la différence entre le contenu généré par IA et celui écrit par des humains reste suffisamment grande pour influencer la manière dont les lecteurs et les éditeurs abordent un texte apparemment poli.
Une récente analyse du Washington Post de 328 744 messages ChatGPT renforce ce point avec des données réelles. Elle a trouvé que le modèle s'appuie fortement sur les emojis, une palette restreinte de mots favoris, et le truc préféré de tout le monde, "le parallélisme négatif : “Ce n'est pas X, c'est Y ;” ou “C'est moins à propos de X et plus à propos de Y.”
Le Post a également mis en garde contre l'excès de confiance : aucun de ces traits ne prouve l'autorité de l'IA ; ils n'augmentent que la probabilité. Cependant, lorsqu'un texte présente plusieurs d'entre eux, le signal devient plus difficile à ignorer.
Voici les cinq signaux les plus forts indiquant qu'un texte a pu être généré par une machine, chacun ancré dans des recherches actuelles.
Les 5 signes les plus courants de l'IA
Parallélisme négatif et contraste simplifié
L'IA abuse de la charnière nette et dramatique de “Ce n'est pas X, c'est Y,” et de son cousin, “pas seulement X, mais Y.” Ces structures créent l'illusion d'une perspicacité tout en fournissant très peu. Des études stylométriques montrent que les sorties des LLM tendent vers des structures de clauses équilibrées et formulaïques plutôt que vers les rythmes inégaux et intuitifs utilisés par les écrivains humains. Dans le jeu de données du Post, des variations de “pas seulement X, mais Y” sont apparues dans environ 6 % de tous les messages de juillet—un pourcentage étonnant pour un seul tic rhétorique.
Structure trop soignée et rythme conspicuement cohérent
Le texte généré par les LLM ressemble souvent à quelque chose écrit par une personne qui révise de manière compulsive mais n'improvise jamais. Les paragraphes suivent des modèles académiques, les transitions sont fluides, et le rythme est presque mathématiquement uniforme, selon une analyse récente publiée dans Nature. L'écriture humaine—même l'écriture soignée—reflet généralement des digressions, des interruptions, des changements de ton et un rythme asymétrique. Un travail stylométrique comparant les sorties des LLM à des nouvelles humaines constate que les modèles présentent une variance beaucoup plus étroite en longueur de phrase et en forme syntaxique.
Ton émotionnel adouci et atténuation excessivement courtoise
L'IA a tendance à sonner amicale d'une manière qu'aucun adulte ne sonne réellement, sauf s'il travaille dans les RH ou le support client. Des phrases comme “Il est compréhensible que…” ou des conclusions qui résument doucement tout (“En fin de compte…”) apparaissent avec une régularité non naturelle. Des examens quantitatifs des méthodes de détection notent que la prose générée par les LLM présente un sentiment plus uniforme et moins de modulations émotionnelles brusques que le texte humain.
Abstractions vagues et vocabulaire “sûr” évolutif
Les modèles s'appuient fortement sur des noms génériques—“écosystème,” “cadre,” “dynamique”—et des verbes comme “exploiter,” “déverrouiller,” ou “naviGate” lorsqu'ils manquent de spécificités. Les études montrent systématiquement une diversité lexicale plus faible et une plus grande nominalisation dans les textes d'IA. Les analyses du Washington Post et de Nature ont également révélé que certains clichés de l'IA ne sont pas statiques : le célèbre “approfondir” a largement disparu, remplacé par de nouveaux favoris comme “cœur” et “moderne.” Cela a de l'importance car le vocabulaire évolue rapidement ; la structure est plus fiable que toute liste de mots fixe.
Clauses équilibrées et formulation conspicuement soignée
Les LLM aiment la symétrie : “Alors que X est vrai, Y est également important,” ou “Que vous soyez débutant ou expert…” Ces structures semblent sûres car elles évitent l'engagement. Des études stylométriques montrent que le texte généré par l'IA utilise trop certains schémas de mots fonctionnels et constructions de clauses à des taux qui diffèrent fortement des références humaines. Les humains ont tendance à être soit plus abrupts, soit plus discursifs ; les machines visent un équilibre diplomatique à chaque fois.
Au fait, la plupart de cet article a été écrit par une IA.