Un algorithme capable de déterminer si vous êtes un homme ou une femme

Men women restroom sign in blue with reflectio

Une des nombreuses dérives d’Internet et de son anonymat, c’est de se faire passer pour ce que l’on n’est pas. Dans le cas présent, se faire passer pour une personne du sexe opposé. Ce problème pourrait bien être réglé. Une équipe de chercheurs a récemment développé un algorithme capable de déterminer si vous êtes un homme ou une femme via Twitter.

Les chercheurs de la Mitre Corporation (John Burger, John Henderson, George Kim, et Guido Zarrella) se sont basés sur un panel de personne dont le sexe était connu de façon incontestable. Ils ont ensuite analysé leurs Tweets issus du célèbre réseau Twitter.

Le panel était constitué de 55% de femmes et 45% d’hommes. Donc si l’ordinateur répond « femme » pour chaque utilisateur, son taux de réussite sera de 55%. Or juste en examinant uniquement le nom de la personne, l’algorithme a vu juste à 89%. Évidemment, l’opération n’est pas particulièrement extraordinaire puisque les prénoms précisent presque toujours le sexe de l’individu (d’où des usurpations faciles d’identité).

Les résultats sont devenus intrigants lorsque les chercheurs ont appliqué leur algorithme sur les tweets de ces personnes. Le procédé était mis en place uniquement sur le message (140 caractères), les informations du profil n’entrent pas en compte. Le programme a été capable de deviner le sexe des personnes à 75.8%. Ce qui offre une amélioration de 20 points de pourcentage par rapport au 55% de réussite de base.

Même en prenant un unique tweet, le programme de la Mitre Corporation permet de définir le genre à 65.9% du temps, soit une amélioration de 10 points de pourcentage.

Au départ, il faut reconnaître que c’est un peu effrayant. Comment un logiciel peut-il déterminer notre sexe avec seulement 140 caractères ? En réalité, ce n’est que de la science, et précisément de la « sociolinguistique ».

Cette branche constate simplement qu’à personne différente, langage différent. Au départ la sociolinguistique était conçue pour analyser les différences de comportement dans la vie réelle. Cette science a été adaptée au cyber espace. Finalement, le procédé est assez simple, si le tweet comporte un smiley ou un point d’exclamation, il y a toutes les chances que le message provienne d’une femme.

D’autres expériences de ce type ont déjà été mises en place. En 2010, Delip Rao avait identifié des traits typiques caractérisant quasiment inévitablement les sexes. Les femmes utilisent plus d’émoticônes (( XD, ^^ …), d’abréviations (Lol, WTF, OMG …), de lettres répétées (looooooool, nooooon …) et également d’expressions affectives (bisous et autres démonstrations passionnelles …). En revanche, les termes « http » ou « google » sont associés à des hommes.

Évidemment, une telle expérience se base sur des stéréotypes. Toutes les femmes ne vont pas s’exprimer de cette façon. Mais si l’algorithme reconnait tel ou tel mot, il l’associera à un sexe de façon catégorique. Rappelons que le taux de réussite est quand même de 75.8%.

Les chercheurs reconnaissent eux-mêmes que les résultats peuvent être biaisés. En effet, ils ne considèrent que la culture des réseaux sociaux dans l’analyse des tweets. Cela reste assez réducteur au regard d’une personnalité peut-être plus complexe.

Au-delà de l’utilisation des clichés, le taux de réussite est suffisamment élevé pour trouver des utilités à cet algorithme. On pense de suite à une exploitation mercantile, un tel ciblage n’est pas négligeable pour les industriels. D’un point de vue plus positif on imagine qu’il pourrait aider à détecter les imposteurs du web, et peut-être limiter certaines dérives.

:) !

[Gizmodo]

© shuvro ghose – Fotolia.com

Tags :
Dernières Questions sur UberGizmo Help
    1. 75,8% de réussite — sachant que prendre une réponse au hasard, c’est loin d’être un bon score (bien que cela dépende du domaine bien sur).

      Sachant que le pseudo donne 89% de bonne réponses — qui faudrait conclure que:
      « Cet algorithme est moins performent que l’analyse directe du pseudo — il est donc complètement inutile pour vérifier « ‘l’usurpation de sexe’).

      « Florence » (la personne qui a écrit cet article) devrait essayer de mieux comprendre les faits — et de moins faire dans le sensationnel.

  1. Je leur suggère aussi les mots comme « sac », « solde », « shopping », « chaussure » et « string » pour catégoriser une femme

  2. L’art du trollage sur les sites de chat, c’est justement d’imiter le sexe opposé, sans me balancer des fleurs :
    – Les femmes utilisent plus d’émoticônes (( XD, ^^ …)
    – lettres répétées (looooooool, nooooon …)
    – d’expressions affectives (bisous et autres démonstrations passionnelles …)
    je le savais ça, et n’importe quelle personne un temps soit peu observatrice le remarquerait également…

    Bon troll à tous !!! ^^ (mince tiiiiiens)

  3. Il y a 10 ans environ, des gars avaient sois disant trouvé un algorithme capable de différencier les hommes des femmes sur msn et irc;
    Parce que les femmes parlaient plus à partir de « je me moi » et les hommes avec des verbes d’action.

  4. Si un homme decide de se faire passer pour une femme, en modifiant sa facon d’ecrire, s’il est pas trop con, leur truc n’y verra certainement que du feu.

  5. les chiffres et les femmes, ca ne va pas ensemble ! donc cet article est rédigé par une femme attention, troll !)

    55% de femmes dans le panel n’indique pas un taux de réussite de 55%. Si c’était le cas, les hommes feraient bien de se changer de sexe immédiatement.
    En revanche, si le programme est capable de déterminer le sexe 75% du temps, ca veut dire qu’il a raison 3 fois sur 4.
    Mais définir le genre seulement 65% du temps, ca revient presque à 1 fois sur 2. Et là, c’est absolument nul comme résultat, parce que statistiquement, on y arrive déjà en fermant les yeux.

    Donc que fait ce programme ? il a des capacités à déterminer le genre du rédacteur, mais ce n’est pas parfait !!

    1. Si 55% du panel sont des femmes, et que on dit femme a chaque question, kn a bien 55% de taux de réussites (dans le cas d’un panel infini ou suffisament grand bien sur)

      65% n’est pas un si mauvais résultat puisqu’il est de15% supérieur a une chance sur deux qui est de 50%

  6. Ce que je constate surtout, c’est qu’à part faire passer les femmes pour de pauvres connes, ça ne nous avance pas à grand-chose… Le cliché de la pisseuse incapable de s’exprimer autrement que comme une gamine de 7 ans, je suis désolé mais je n’adhère pas du tout.

    PS : je suis un homme, si certains se demandent.

  7. Je ne pense pas que ce soit une bonne idée d’utiliser un algorithme dégageant une tendance génèrale pour identifier les usurpations dangereuses et exceptionnelles.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Publicité