Pour Google, il y aurait 129.864.880 livres différents

Google, qui est déterminé à numériser les livres du monde entier, a pensé qu’il serait prudent de savoir combien il y a de livres en tout. Ils ont créé un algorithme spécial, et ont obtenu le chiffre de 129.864.880 livres.

Ce billet sur Inside Google Books blog explique le processus complet. D’abord, il faut déterminer ce qu’est un livre (la notion de Google est assez similaire à l’ensemble des textes qui se voient attribuer un numéro ISBN).

Mais l’ISBN est une norme internationale de numérotation de livres assez récente, qui est apparue dans les années 60 et plutôt dans l’Ouest du monde, il restait donc un grand nombre de livres (les vieux livres et les livres étrangers n’ont pas d’ISBN).

Donc Google s’est passé de l’ISBN et a téléchargé les métadonnées de plus de 150 sources (incluant les « bibliothèques, WorldCat, les catalogues, et les fournisseurs commerciaux » puis a éliminé les doublons. Ils sont arrivés au chiffre de 600 millions. Après avoir éliminé d’autres doublons comme les microfiches, cartes, enregistrements audio et autres non-livres, et après avoir ajusté le nombre pour prendre en compte les publications en série, ils ont trouvé le chiffre de 129.864.880. Combien avez-vous lu de livres ? [Inside Google Books via CrunchGear]

Crédit photo Patrick Gage

Tags :
Dernières Questions sur UberGizmo Help
  1. Ça rappelle la belle nouvelle de Borges sur la Bibliothèque de Babel, texte un peu daté aujourd’hui, mais une superbe puissance évocatrice et philosophique.
    Peut-être qu’on peut le trouver sur GoogleBooks :)
    Bonne nuit !

  2. Le problème, c’est que cette numérisation colossale s’auto-détruit rapidement avec le temps, les supports n’étant pas éternels…
    Toute la mémoire de l’humanité est en jeu, c’est l’angoisse docteur, je vais encore mal dormir cette nuit :-(

  3. @Sbignev

    J’ai peur de ça aussi, mais il arrivera bien un moment ou l’image numérique de tous ces livres ne représentera finalement plus une grande quantité, et pourra donc etre repliquée un peu partout.

    C’est comme pour les photos de famille, quand je suis passé au numérique, j’avais toujours peur de perdre mes fichiers, alors 2 les sauvegardais sur 2 dvd différents.

    Maintenant elles sont sauvegardées aussi en ligne chez les stockeurs en ligne. Et je trouve ça plus sécurisant (sur 2 dd chez moi + un compte picasa, ça commence a etre pas mal)

    Maintenant d’ici à ce que mes arrieres-arrieres petits-enfants y aient acces, rien n’est moins sur.. Alors qu’on est beaucoup a avoir de vieilles photos de famille jaunies qui ont traversé le temps…

  4. @Zbignev Molotov: tu sais que les livres en papier non plus ne sont pas éternels? Ils brûlent, ils pourrissent, ils ne supportent pas l’eau, etc…
    Le numérique a l’avantage de la redondance, je ne pense pas qu’un ouvrage numérique puisse se perdre, étant donné qu’il existe simultanément à de nombreux endroits, sûrement plus que les livres. Et si il est détruit à un endroit, il suffit de le copier à nouveau. Va faire ça avec des livres qui n’existent qu’à 5 exemplaires dans le monde.

  5. Ça ne veux pas dire que l’on numérise des livres que l’on les détruit !
    Google a numériser la terre et l’espace… Ils ne vont pas s’arrêter la !

  6. @Franck971

    C’est vrai que le texte est ce qui prend le moins de mémoire. Mais la quantité de livres est exponentielle, et de nombreux livres sont aussi illustrés, manuels techniques,livres d’art, BD etc.

    Lorsqu’on sauve des photos par exemple sur plusieurs disques durs, ce n’est pas une question de perte, mais de dégradation des données. J’ai des photos qui ne datent que de cinq ans et qui commence déjà à ressembler à de la bouillie de pixels…

  7. @Zbignev

    Ah, ça m’étonne un peu quand même, pour moi c’est tout ou rien, soit le fichier est endommagé et il est illisible, soit il l’est pas et tout va bien.
    Bon maintenant je suis pas un spécialiste des JPG, mais pour un executable ou un zip c’est comme ça que ça marche il me semble (pas sur à 100% néanmoins)

    Par contre, la qualité subjective d’une photo de 5 ans, en 2 ou 3 mpixel baiise d’années en année par rapport aux standard du jour. Ca ne serait pas plutot ça la raison de la dégradation ?

  8. « après avoir ajuster » C’est pas un infinitif mais un participe passé; donc « ajusté »
    Je ne suis pas pointilleux sur l’orthographe, mais cette erreur m’irrite les rétines; et on la retrouve dans grand nombre de vos articles =/ je sais pas moi, vous n’êtes pas là pour faire du français, mais au moins utilisez un correcteur orthographique si vous ne vous relisez pas ! J’adore Gizmodo mais vous avez tendance à trop faire de fautes c’est vraiment dommage =/
    129.864.880 livres… Je suis certain qu’ils en ont oubliés au moins 5 XD

  9. Pfff, on vient ici pour s’informer, pas pour faire une bataille d’orthographe, faites professeur vous serez comblé, mais fichez nous la paix avec vos gamineries…

  10. ué jojimoreau comen ta tro reson, l’ortografe c tro nase xD mdr lol c tro pour les vieux croulans vazy moi jdi 2+2 fon sinq jai peur de rien lol xD mdr tfassons ecrir sa ser tro a rien c tro chelou com truc =p en fait on devré fair que dés smaïlés trop ptdr
    tro mega lol
    mdr
    XD

  11. Je sais bien mais il y aquand même un minimum d’étique à respecter quand on donne de l’information. Et puis c’est surtout que les commentaires sur l’orthographe me gavent, je veux plus en voir XD

  12. @Seb-PJ
    Oui effectivement c’est peu. Google a oubllié de préciser que ce sont 130M de bouquins qui leurs ont été autoriser à être numériser.
    Il faut imaginier le chiffre que ce serait si les éditeurs acceptaient tous cette opération… ^^

  13. Ravioli, quand je reprends quelqu’un sur son orthographe, je m’efforce – sans d’ailleurs toujours y parvenir – de rendre la mienne irréprochable.

    Or dans « Je suis certain qu’il en ont oubliés au moins 5″… il y a une jolie faute. Sauras-tu la corriger ? :)

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Publicité