Statistically Improbable Phrases

Les Statistically Improbable Phrases (SIPs) , de l'anglais signifiant littéralement « expressions statistiquement improbables », sont un outil statistique lancé en 2005 par le site web de commerce en ligne Amazon pour son programme d'indexation de contenu de livres Search Inside! ; il consiste à comparer le texte de tous les livres indexés, dans le but de trouver pour chacun d'eux un ensemble de syntagmes ou d'expressions qui apparaissent plus souvent que dans les autres livres.

Explication

L'intérêt d'identifier ces passages est qu'ils sont considérés comme les plus significatifs et les plus représentatifs du livre, constituant l'équivalent de résumés ou de mots clés, en ayant l'avantage d'être déterminés de manière automatisée^[1].

Ces métadonnées sont présentées à l'internaute sur les fiches de chaque livre. Chaque SIP y est accompagnée d'un hyperlien qui permet, au visiteur qui le suit, de retrouver les autres livres ayant la même expression parmi leurs SIPs^[2]. En effet, les ouvrages aux SIPs identiques abordent vraisemblablement les mêmes thèmes^[3] et sont donc susceptibles d'intéresser aussi le visiteur.

Bill Carr, vice-président exécutif pour les médias numériques chez Amazon, souligne que ce système de recommandation met en avant des ouvrages qui seraient difficiles à trouver sans ça, car faisant partie de la longue traîne du catalogue^[4].

L'utilité de cette fonctionnalité auprès des visiteurs n'est pas connue avec certitude^[5]. Benjamin Vershbow, chercheur à l'Institute for the Future of the Book, y voit un équivalent automatisé des tags qui sont à la base du Web 2.0, mais estime que le système fonctionne mieux pour les travaux de non-fiction que pour les romans^[4].

Algorithme

L'algorithme utilisé n'est pas rendu public^[6]. Il semble néanmoins que les SIPs de chaque livre soient redéfinies à mesure que de nouveaux livres sont ajoutés à la base^[7].

Autres utilisations

Amazon envisage diverses autres manières de mettre cet outil à profit, par exemple en l'intégrant dans le système de recommandation qui existe déjà, ou pour répondre à des questions en utilisant des textes faisant autorité dans le domaine^[5]. Par ailleurs des chercheurs ont proposé d'utiliser ce système pour identifier les entrées en double dans MEDLINE, une base de données bibliographiques indexant des publications scientifiques en biologie et médecine^[6]. Une bibliothécaire a proposé de l'améliorer en croisant la classification avec l'encyclopédie en ligne Wikipédia^[8].

D'autres ont suggéré son utilisation pour la détection du plagiat^[9].

Références

↑ (en) « What are Statistically Improbable Phrases? », sur Amazon.com (version du 21 avril 2016 sur Internet Archive).
↑ (en) William Cleland, Best Practices in Digital Asset Management for Electronic Texts in Academic Research Libraries, Graduate College of Bowling Green, août 2007, 68 p. (S2CID 167889507, lire en ligne [PDF]), p. 20.
↑ (en) Brian Lavoie, Lorcan Dempsey et Lynn Silipigni Connaway, « Making Data Work Harder », Library Journal, 15 janvier 2006 (version du 7 février 2006 sur Internet Archive).
Singel 2005.
(en) Steve Weber, Plug Your Book : Online Book Marketing for Authors, Falls Church, Weber Books, 2007, 204 p. (ISBN 978-0-9772406-1-6), p. 128–129 [lire en ligne].
Errami et al. 2010.
↑ (en) Heyward Ehrlich, « Poe in Cyberspace : A Complete Poe Library—Cyberspace Dream? », The Edgar Allan Poe Review, vol. VII, n^o 1,‎ printemps 2006, p. 83–92 (JSTOR 41506253).
↑ Yelton 2011.
↑ (en) Jonathan Bailey, « How Long Should a Statistically Improbably Phrase Be? », sur plagiarismtoday.com, 3 juillet 2012.

Voir aussi

Bibliographie

Sources académiques :

(en) Alexandre Boulgakov et Giordon Stark, « SIPping Wikipedia : Using Statistically Improbable Phrases (SIPs) to Determine Document Relatedness » [PDF], sur courses.cms.caltech.edu, California Institute of Technology.
(en) Mikhail Bautin et Michael Hart, Significant Phrases Detection, Stony Brook University, Department of Computer Science, 2006, 14 p. (S2CID 14782549, lire en ligne [PDF]).
(en) Mounir Errami, Zhaohui Sun, Angela C. George, Tara C. Long, Michael A. Skinner, Jonathan D. Wren et Harold R. Garner, « Identifying duplicate content using statistically improbable phrases », Bioinformatics (en), ISCB, vol. 26, n^o 11,‎ juin 2010, p. 1453–1457 (DOI 10.1093/bioinformatics/btq146).
(en) Heike Johannsen (sous la dir. de Dale Gerdemann), Linking Documents by Distinctive Phrases (thèse pour le Bachelor of Arts), Université Eberhard Karl de Tübingen, mars 2007, 94 p. (lire en ligne [PDF]).
(en) Andromeda Yelton, « A Simple Scheme for Book Classification Using Wikipedia », Information Technology and Libraries, vol. 30, n^o 1,‎ 2011, p. 7–15 (DOI 10.6017/ital.v30i1.3040).

Sources journalistiques :

(en) Ryan Singel (en), « Judging a Book by Its Contents », Wired, 5 mai 2005.
(en) Linton Weeks, « Amazon's Vital Statistics Show How Books Stack Up », The Washington Post, 30 août 2005.

Articles connexes

Collocation (linguistique)
Googlewhack
Hapax
TF-IDF (Term Frequency-Inverse Document Frequency)

Portail de l’informatique
Portail de la linguistique
Sciences de l’information et bibliothèques

[1] (en) « What are Statistically Improbable Phrases? », sur Amazon.com (version du 21 avril 2016 sur Internet Archive).

[2] (en) William Cleland, Best Practices in Digital Asset Management for Electronic Texts in Academic Research Libraries, Graduate College of Bowling Green, août 2007, 68 p. (S2CID 167889507, lire en ligne [PDF]), p. 20.

[3] (en) Brian Lavoie, Lorcan Dempsey et Lynn Silipigni Connaway, « Making Data Work Harder », Library Journal, 15 janvier 2006 (version du 7 février 2006 sur Internet Archive).

[Singel2005-4] Singel 2005.

[plug-5] (en) Steve Weber, Plug Your Book : Online Book Marketing for Authors, Falls Church, Weber Books, 2007, 204 p. (ISBN 978-0-9772406-1-6), p. 128–129 [lire en ligne].

[ErramiSunGeorgeLong2010-6] Errami et al. 2010.

[7] (en) Heyward Ehrlich, « Poe in Cyberspace : A Complete Poe Library—Cyberspace Dream? », The Edgar Allan Poe Review, vol. VII, n^o 1,‎ printemps 2006, p. 83–92 (JSTOR 41506253).

[Yelton2011-8] Yelton 2011.

[9] (en) Jonathan Bailey, « How Long Should a Statistically Improbably Phrase Be? », sur plagiarismtoday.com, 3 juillet 2012.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]