Common Crawl

	Common Crawl
	; Logo de Common crawl
Création	2007
Fondateurs	Gil Elbaz
Personnages clés	Peter Norvig; Rich Skrenta; Eva Ho
Forme juridique	501(c)(3) non lucratif
Siège social	San Francisco, Californie; Los Angeles, Californie; États-Unis
Activité	Édition et collecte de données (en)
Site web	https://commoncrawl.org/

Common Crawl est une organisation à but non lucratif 501(c)(3) qui explore le Web et fournit gratuitement ses archives et ses ensembles de données au public^[1]^,^[2]. Les archives Web de Common Crawl se composent de pétaoctets de données collectées depuis 2008^[3]. Il effectue des crawls environ une fois par mois^[4].

Common Crawl a été fondé par Gil Elbaz^[5]. Peter Norvig et Joi Ito comptent parmi les conseillers de l'organisation à but non lucratif^[6]. Les robots d'exploration de l'organisation respectent les politiques nofollow et robots.txt. Le code open source pour le traitement de l'ensemble de données de Common Crawl est accessible au public.

L'ensemble de données Common Crawl comprend des travaux protégés par le droit d'auteur et est distribué depuis les États-Unis dans le cadre de revendications d'utilisation équitable. Les chercheurs d'autres pays ont eu recours à des techniques telles que le mélange de phrases ou le référencement de l'ensemble de données Common Crawl pour contourner la législation sur le droit d'auteur dans d'autres juridictions^[7].

L'anglais est la langue principale de 46 % des documents de la version de mars 2023 de l'ensemble de données Common Crawl. Les autres langues les plus courantes sont l'allemand, le russe, le japonais, le français, l'espagnol et le chinois, chacune représentant moins de 6 % des documents^[8].

Histoire

Amazon Web Services a commencé à héberger les archives de Common Crawl via son programme Public Data Sets en 2012^[9].

L'organisation a commencé à publier des fichiers de métadonnées et la sortie texte des robots d'exploration ainsi que des fichiers .arc en juillet 2012^[10]. Les archives de Common Crawl ne comprenaient auparavant que des fichiers .arc^[10].

En décembre 2012, blekko a fait don au moteur de recherche Common Crawl des métadonnées qu'il avait recueillies lors des recherches qu'il avait effectuées entre février et octobre 2012^[11]. Les données offertes ont aidé Common Crawl à « améliorer son crawl tout en évitant le spam, la pornographie et l'influence d'un référencement excessif »^[11].

En 2013, Common Crawl a commencé à utiliser le robot d'exploration Web (webcrawler) Nutch de l'Apache Software Foundation au lieu d'un robot d'exploration personnalisé^[12]. De plus, Common Crawl est passé de l'utilisation des fichiers .arc aux fichiers .warc avec son crawl de novembre 2013^[13].

Une version filtrée de Common Crawl a été utilisée pour former le modèle de langage GPT-3 d'OpenAI, annoncé en 2020^[14].

Chronologie des données de Common Crawl

Les données suivantes ont été collectées à partir du blog officiel de Common Crawl^[15] et de l'API de Common Crawl^[16].

date de scan	Taille en TiB	Milliards de pages	Information complémentaire
Février 2025	402	2.6
Janvier 2025	460	3.0
Décembre 2024	394	2.64
Novembre 2024	405	2.68
Octobre 2024	365	2.49
Septembre 2024	410	2.8
Août 2024	327.4	2.3
Juillet 2024^[17]	360	2.5
Juin 2024	382	2.7
Mai 2024	377	2.7
Avril 2024	386	2.7	Le scan a été mené du 12 au 24 avril 2024.
Février/Mars 2024	425	3.16	Le scan a été mené du 20 février au 5 mars 2024.
Décembre 2023	454	3.35	Le scan a été réalisé du 28 novembre au 12 décembre 2023.
Juin 2023	390	3.1	Le scan a été mené du 27 mai au 11 juin 2023.
Avril 2023	400	3.1	Le scan a été mené du 20 mars au 2 avril 2023.
Février 2023	400	3.15	Le scan a été mené du 26 janvier au 9 février 2023.
Décembre 2022	420	3.35	Le scan a été mené du 26 novembre au 10 décembre 2022.
Octobre 2022	380	3.15	Le scan a été mené en septembre et octobre 2022.
Avril 2021	320	3.1
Novembre 2018	220	2.6
Octobre 2018	240	3.0
Septembre 2018	220	2.8
Août 2018	220	2.65
Juillet 2018	255	3.25
Juin 2018	235	3.05
Mai 2018	215	2.75
Avril 2018	230	3.1
Mars2018	250	3.2
Février 2018	270	3.4
Janvier 2018	270	3.4
Décembre 2017	240	2.9
Novembre 2017	260	3.2
Octobre 2017	300	3.65
Septembre 2017	250	3.01
Août 2017	280	3.28
Juillet 2017	240	2.89
Juin 2017	260	3.16
Mai 2017	250	2.96
Avril 2017	250	2.94
Mars 2017	250	3.07
Février 2017	250	3.08
Janvier 2017	250	3.14
Décembre 2016	—	2.85
Octobre 2016	—	3.25
Septembre 2016	—	1.72
Août 2016	—	1.61
Juillet 2016	—	1.73
Juin 2016	—	1.23
Mai 2016	—	1.46
Avril 2016	—	1.33
Février 2016	—	1.73
Novembre 2015	151	1.82
Septembre 2015	106	1.32
Août 2015	149	1.84
Juillet 2015	145	1.81
Juin 2015	131	1.67
Mai 2015	159	2.05
Avril 2015	168	2.11
Mars 2015	124	1.64
Février 2015	145	1.9
Janvier 2015	139	1.82
Décembre 2014	160	2.08
Novembre 2014	135	1.95
Octobre 2014	254	3.7
Septembre 2014	220	2.8
Août 2014	200	2.8
Juillet 2014	266	3.6
Avril 2014	183	2.6
Mars 2014	223	2.8	Premier crawl Nutch
Hiver 2013	148	2.3	Le scan a été mené du 4 au 22 décembre 2013.
Été 2013	?	?	Le scan a été mené de mai 2013 à juin 2013. Premier scan WARC
2012	?	?	Le scan a été mené de janvier 2012 à juin 2012. Dernier scan ARC
2009-2010	?	?	Le scan a été mené de juillet 2009 à septembre 2010.
2008-2009	?	?	Le scan a été mené de mai 2008 à janvier 2009.

Prix Norvig de la science des données Web

En corroboration avec SURFsara, Common Crawl sponsorise le Norvig Web Data Science Award, un concours ouvert aux étudiants et chercheurs du Benelux^[18]^,^[19]. Le prix porte le nom de Peter Norvig, qui préside également le comité de sélection du prix^[18].

Colossal Clean Crawled Corpus

La version de Google du Common Crawl s'appelle Colossal Clean Crawled Corpus, ou C4 en abrégé. Il a été construit pour la formation de la série de modèles linguistiques T5 en 2019^[20]. Il existe quelques inquiétudes concernant le contenu protégé par le droit d'auteur dans le C4^[21].

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Common Crawl » (voir la liste des auteurs).

↑ Rosanna Xia, « Tech entrepreneur Gil Elbaz made it big in L.A. », Los Angeles Times,‎ 5 février 2012 (lire en ligne, consulté le 31 juillet 2014)
↑ « Gil Elbaz and Common Crawl », NBC News,‎ 4 avril 2013 (lire en ligne, consulté le 31 juillet 2014)
↑ « So you're ready to get started », Common Crawl (consulté le 9 juin 2023)
↑ Lisa Green, « Winter 2013 Crawl Data Now Available », Common Crawl Blog,‎ 8 janvier 2014 (lire en ligne, consulté le 2 juin 2018)
↑ « Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222 », This Week In Startups,‎ 10 janvier 2012
↑ Tom Simonite, « A Free Database of the Entire Web May Spawn the Next Google », MIT Technology Review,‎ 23 janvier 2013 (lire en ligne [archive du 26 juin 2014], consulté le 31 juillet 2014)
↑ Schäfer, « CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws », Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16), Portorož, Slovenia, European Language Resources Association (ELRA),‎ mai 2016, p. 4501 (lire en ligne)
↑ « Statistics of Common Crawl Monthly Archives by commoncrawl », commoncrawl.github.io (consulté le 2 avril 2023)
↑ Jennifer Zaino, « Common Crawl to Add New Data in Amazon Web Services Bucket », Semantic Web,‎ 13 mars 2012 (lire en ligne [archive du 1^er juillet 2014], consulté le 31 juillet 2014)
Jennifer Zaino, « Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable for Users to Explore », Semantic Web,‎ 16 juillet 2012 (lire en ligne [archive du 12 août 2014], consulté le 31 juillet 2014)
Jennifer Zaino, « Blekko Data Donation Is s Big Benefit to Common Crawl », Semantic Web,‎ 18 décembre 2012 (lire en ligne [archive du 12 août 2014], consulté le 31 juillet 2014)
↑ Jordan Mendelson, « Common Crawl's Move to Nutch », Common Crawl, 20 février 2014 (consulté le 31 juillet 2014)
↑ Jordan Mendelson, « New Crawl Data Available! », Common Crawl, 27 novembre 2013 (consulté le 31 juillet 2014)
↑ (en) Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan et al., « Language Models Are Few-Shot Learners », 1^er juin 2020.
↑ « Blog – Common Crawl »
↑ « Collection info - Common Crawl »
↑ (en) « Common Crawl - Blog - July 2024 Crawl Archive Now Available », sur commoncrawl.org (consulté le 23 février 2025)
Lisa Green, « The Norvig Web Data Science Award », Common Crawl, 15 novembre 2012 (consulté le 31 juillet 2014)
↑ « Norvig Web Data Science Award 2014 » [archive du 15 août 2014], Dutch Techcentre for Life Sciences (consulté le 31 juillet 2014)
↑ Raffel, Shazeer, Roberts et Lee, « Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer », Journal of Machine Learning Research, vol. 21, n^o 140,‎ 2020, p. 1–67 (ISSN 1533-7928, arXiv 1910.10683, lire en ligne)
↑ (en-GB) Alex Hern, « Fresh concerns raised over sources of training material for AI systems », The Guardian,‎ 20 avril 2023 (lire en ligne, consulté le 21 avril 2023)

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Common Crawl » (voir la liste des auteurs).

Liens externes

Common Crawl en Californie, États-Unis
Référentiel GitHub Common Crawl avec le robot d'exploration, les bibliothèques et un exemple de code
Groupe de discussion Common Crawl
Blog de Common Crawl

Portail d’Internet
Sciences de l’information et bibliothèques

[latimes-1] Rosanna Xia, « Tech entrepreneur Gil Elbaz made it big in L.A. », Los Angeles Times,‎ 5 février 2012 (lire en ligne, consulté le 31 juillet 2014)

[pressheretv-2] « Gil Elbaz and Common Crawl », NBC News,‎ 4 avril 2013 (lire en ligne, consulté le 31 juillet 2014)

[ready-3] « So you're ready to get started », Common Crawl (consulté le 9 juin 2023)

[theverge-4] Lisa Green, « Winter 2013 Crawl Data Now Available », Common Crawl Blog,‎ 8 janvier 2014 (lire en ligne, consulté le 2 juin 2018)

[twist-5] « Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222 », This Week In Startups,‎ 10 janvier 2012

[technologyreview-6] Tom Simonite, « A Free Database of the Entire Web May Spawn the Next Google », MIT Technology Review,‎ 23 janvier 2013 (lire en ligne [archive du 26 juin 2014], consulté le 31 juillet 2014)

[7] Schäfer, « CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws », Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16), Portorož, Slovenia, European Language Resources Association (ELRA),‎ mai 2016, p. 4501 (lire en ligne)

[8] « Statistics of Common Crawl Monthly Archives by commoncrawl », commoncrawl.github.io (consulté le 2 avril 2023)

[semanticweb_1-9] Jennifer Zaino, « Common Crawl to Add New Data in Amazon Web Services Bucket », Semantic Web,‎ 13 mars 2012 (lire en ligne [archive du 1^er juillet 2014], consulté le 31 juillet 2014)

[semanticweb_2-10] Jennifer Zaino, « Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable for Users to Explore », Semantic Web,‎ 16 juillet 2012 (lire en ligne [archive du 12 août 2014], consulté le 31 juillet 2014)

[semanticweb_3-11] Jennifer Zaino, « Blekko Data Donation Is s Big Benefit to Common Crawl », Semantic Web,‎ 18 décembre 2012 (lire en ligne [archive du 12 août 2014], consulté le 31 juillet 2014)

[ccnutch-12] Jordan Mendelson, « Common Crawl's Move to Nutch », Common Crawl, 20 février 2014 (consulté le 31 juillet 2014)

[ccnov2013-13] Jordan Mendelson, « New Crawl Data Available! », Common Crawl, 27 novembre 2013 (consulté le 31 juillet 2014)

[14] (en) Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan et al., « Language Models Are Few-Shot Learners », 1^er juin 2020.

[15] « Blog – Common Crawl »

[16] « Collection info - Common Crawl »

[17] (en) « Common Crawl - Blog - July 2024 Crawl Archive Now Available », sur commoncrawl.org (consulté le 23 février 2025)

[ccaward-18] Lisa Green, « The Norvig Web Data Science Award », Common Crawl, 15 novembre 2012 (consulté le 31 juillet 2014)

[dtlsaward-19] « Norvig Web Data Science Award 2014 » [archive du 15 août 2014], Dutch Techcentre for Life Sciences (consulté le 31 juillet 2014)

[:0-20] Raffel, Shazeer, Roberts et Lee, « Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer », Journal of Machine Learning Research, vol. 21, n^o 140,‎ 2020, p. 1–67 (ISSN 1533-7928, arXiv 1910.10683, lire en ligne)

[21] (en-GB) Alex Hern, « Fresh concerns raised over sources of training material for AI systems », The Guardian,‎ 20 avril 2023 (lire en ligne, consulté le 21 avril 2023)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]