Common Crawl является одним из важнейших столпов для обучения LLM, но важно понимать его ограничения. Это не идеальная копия интернета.30 Архив имеет существенные смещения: он отдает предпочтение хорошо связанным ссылками, англоязычным доменам и не включает контент с сайтов, которые блокируют его краулер, таких как Facebook, The New York Times и многие другие. Кроме того, Common Crawl намеренно не курирует данные, то есть не удаляет вредоносный или предвзятый контент, что перекладывает задачу фильтрации на разработчиков LLM.