Hugging Face libera un corpus de 350.000 millones de tokens educativos extraídos meticulosamente de PDFs, representando el segmento más valioso del colosal dataset FinePDFs de 3 billones de tokens y estableciendo nuevos estándares de calidad para el pre-entrenamiento de modelos…