Un consorcio alemán de universidades e institutos de investigación ha demostrado que es posible construir el dataset de lenguaje más grande del mundo con licencias completamente claras. Con 154.56 billones de tokens extraídos de 35.78 millones de documentos, German Commons…

