Title: Using and contributing to the data.table package for efficient big data analysis
Package documentation: http://r-datatable.com
Links to tutorial source code and slides: https://github.com/tdhock/2023-10-LatinR-data.table
Abstract: data.table is one of the most efficient open-source in-memory data manipulation packages available today. First released to CRAN by Matt Dowle in 2006, it continues to grow in popularity, and now over 1500 other CRAN packages depend on data.table. This talk will start with data reading from CSV, discuss basic and advanced data manipulation topics, and finally will end with a discussion about how you can contribute to data.table.
Installation instructions for participants: any version of R should
work. I typically use the most recent release version. Make sure you
can install.packages("data.table")
and that should be all!
Original google slides Oct 2023, revised slides Aug 2024, by Toby Dylan Hocking.
Video from presentation at Madrid RUG, 27 Feb 2025.
Source code for figures:
figure-roll.R explains rolling join.
figures-iris-dt/ contains source files for melt conceptual figures, adapted from nc article. SVG files use Courier and Sans fonts.
figure-melt-exercises.R contains code for melt exercise figures.
Titre : data.table pour la traitement efficace des grands jeux de données
Page web en anglais : http://r-datatable.com
Vignette d’introduction en français : https://rdatatable.gitlab.io/data.table/articles/fr/datatable-intro.html
Code source du tutoriel : https://github.com/tdhock/2023-10-LatinR-data.table
Diapos : google slides en français
Résumé : data.table est un package R qui permet la traitement efficace des grands jeux de données. Il inclut des fonctions pour lecture et écriture des fichiers CSV, agrégation, restructuration, jointure, etc. Par rapport aux autres logiciels avec ces fonctions, l’utilisation de data.table peut être 10x plus efficace en temps de calcul, et en utilisation de mémoire. Il est aussi très facile à installer (il ne dépend pas d’autres packages), et à mettre à jour (les nouvelles vérsions de data.table sont compatibles avec les anciennes). Sur CRAN depuis 2006, il est très utilisé, avec plus de 1500 autres packages qui en dépend. Depuis 2024, il y a même des traductions en français, pour les messages d’erreur, ainsi que les vignettes. Ce tutoriel va discuter : son efficacité relative aux autres packages (tidyverse, pandas, etc), l’utilisation du package (fonctions de base et avancées), une discussion de comment écrire un package qui dépend de data.table, ainsi que quelques remarques sur la communauté de développeurs de data.table, qui est très ouverte aux contributions du public.
Installation : il va y avoir quelques exercises pour les participants.
SVP installer R vérsion 3.3.0 ou plus, et ensuite utiliser la commande install.packages("data.table")
.
Fuentes código y gráficos:
latindatatransforme-vspanish-.pdf Presentación en Español adaptación presentación de Toby Dylan Hocking en LatinR
latinrdatatransforme_spanish.qmd contiene el código en reveal js (.qmd) de la presentación. Se complementa con las imagenes de la carpeta images.
images/ contiene las imágenes usadas en latinrdatatransforme_spanish.qmd
figure-melt-exercises_vm.R contiene código para el ejercicio gráfico de melt con datos::flores.
SVG file etc : contiene las imágenes para adaptar la explicación conceptual para melt proveniente de nc article.
Nota: Para los archivos fuente svg, la fuente que use fue Sans.