Skip to content

tdhock/2023-10-LatinR-data.table

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Source files for data.table tutorial slides

English

Title: Using and contributing to the data.table package for efficient big data analysis

Package documentation: http://r-datatable.com

Links to tutorial source code and slides: https://github.com/tdhock/2023-10-LatinR-data.table

Abstract: data.table is one of the most efficient open-source in-memory data manipulation packages available today. First released to CRAN by Matt Dowle in 2006, it continues to grow in popularity, and now over 1500 other CRAN packages depend on data.table. This talk will start with data reading from CSV, discuss basic and advanced data manipulation topics, and finally will end with a discussion about how you can contribute to data.table.

Installation instructions for participants: any version of R should work. I typically use the most recent release version. Make sure you can install.packages("data.table") and that should be all!

Original google slides Oct 2023, revised slides Aug 2024, by Toby Dylan Hocking.

Video from presentation at Madrid RUG, 27 Feb 2025.

Source code for figures:

figure-roll.R explains rolling join.

figures-iris-dt/ contains source files for melt conceptual figures, adapted from nc article. SVG files use Courier and Sans fonts.

figure-melt-exercises.R contains code for melt exercise figures.

français

Titre : data.table pour la traitement efficace des grands jeux de données

Page web en anglais : http://r-datatable.com

Vignette d’introduction en français : https://rdatatable.gitlab.io/data.table/articles/fr/datatable-intro.html

Code source du tutoriel : https://github.com/tdhock/2023-10-LatinR-data.table

Diapos : google slides en français

Résumé : data.table est un package R qui permet la traitement efficace des grands jeux de données. Il inclut des fonctions pour lecture et écriture des fichiers CSV, agrégation, restructuration, jointure, etc. Par rapport aux autres logiciels avec ces fonctions, l’utilisation de data.table peut être 10x plus efficace en temps de calcul, et en utilisation de mémoire. Il est aussi très facile à installer (il ne dépend pas d’autres packages), et à mettre à jour (les nouvelles vérsions de data.table sont compatibles avec les anciennes). Sur CRAN depuis 2006, il est très utilisé, avec plus de 1500 autres packages qui en dépend. Depuis 2024, il y a même des traductions en français, pour les messages d’erreur, ainsi que les vignettes. Ce tutoriel va discuter : son efficacité relative aux autres packages (tidyverse, pandas, etc), l’utilisation du package (fonctions de base et avancées), une discussion de comment écrire un package qui dépend de data.table, ainsi que quelques remarques sur la communauté de développeurs de data.table, qui est très ouverte aux contributions du public.

Installation : il va y avoir quelques exercises pour les participants. SVP installer R vérsion 3.3.0 ou plus, et ensuite utiliser la commande install.packages("data.table").

Español

Fuentes código y gráficos:

latindatatransforme-vspanish-.pdf Presentación en Español adaptación presentación de Toby Dylan Hocking en LatinR

latinrdatatransforme_spanish.qmd contiene el código en reveal js (.qmd) de la presentación. Se complementa con las imagenes de la carpeta images.

images/ contiene las imágenes usadas en latinrdatatransforme_spanish.qmd

figure-melt-exercises_vm.R contiene código para el ejercicio gráfico de melt con datos::flores.

SVG file etc : contiene las imágenes para adaptar la explicación conceptual para melt proveniente de nc article.

Nota: Para los archivos fuente svg, la fuente que use fue Sans.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages