Skip to content

Improve documentation of DataGridDimension related to partition in groups #464

@marcboulle

Description

@marcboulle

Issue suite à retours de @n-voisine

Description

Contexte:

  • inspection d'un rapport d'analyse
  • recherche d'une variable catégorielle préparée
  • recherche de la partition des valeurs en groupes

Lors de l'analyse d'un groupement de valeurs, on souhaite connaitre la partition en valeurs pour l'ensemble de toutes les valeurs fréquentes. Dans certain cas, le groupement de valeur, bien que correctement spécifié, ne permet pas d'accéder à toutes les valeurs fréquentes et leur groupe, ce qui est un problème pour l'utilisateur.

Cause du problème

Un groupement de valeur est spécifié dans l'attribut partition de la classe DataGridDimension dans le cas d'une partition_type de type "Value groups".
Il s'agit d'une liste de PartValueGroup, comportant chacun une liste de valeurs dans values, et donc un seul est le groupe par défaut (is_default_part).
Pour des raison d'optimisation et de passage à l'échelle, toutes les valeurs vues en apprentissage ne sont pas nécessairement présentes dans un groupe. Notamment, le groupe par défaut peut avoir été nettoyé de la plupart de ses valeurs (même si elles sont potentiellement fréquentes).
Il est donc déroutant pour l'utilisateur que certaines valeurs fréquentes en apprentissage ne soient parfois présentes dans aucun groupe.

Correction documentaire

De même que dans la classe VariableStatistics, la documentation de input_values précise If there are too many values only the more frequent will be available., faire évoluer la documenation de DataGridDimension pour expliquer que toutes les valeurs ne sont pas nécessairement présentes dans la description d'un des groupes de la partition.

Ajout d'un helper

Comme on connait d'une part la liste des valeurs les plus fréquentes via l'attribut input_values de VariableStatistics, et d'autre part la spécification de la partition en groupes via la DataGrid, on pourrait ajouter une méthode dans VariableStatistics , en complément de input_values et input_values_frequencies, pour connaitre l'index de groupe de chaque valeur fréquente.

Par exemple:

compute_input_values_group_indexes() : list of int
  Compute the group index of each input value using the partition in value groups defined in the data grid

Note

Expression de besoin et solution à valider par @n-voisine

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions