Logo UOC

Parallel Sets

Una visualització per a dades multidimensionals categòriques.
PID_00233252
Autor: Álex GonzálezCoordinació: Julià Minguillón

Introducció

Els parallel sets són un tipus de visualització orientat a representar dades multidimensionals categòriques, és a dir, en què cada variable o atribut solament pot prendre un valor en un conjunt finit (i habitualment reduït) de valors o categories. L'objectiu és comparar les freqüències d'aparició de cada valor possible; es poden comparar també relacions entre atributs. És una bona representació per a taules de contingència multidimensionals, ja que permet veure el desglossament de combinacions possibles per a un conjunt de dades donat. De fet, es tracta de l'equivalent a visualitzar els agregats del conjunt original, una altra tècnica coneguda com parallel coordinates.

L'estructura d'una visualització usant parallel sets és la que es mostra a continuació. Els atributs s'ordenen (de fet, apilen) habitualment de manera vertical usant la freqüència d'aparició de cada valor possible per a cada atribut com a dimensió horitzontal. L'ordre dels atributs (vertical) i dels seus valors (horitzontal) pot canviar-se indistintament per destacar diferents combinacions d'atributs i/o valors. Per a cada valor possible dins d'un atribut, es pot usar un color diferent per fer ressaltar les combinacions de valors entre atributs, usant normalment tants colors com valors possibles pugui prendre el primer atribut.

Aquest exemple, de Jason Davies, mostra la relació entre el sexe i la classe en la qual viatjaven els passatgers del Titanic amb el fet de sobreviure o no a l'accident. Es pot veure clarament que gairebé la totalitat de dones que viatjaven en primera classe i la majoria de les quals viatjaven en segona classe es van salvar, mentre que el percentatge de supervivents que viatjaven en tercera classe és inferior a 50%. Sense cap càlcul, és possible observar fets que poden ser interessants per a una anàlisi posterior més detallada.

Exemple: participants en la PAC 0 - 2015/2

La visualització següent mostra com usar parallel sets per a visualitzar un conjunt de dades categòrica; en aquest cas es tracta de dades provinents d'una enquesta feta als estudiants del màster de Business intelligence de la UOC, contestada per cent quaranta persones. Les dades han estat processades per eliminar valors perduts, i agrupades per reduir el nombre de categories amb molts valors possibles (dins «Altres»).

Els atributs de què es disposa per a cada participant en l'enquesta són els següents:

Funcionament

Per cada dimensió o atribut, es mostra una barra horitzontal per a cadascun dels valors possibles que pot prendre. L'amplària de la barra és proporcional al nombre d'elements que prenen aquest valor.

Començant per la primera dimensió (Sexe), cadascuna de les seves categories o valors possibles està connectada amb les del nivell següent, i es mostra com aquesta categoria se subdivideix. Aquest procés es repeteix en cada nivell i produeix una espècie d'arbre de «cintes» cada vegada més primes en el seu extrem inferior.

És possible arrossegar tant les dimensions com les categories, reordenant la visualització. També es pot fer clic en els enllaços «alpha» i «size» de cada dimensió que apareix en posar el ratolí damunt, per a ordenar els valors possibles alfabèticament i per freqüència d'aparició, respectivament, tant ascendent com descendent.

Per finalitzar, és possible visualitzar les «cintes» com a línies rectes o corbes millorant la visualització en alguns casos.

Anàlisi mitjançant la visualització

Com es pot veure en la visualització (posant el ratolí damunt de cada valor), el percentatge d'homes (78%) triplica el de dones (22%). De la mateixa manera, el percentatge de dones entre 35 i 44 anys és del %9 .

Reordenant els valors de la dimensió Edat, es pot construir la taula de contingència de 2 × 4 següent:

Sexe / Edat ≤ 24 25-34 35-44 ≥ 45 Total
Masculí 3 50 40 16 109
Femení 2 12 13 4 31
Total 5 62 53 20 140

Arrossegant la dimensió Interessos fins a la segona posició, per sota de Sexe, es pot veure que, en el cas de les dones, aquestes tenen un menor interès en els aspectes tècnics de Data Science. D'igual manera, també menys dones disposen d'un compte a Twitter.

En general, la visualització mostra una taula de contingència de la dimensió 1 × la dimensió 2 × la dimensió 3 × ...

Limitacions

Com es pot observar, si el nombre de dimensions és elevat, les «cintes» cada vegada són més fines, i poden fins i tot desaparèixer per a alguna combinació de valors en concret.

Igualment, si el nombre de valors possibles o categories per a una dimensió és també molt elevat, es produeix una fragmentació excessiva i és complicat visualitzar les combinacions de les dimensions inferiors.

De fet, la visualització hereta els problemes de les taules de contingència multidimensionals, on no és habitual excedir quatre dimensions ni que per a una dimensió donada hi hagi més de sis valors. Un regla empírica per a analitzar taules de contingència és que cap combinació de valors generada (és a dir, cada cel·la de la taula) no hauria d'estar buida (és a dir, amb 0 elements), i que la majoria de les combinacions (almenys el 80%) hauria de tenir cinc elements o més. Noti's que l'exemple proposat no satisfà gairebé cap d'aquests requisits; d'aquí la seva complexitat.

No obstant això, la visualització usant parallel sets permet fer-se una idea ràpida de la distribució de valors per a cada dimensió i de les combinacions més freqüents; és molt més intuïtiva que una col·lecció de taules de contingència multidimensionals, especialment si, com en aquest cas, és possible reordenar de manera senzilla dimensions i valors.

Detalls tècnics (how to?)

Aquesta visualització consisteix en una pàgina HTML (enllaç) que incorpora codi D3.js ( enllaç) i pot ser utilitzada com a base per a reproduir-la usant qualsevol altre conjunt de dades.

És necessari disposar de les llibreries d3.v3.min.js (v3, descarregable també des de D3.js) i d3.parsets.js (descarregable també de Jason Davies' parallel sets ), les quals han d'estar en un subdirectori anomenat js dins del mateix directori de treball que la pàgina web esmentada.

El fitxer CSV per visualitzar ha d'anar separat per comes «,» i utilitzar una codificació UTF-8. El fitxer usat en aquest exemple pot descarregar-se des d'aquest enllaç. Es recomana utilitzar LibreOffice per a manipular-lo.

El fitxer parallel-sets_base.js, que conté el codi D3.js, pot ser modificat per reutilitzar la visualització amb altres fitxers CSV, de la manera següent:

Exercici

Es proposa simplificar la visualització mostrada com a exemple, reduint el nombre de dimensions per mostrar, i el conjunt de valors que pot prendre cada atribut o dimensió en els casos que sigui necessari.

Per tant, és necessari:

Referències

Materials creats per Álex González (outliers) i Julià Minguillón, publicats amb una llicència Creative Commons CC-BY-SA 3.0, Universitat Oberta de Catalunya (FUOC), 2016.