Fa ja una dècada que vaig
cursar l’assignatura Informàtica aplicada a les ciències humanes i socials i
llavors em va tocar entendre’m amb el programa Concordance; ara he començat a
practicar amb un programa molt, molt semblant que també té l’objectiu de fer
anàlisis lexicomètriques, es tracta de l’AntConc 3.4.4w.
He agafat el text d’una
PAC de l’assignatura de Teories de l’Educació, l’he convertit a text sense
format amb la codificació unicode UTF-8. Aquest punt és de vital importància
perquè cal que l’AntConc “entengui” el nostre text i, per tant, ha de coincidir
la codificació del text amb la que tingui la configuració de l’AntConc.
El resultat és la següent
taula:
Queda clar que les
primeres posicions de freqüència les ocupen paraules amb significat lèxic buit.
M’he aventurat a aconseguir el que es diu una stopword, és a dir, una llista de
paraules que l’AntConc passarà per alt. La llista stopword en català que he
triat l’he trobat a la pàgina de l’Institut de lingüística aplicada de laUniversitat Pompeu Fabra però, a més, he afegit uns mots més que he vist que no
hi eren: pàg, ibíd, del i dels. He carregat la llista stopword a l’AntConc i llavors
el resultat ha canviat de forma molt evident:
Ara sí que amb un cop d’ull a la llista
queda clar quin és el contingut i la temàtica del text.
Gràcies per la referència, aquesta llista serà molt útil. He vist que és del Lluís de Yzaguirre, un crac!
ResponEliminaGràcies, Blanca, per recordar-nos la importància de la codificació en unicode UTF-8 i per la llista stopword.
ResponEliminaSalutacions
Gràcies, serà de gran ajut
ResponElimina