ISSN-L: 0798-1015 • eISSN: 2739-0071 (En línea) - Revista Espacios – Vol. 42, Nº 18, Año 2021
COLINA, Mairene et al. «Los eventos electorales de diciembre 2020 y enero 2021 en Venezuela: un
panorama en la red social Twitter»
2.2. Línea de tiempo
Cada mensaje contenido en la data extraída en los dos días analizados, cuenta con la hora en que fue emitido.
Esto permite contabilizar la cantidad de mensajes por hora e identificar, para cada uno de los dos días en estudio,
la hora del día que presentó mayor actividad.
2.3. Identificación de cuentas bots
Con el objetivo de identificar cuentas bots que mostraron actividad estos dos días donde se produjeron eventos
relevantes en cuanto al tema electoral, se establecieron estrategias para detectar dos tipos bien diferenciados
de cuentas. A saber:
1. Cuentas cuyo contenido de los tweets no muestra información de utilidad y solo hacen uso de tendenci
as
y mencionan múltiples cuentas. Este tipo de cuentas no suelen permanecer activas mucho tiempo, pues
el algoritmo de la plataforma de Twitter las suele suspender por incumplir las políticas de uso.
2. Cuentas cuyos tweets tienen información de utilidad, pero suelen hacer retweet de forma masi
va
saturando la red y con ello posicionando etiquetas.
Para la detección de estos dos tipos de cuentas se aplicó una técnica de minería de datos vinculada al aprendizaje
estadístico, que permite con una precisión del 95% clasificar las cuentas como bots o no. Esta técnica se conoce
como XGBoost (derivado del inglés Extreme Gradient Boosting) y se trata de un algoritmo predictivo supervisado,
implementado en R, que utiliza el Principio de Remuestreo o Boosting.
La idea detrás del Remuestreo es la de generar múltiples árboles de clasificación de forma secuencial, haciendo
que cada uno de éstos tome los resultados de la clasificación anterior para generar un árbol o modelo más
“fuerte”, con mejor poder predictivo y mayor estabilidad en sus resultados. Para conseguir un modelo más fuerte
se emplea un algoritmo de optimización. Durante el entrenamiento, los parámetros de cada modelo son
ajustados de forma iterativa tratando de encontrar el mínimo de la raíz del error cuadrático medio. Cada modelo
es comparado con el anterior y si un nuevo modelo tiene mejores resultados, entonces se toma este como base
para realizar nuevas modificaciones. Si, por el contrario, tiene peores resultados, se regresa al mejor modelo
anterior y se modifica ese de una manera diferente. Este proceso se repite hasta llegar a un punto en el que la
diferencia entre modelos consecutivos es insignificante, lo cual nos indica que hemos encontrado el mejor
modelo posible, es decir la mejor clasificación, y adicionalmente se obtiene un valor de probabilidad, el cual nos
indica que tan probable o certera es dicha clasificación. Para mayor información sobre esta técnica del Remuestro
o Boosting y su implementación, ver Friedman (2001) y Friedman (2002).
Como es de esperarse, si el valor de probabilidad asignado por el algoritmo a una cuenta en particular es cercano
a 1, entonces es altamente probable que la cuenta en cuestión sea una cuenta bot. En este caso, y como criterio
para determinar si una cuenta particular es bot o no, convenimos que si la probabilidad arrojada por el algoritmo
para dicha cuenta es mayor a 0.8, entonces la consideraremos como cuenta bot.
3. Resultados y discusión
En este capítulo se presentan los resultados obtenidos al analizar el conjunto de tweets recopilados. En primer
lugar considerando ambas fechas, 6D y 5E, conjuntamente, es decir se analizó la totalidad de los tweets emitidos
los dos días. Tal como se hizo en el artículo Colina y otros (2021), se realizó un análisis de tendencias, se
determinaron las palabras más utilizadas y se aplicó el modelo de bigramas para determinar los principales temas
de conversación presentes en los textos de los tweets. Seguidamente, haciendo uso de técnicas estadísticas y
recursos de la teoría de grafos, se determinaron las palabras presentes en los tweets que mostraron mayor
correlación con los vocablos asamblea, elecciones y nueva. Para finalizar, se consideraron ambas fechas en