Predicting bitcoin price fluctuations using deep learning while leveraging the recurrent embedded topic model over text-based data
Publisher
C. Vargas F.
Date Issued
2024
Author(s)
Vargas Fraga Carlos
Advisor(s)
Ponce Espinosa, Hiram Eredín
Type
text::thesis::doctoral thesis
Abstract
En esta tesis se aborda el problema de predecir las fluctuaciones de precios de Bitcoin utilizando modelos de procesamiento de lenguaje natural mediante el uso de noticias de criptomonedas para garantizar predicciones de mayor calidad. Dado que las noticias sobre criptomonedas contienen vocabularios muy extensos y hablan sobre diferentes temas, los modelos de tópicos actuales son estrictos en la forma en que calculan las distribuciones de temas, por lo que no permiten flexibilidad según el conjunto de datos sobre el que se ajustan. Por lo tanto, cuando se aplican las distribuciones como conjunto de datos para entrenar un algoritmo de aprendizaje automático o de aprendizaje profundo, tiende a no ajustarse a las variaciones de precios de Bitcoin. Este trabajo investiga el fenómeno de manera estructurada a través de una metodología de investigación académica inspirada en CRISP-DM (Cross Industry Standard Process for Data Mining), aportando un nuevo modelo de tópicos de última generación llamado: Recurrent Embedded Topic Model(RETM), cuya novedad deriva de su capacidad para superar a los modelos de temas actuales al brindar flexibilidad al calcular las distribuciones de los tópicos. El RETM se comparó con otros modelos basados en precios, modelos de tópicos, análisis de sentimientos y modelos de encaje (embeddings) para integrarlos en varios modelos de aprendizaje automático y aprendizaje profundo para predecir las variaciones en precio de Bitcoin. Hubo una clara diferencia con un modelo basado en aprendizaje profundo (predictor binario) frente a todas las demás técnicas (con una exactitud del 73%, una precisión del 85% y un AUC (Area Under the Curve) del 79%), asegurando así predicciones de mayor calidad sobre las variaciones de precios de Bitcoin. Dentrode la tesis, existe una discusión sobre las complejidades de implementación para poner en prácticala metodología propuesta, así como, algunos análisis sobre la validez, confiabilidad, errores y limitaciones que surgieron de esta investigación. Se ha demostrado que este modelo proporciona mejores distribuciones de tópicos que se pueden aplicar a cualquier problema basado en el procesamiento del lenguaje natural que se puedan resolver utilizando distribuciones de tópicos o palabras, tanto problemas descriptivos o predictivos
License
Acceso abierto
How to cite
Vargas Fraga, C. (2024). Predicting bitcoin price fluctuations using deep learning while leveraging the recurrent embedded topic model over text-based data (Tesis de Doctorado). Universidad Panamericana.
Table of contents
1. Introduction
Justification
Hypothesis
2. Literature Review
Fundamentals – Evaluation
MAE
Confusion Matrix
Natural Language Processing
Natural Language Based Financial Forecasting (NLFF)
Fundamentals - Logistic Regression
Fundamentals - CatBoost
Fundamentals - Prophet
Stocks and Crypto Predictions using Machine Learning
NLFF with Deep Learning
Fundamentals - Doc2Vec
Fundamentals - LSTM
Stocks and Crypto Predictions using Deep Learning
Reinforcement Learning Predicting Stocks and Crypto
Data Understanding
Data Preparation 1 – NLP Pipeline and EDA
Data Preparation 2 – Fundamentals of the RETM
Latent Dirichlet Allocation
Continuous Bag of Words
Embedded Topic Modelling
Justification
Hypothesis
2. Literature Review
Fundamentals – Evaluation
MAE
Confusion Matrix
Natural Language Processing
Natural Language Based Financial Forecasting (NLFF)
Fundamentals - Logistic Regression
Fundamentals - CatBoost
Fundamentals - Prophet
Stocks and Crypto Predictions using Machine Learning
NLFF with Deep Learning
Fundamentals - Doc2Vec
Fundamentals - LSTM
Stocks and Crypto Predictions using Deep Learning
Reinforcement Learning Predicting Stocks and Crypto
Data Understanding
Data Preparation 1 – NLP Pipeline and EDA
Data Preparation 2 – Fundamentals of the RETM
Latent Dirichlet Allocation
Continuous Bag of Words
Embedded Topic Modelling
