Ciencia de datos

  • Entornos de trabajo para ciencia de datos, instalando R-Studio y Anaconda en Ubuntu Linux 18.04

    bannerDS

    La ciencia de datos o “Data Science” como se le denomina en ingles, es una de las áreas que mayor interés ha despertado en últimos años, siendo descrita por muchos expertos como una de las áreas de mayor relevancia laboral durante la próxima década.

    Pero en sí ¿que es la ciencia de datos?; La ciencia de datos es un área de estudio interdiciplinaria que usa métodos científicos, procesos matemáticos y algoritmos computacionales, con el objetivo de obtener información, conocimiento y representación de comportamientos significativos basados en datos de diferentes fuentes y tipos. Esta ciencia se encuentra muy relacionada con otras áreas igualmente destacadas recientemente, como el Big Data o el Machine Learning. Vinculando a su vez conceptos más tradicionales como lo son las bases de datos (relacionales y no relacionales) y un uso extensivo de métodos y técnicas estadística.

    Por lo anterior y con el objetivo de adentrarnos en el estudio de este interesante tema, a continuación describiremos como instalar dos de los principales entornos de desarrollo para ciencias de datos, sobre nuestro Ubuntu Linux 18,04 LTS Bionic Beaver.

    Para empezar describiremos el proceso de instalación de R Studio un IDE especializado para el lenguaje de programación R, lenguaje especialmente diseñado para el desarrollo de estadística computacional y graficación.

    1 - Instalación de R Studio

    Antes de instalar R Studio necesitaremos instalar en nuestro sistema el paquete r-base que provee el lenguaje de programación R sobre el cual trabajara nuestro IDE.

    Abrimos una terminal o consola “ctr + alt + t” e introducimos los siguientes comandos:

    $ sudo apt update sudo

    $ apt -y install r-base

    R Studio esta disponible para dos de las principales distros de Linux; Fedora y Ubuntu. Para este tutorial instalaremos la versión de R Studio para Ubuntu 16,04+/Debian 9+, la cual podemos descargar del siguiente enlace: https://www.rstudio.com/products/rstudio/download/#download

    R1

     Una vez realizada la descarga volvemos a nuestra terminal o consola e introducimos los siguientes comandos:

    $ cd Descargas
    $ ls
    rstudio-xenial-1.1.456-amd64.deb

    La carpeta descargas puede variar de acuerdo a la configuración o la instalación de su sistema así que podría tener Descargas o Downloads*

    Una vez identificado el paquete procedemos a su instalación:

    $ sudo gdebi rstudio-xenial-1.1.456-amd64.deb

    Y a continuación podremos ejecutar R Studio desde la consola con el siguiente comando:

    $ rstudio

    R2
    O bien desde el menú de aplicaciones:

    R3
    2 – Instalación de Anaconda

    Anaconda es una distribución de Python y R especializada en ciencia de datos “Data Science” y “Machine Learning” orientada al procesamiento de datos a gran escala. Cuenta con su propio administrador de paquete e integra más de 250 librerías y utilidades especializada para el trabajo en ciencia de datos.

    Para comenzar, lo primero que tenemos que hacer es dirigirnos a la pagina de Anaconda y descargar el script de instalación. Podemos hacer esto dando clic en el siguiente enlace: https://www.anaconda.com/download/#linux (esta descarga puede tomar algunos minutos según la velocidad de su conexión)

    An1

    Una vez realizada la descarga volvemos a nuestra terminal o consola e introducimos los siguientes comandos:

    $ cd Descargas
    $ ls
    Anaconda3-5.3.0-Linux-x86_64.sh

    Identificado el paquete, volvemos a la terminal e iniciamos el proceso de instalación por medio del siguiente comando:

    $ sh Anaconda3-5.3.0-Linux-x86_64.sh

    Al ejecutarlo se despegará el siguiente mensaje:

    An2

    Oprimimos la tecla Enter para ver todos los términos de la licencia y finalmente escribimos “yes” para aceptar y continuar con el proceso de instalación.

    Posteriormente nos solicita confirmar la ubicación de los archivos de instalación, para el presente caso usaremos los predeterminados por lo que simplemente oprimiremos la tecla Enter

    An3

    A continuación nos pregunta si deseamos que el instalador inicialice Anaconda3 en nuestro bashrc a lo que en este caso diremos que si, “yes”.

    An4

    Una vez finalizada la instalación de Anaconda, el instalador nos preguntará si deseamos instalar el editor Visual Studio Code, con lo que conforme a sus preferencias ustedes podrán aceptar o seguir adelante y utilizar su editor preferido.

    Finalmente procedemos con la activación de la instalación de anaconda ejecutando el siguiente comando:

    $ source ~/.bashrc

    y la confirmamos con:

    $ conda info

    An5
    Ok, ya esta instalado nuestro Anaconda, pero aun falta el paso final, la cereza del pastel. Y es desplegar nuestro entorno grafico de configuración y trabajo desde el navegador.

    Para hacer esto simplemente ejecutamos el siguiente comando desde nuestra terminal y tendremos todo el poder de Anaconda a nuestra disposición.

    $ anaconda-navigator

    An6