[ Foro de Python ]

Juntar contenido columnas dataframe o contar palabras rdd

03-Jul-2018 17:25
elena moreno
0 Respuestas

No consigo juntar en una columna varias columnas de un dataframe. Tengo lo siguiente:
+--------------------+--------------------+--------------------+--------+--------------------+
|            desayuno|            almuerzo|              comida|merienda|                cena|
+--------------------+--------------------+--------------------+--------+--------------------+
|1 taza de kefir d...|           1 plátano|carne de morcillo...|    null|patatas fritas; 1...|
|1 taza de kefir c...|1 pepino; 1 pera;...|espinacas rehogad...|    null|   suero sabor fresa|
+--------------------+--------------------+--------------------+--------+--------------------+
quiero crearme una columna que tenga el contenido de todas las columnas. Por ejemplo, columna = alimentos cuyo contenido sea el de las columnas desayuno + almuerzo+ comida + etc. El contenido de todas las columnas son strings.
Mi idea es pasarlo después a un rdd y después contar cuantas veces aparece cada expresión. Pero no lo consigo.
He probado a pasarlo directamente a un rdd, y obtengo lo siguiente:
[Row(desayuno='1 taza de kefir de vaca; 5 g inulina; 2 craquers arroz integral; homos; 2 ajos; 1 tomate; 2 lonchas jamón serrano; 3 nueces; 1 kiwi; in
fusión de jengibre y manzanilla y anis estrellado y canela', almuerzo='1 plátano', comida='carne de morcillo cocida y asada; patata asada; crema de nu
eces y aceite y maicena y comino; queso oveja; cherries; postre lácteo de nata y chocolate', merienda=None, cena='patatas fritas; 1 huevo frito; 1 pep
ino; 1 ajo'), Row(desayuno='1 taza de kefir casero de cabra; 1 endivia; 1 lata de atún en aceite; medio tomate; 2 ajos; 1 puñado de pasas; 3 nueces; m
edia naranja; infusión de tomillo y salvia y manzanilla', almuerzo='1 pepino; 1 pera; 40 g almendras y anacardos; te verde con manzanilla', comida='es
pinacas rehogadas con ajo; magro de cerdo', merienda=None, cena='suero sabor fresa')]
Y no sé qué aplicar al rdd para juntar todo en un campo que después pueda usar para contar cuantas veces aparece 'patatas fritas', o '1 plátano', etc. La finalidad es conseguir un histograma de frecuencias con las veces que aparece cada alimento.
Lo necesito para un proyecto de fin de master que estoy haciendo y no consigo ver la salida. Por favor, si alguien puede ayudarme, lo agradecería mucho.

Un saludo




(No se puede continuar esta discusión porque tiene más de dos meses de antigüedad. Si tienes dudas parecidas, abre un nuevo hilo.)