[ Foro de Python ]

Juntar contenido columnas dataframe o contar palabras rdd

03-Jul-2018 17:25
elena moreno
0 Respuestas

No consigo juntar en una columna varias columnas de un dataframe. Tengo lo siguiente:
+--------------------+--------------------+--------------------+--------+--------------------+
|            desayuno|            almuerzo|              comida|merienda|                cena|
+--------------------+--------------------+--------------------+--------+--------------------+
|1 taza de kefir d...|           1 plátano|carne de morcillo...|    null|patatas fritas; 1...|
|1 taza de kefir c...|1 pepino; 1 pera;...|espinacas rehogad...|    null|   suero sabor fresa|
+--------------------+--------------------+--------------------+--------+--------------------+
quiero crearme una columna que tenga el contenido de todas las columnas. Por ejemplo, columna = alimentos cuyo contenido sea el de las columnas desayuno + almuerzo+ comida + etc. El contenido de todas las columnas son strings.
Mi idea es pasarlo después a un rdd y después contar cuantas veces aparece cada expresión. Pero no lo consigo.
He probado a pasarlo directamente a un rdd, y obtengo lo siguiente:
[Row(desayuno='1 taza de kefir de vaca; 5 g inulina; 2 craquers arroz integral; homos; 2 ajos; 1 tomate; 2 lonchas jamón serrano; 3 nueces; 1 kiwi; in
fusión de jengibre y manzanilla y anis estrellado y canela', almuerzo='1 plátano', comida='carne de morcillo cocida y asada; patata asada; crema de nu
eces y aceite y maicena y comino; queso oveja; cherries; postre lácteo de nata y chocolate', merienda=None, cena='patatas fritas; 1 huevo frito; 1 pep
ino; 1 ajo'), Row(desayuno='1 taza de kefir casero de cabra; 1 endivia; 1 lata de atún en aceite; medio tomate; 2 ajos; 1 puñado de pasas; 3 nueces; m
edia naranja; infusión de tomillo y salvia y manzanilla', almuerzo='1 pepino; 1 pera; 40 g almendras y anacardos; te verde con manzanilla', comida='es
pinacas rehogadas con ajo; magro de cerdo', merienda=None, cena='suero sabor fresa')]
Y no sé qué aplicar al rdd para juntar todo en un campo que después pueda usar para contar cuantas veces aparece 'patatas fritas', o '1 plátano', etc. La finalidad es conseguir un histograma de frecuencias con las veces que aparece cada alimento.
Lo necesito para un proyecto de fin de master que estoy haciendo y no consigo ver la salida. Por favor, si alguien puede ayudarme, lo agradecería mucho.

Un saludo




Si ya eres usuario del sistema, puedes contestar desde tu cuenta y así ganar prestigio.

Si sólo eres un visitante, puedes optar por...