[ Foro de Python ]
Estoy siguiendo un tutorial para la competición de Titanic de Kaggle y utiliza un atributo que no comprendo muy bien: .feature_importances_
Por lo que me parece entender devuelve un array de la importancia que tiene cada una de las características que hayas incluido en el arbol de decisiones.
Tampoco entiendo bien el metodo score() del mismo arbol, a este se le pasa como argumentos un "targe" y esas caracteristicas, pero ambas cosas, devuelven unos n'umeros que no se interpretar. Podeis ayudarme:
# Import the Pandas library
import pandas as pd
# Import 'tree' from scikit-learn library
from sklearn import tree
# Load the train dataset
train_url = "http://s3.amazonaws.com/assets.datacamp.com/course/Kaggle/train.csv"
train = pd.read_csv(train_url)
# Convert the male and female groups to integer form
train["Sex"][train["Sex"] == "male"] = 0
train["Sex"][train["Sex"] == "female"] = 1
# Fill the gaps in the Embarked variable
train["Embarked"] = train["Embarked"].fillna("S")
# Fill the gaps in the Age variable
train["Age"] = train["Age"].fillna(train["Age"].median())
# Convert the Embarked classes to integer form
train["Embarked"][train["Embarked"] == "S"] = 0
train["Embarked"][train["Embarked"] == "C"] = 1
train["Embarked"][train["Embarked"] == "Q"] = 2
# Create the target and features numpy arrays: target, features_one
target = train["Survived"].values
features_one = train[["Pclass", "Sex", "Age", "Fare"]].values
# Fit your first decision tree: my_tree_one
my_tree_one = tree.DecisionTreeClassifier()
my_tree_one = my_tree_one.fit(features_one, target)
# Look at the importance and score of the included features
print(my_tree_one.feature_importances_)
print(my_tree_one.score(features_one, target))
(No se puede continuar esta discusión porque tiene más de dos meses de antigüedad. Si tienes dudas parecidas, abre un nuevo hilo.)