<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>0213-9111</journal-id>
<journal-title><![CDATA[Gaceta Sanitaria]]></journal-title>
<abbrev-journal-title><![CDATA[Gac Sanit]]></abbrev-journal-title>
<issn>0213-9111</issn>
<publisher>
<publisher-name><![CDATA[Sociedad Española de Salud Pública y Administración Sanitaria (SESPAS)]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S0213-91112008000100013</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Aproximación a la metodología basada en árboles de decisión (CART): Mortalidad hospitalaria del infarto agudo de miocardio]]></article-title>
<article-title xml:lang="en"><![CDATA[Approach to the methodology of classification and regression trees]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Trujillano]]></surname>
<given-names><![CDATA[Javier]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Sarria-Santamera]]></surname>
<given-names><![CDATA[Antonio]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
<xref ref-type="aff" rid="A04"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Esquerda]]></surname>
<given-names><![CDATA[Aureli]]></given-names>
</name>
<xref ref-type="aff" rid="A05"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Badia]]></surname>
<given-names><![CDATA[Mariona]]></given-names>
</name>
<xref ref-type="aff" rid="A05"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Palma]]></surname>
<given-names><![CDATA[Matilde]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[March]]></surname>
<given-names><![CDATA[Jaume]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Hospital Universitario Arnau de Vilanova Unidad de Cuidados Intensivos ]]></institution>
<addr-line><![CDATA[Lleida ]]></addr-line>
<country>España</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad de Lleida Departamento de Ciencias Médicas Básicas ]]></institution>
<addr-line><![CDATA[Lleida ]]></addr-line>
<country>España</country>
</aff>
<aff id="A03">
<institution><![CDATA[,Red IRYSS Instituto de Salud Carlos III Agencia de Evaluación de Tecnología Sanitaria]]></institution>
<addr-line><![CDATA[Madrid ]]></addr-line>
<country>España</country>
</aff>
<aff id="A04">
<institution><![CDATA[,Universidad de Alcalá Departamento de Ciencias Sanitarias y Médicosociales ]]></institution>
<addr-line><![CDATA[Madrid ]]></addr-line>
<country>España</country>
</aff>
<aff id="A05">
<institution><![CDATA[,Hospital Universitario Arnau de Vilanova Laboratorio de Bioquímica ]]></institution>
<addr-line><![CDATA[Lleida ]]></addr-line>
<country>España</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>02</month>
<year>2008</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>02</month>
<year>2008</year>
</pub-date>
<volume>22</volume>
<numero>1</numero>
<fpage>65</fpage>
<lpage>72</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.isciii.es/scielo.php?script=sci_arttext&amp;pid=S0213-91112008000100013&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.isciii.es/scielo.php?script=sci_abstract&amp;pid=S0213-91112008000100013&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.isciii.es/scielo.php?script=sci_pdf&amp;pid=S0213-91112008000100013&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Objetivo: : Realizar una aproximación a la metodología de árboles de decisión tipo CART (Classification and Regression Trees) desarrollando un modelo para calcular la probabilidad de muerte hospitalaria en infarto agudo de miocardio (IAM). Método: Se utiliza el conjunto mínimo básico de datos al alta hospitalaria (CMBD) de Andalucía, Cataluña, Madrid y País Vasco de los años 2001 y 2002, que incluye los casos con IAM como diagnóstico principal. Los 33.203 pacientes se dividen aleatoriamente (70 y 30 %) en grupo de desarrollo (GD = 23.277) y grupo de validación (GV = 9.926). Como CART se utiliza un modelo inductivo basado en el algoritmo de Breiman, con análisis de sensibilidad mediante el índice de Gini y sistema de validación cruzada. Se compara con un modelo de regresión logística (RL) y una red neuronal artificial (RNA) (multilayer perceptron). Los modelos desarrollados se contrastan en el GV y sus propiedades se comparan con el área bajo la curva ROC (ABC) (intervalo de confianza del 95%). Resultados: En el GD el CART con ABC = 0,85 (0,86-0,88), RL 0,87 (0,86-0,88) y RNA 0,85 (0,85-0,86). En el GV el CART con ABC = 0,85 (0,85-0,88), RL 0,86 (0,85-0,88) y RNA 0,84 (0,83-0,86). Conclusiones: Los 3 modelos obtienen resultados similares en su capacidad de discriminación. El modelo CART ofrece como ventaja su simplicidad de uso y de interpretación, ya que las reglas de decisión que generan pueden aplicarse sin necesidad de procesos matemáticos.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Objective: To provide an overview of decision trees based on CART (Classification and Regression Trees) methodology. As an example, we developed a CART model intended to estimate the probability of intrahospital death from acute myocardial infarction (AMI). Method: We employed the minimum data set (MDS) of Andalusia, Catalonia, Madrid and the Basque Country (2001-2002), which included 33,203 patients with a diagnosis of AMI. The 33,203 patients were randomly divided (70% and 30%) into the development (DS; n = 23,277) and the validation (VS; n = 9,926) sets. The CART inductive model was based on Breiman's algorithm, with a sensitivity analysis based on the Gini index and cross-validation. We compared the results with those obtained by using both logistic regression (LR) and artificial neural network (ANN) (multilayer perceptron) models. The developed models were contrasted with the VS and their properties were evaluated with the area under the ROC curve (AUC) (95% confidence interval [CI]). Results: In the DS, the CART showed an AUC = 0.85 (0.86-0.88), LR 0.87 (0.86-0.88) and ANN 0.85 (0.85-0.86). In the VS, the CART showed an AUC = 0.85 (0.85-0.88), LR 0.86 (0.85-0.88) and ANN 0.84 (0.83-0.86). Conclusions: None of the methods tested outperformed the others in terms of discriminative ability. We found that the CART model was much easier to use and interpret, because the decision rules generated could be applied without the need for mathematical cal]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Árboles de decisión]]></kwd>
<kwd lng="es"><![CDATA[Red neuronal artificial]]></kwd>
<kwd lng="es"><![CDATA[Regresión logística]]></kwd>
<kwd lng="en"><![CDATA[Classification and Regression Trees]]></kwd>
<kwd lng="en"><![CDATA[Artificial Neural Networks]]></kwd>
<kwd lng="en"><![CDATA[Logistic Regression]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><B><font size="2" face="Verdana">NOTA METODOLÓGICA</font></B></p>     <p>&nbsp;</p>     <p><B><font size="4" face="Verdana"><a name="top"></a>Aproximación a la metodología basada en árboles de decisión (CART). Mortalidad hospitalaria del infarto agudo de miocardio</font></B></p>     <p><B><font size="4" face="Verdana">Approach to the methodology of classification and regression trees</font></B></p>     <p>&nbsp;</p>     <p>&nbsp;</p>     <p><b><font size="2" face="Verdana">Javier Trujillano<SUP>a,b</SUP>, Antonio Sarria-Santamera<SUP>c,d</SUP>, </font><font size="2" face="Verdana">Aureli Esquerda<SUP>e</SUP>, </font><font size="2" face="Verdana">Mariona Badia<SUP>e</SUP>, </font><font size="2" face="Verdana">Matilde Palma<SUP>c</SUP>, </font><font face="Verdana"><font size="2">Jaume March</font><SUP><font size="2">b</font></SUP></font></b></p>     <p><font size="2" face="Verdana"><SUP>a</SUP></font><font size="2" face="Verdana">Unidad de Cuidados Intensivos, Hospital Universitario Arnau de Vilanova, Lleida, España.    <br> <SUP>b</SUP>Departamento de Ciencias Médicas Básicas, Universidad de Lleida, IRBLLEIDA, Lleida, España    <BR> <SUP>c</SUP>Agencia de Evaluación de Tecnología Sanitaria, ISCIII, Madrid, Red IRYSS, Madrid, España.    ]]></body>
<body><![CDATA[<br> <SUP>d</SUP>Departamento de Ciencias Sanitarias y Médicosociales, Universidad de Alcalá, Madrid, España    <BR> <SUP>e</SUP>Laboratorio de Bioquímica, Hospital Universitario Arnau de Vilanova, Lleida, España.</font></p>     <p><font size="2" face="Verdana"><a href="#back">Dirección para correspondencia</a></font></p>     <p>&nbsp;</p>     <p>&nbsp;</p>  <hr size="1">      <p><b><font size="2" face="Verdana">RESUMEN</font></b></p>     <p><font face="Verdana"><B><font size="2">Objetivo:</font></B><font size="2"> : Realizar  una aproximación a la metodología de árboles de decisión tipo CART  (Classification and Regression Trees) desarrollando un modelo para calcular la  probabilidad de muerte hospitalaria en infarto agudo de miocardio (IAM).    <br> </font><b><font size="2">Método</font></b><font size="2"><b>:</b> Se utiliza el conjunto mínimo básico de datos al  alta hospitalaria (CMBD) de Andalucía, Cataluña, Madrid y País Vasco de los años  2001 y 2002, que incluye los casos con IAM como diagnóstico principal. Los  33.203 pacientes se dividen aleatoriamente (70 y 30 %) en grupo de desarrollo  (GD = 23.277) y grupo de validación (GV = 9.926). Como CART se utiliza un modelo  inductivo basado en el algoritmo de Breiman, con análisis de sensibilidad  mediante el índice de Gini y sistema de validación cruzada. Se compara con un  modelo de regresión logística (RL) y una red neuronal artificial (RNA)  <I>(multilayer perceptron)</I>. Los modelos desarrollados se contrastan en el GV  y sus propiedades se comparan con el área bajo la curva ROC (ABC) (intervalo de  confianza del 95%).    <br> </font></font><font size="2" face="Verdana"><b>Resultados:</b> En el GD el CART con ABC = 0,85 (0,86-0,88), RL  0,87 (0,86-0,88) y RNA 0,85 (0,85-0,86). En el GV el CART con ABC = 0,85  (0,85-0,88), RL 0,86 (0,85-0,88) y RNA 0,84 (0,83-0,86).    <br> <b>Conclusiones:</b> Los 3 modelos obtienen resultados similares  en su capacidad de discriminación. El modelo CART ofrece como ventaja su  simplicidad de uso y de interpretación, ya que las reglas de decisión que  generan pueden aplicarse sin necesidad de procesos matemáticos.</font>    ]]></body>
<body><![CDATA[<p><font face="Verdana"><b><font size="2">Palabras clave:</font></b><font size="2"> Árboles de decisión. Red neuronal artificial. Regresión logística.</font></font></p>  <hr size="1">      <p><b><font size="2" face="Verdana">ABSTRACT</font></b></p>     <p><font face="Verdana"><b><font size="2">Objective</font></b><font size="2"><b>:</b> To provide an overview of decision  trees based on CART (Classification and Regression Trees) methodology. As an  example, we developed a CART model intended to estimate the probability of  intrahospital death from acute myocardial infarction (AMI).    <br> </font></font><font size="2" face="Verdana"><b>Method:</b> We employed the minimum data set (MDS) of  Andalusia, Catalonia, Madrid and the Basque Country (2001-2002), which included  33,203 patients with a diagnosis of AMI. The 33,203 patients were randomly  divided (70% and 30%) into the development (DS; n = 23,277) and the validation  (VS; n = 9,926) sets. The CART inductive model was based on Breiman's algorithm,  with a sensitivity analysis based on the Gini index and cross-validation. We  compared the results with those obtained by using both logistic regression (LR)  and artificial neural network (ANN) (multilayer perceptron) models. The  developed models were contrasted with the VS and their properties were evaluated  with the area under the ROC curve (AUC) (95% confidence interval &#091;CI&#093;).    <br> <b>Results:</b> In the DS, the CART showed an AUC = 0.85  (0.86-0.88), LR 0.87 (0.86-0.88) and ANN 0.85 (0.85-0.86). In the VS, the CART  showed an AUC = 0.85 (0.85-0.88), LR 0.86 (0.85-0.88) and ANN 0.84 (0.83-0.86).    <br> <b>Conclusions:</b> None of the methods tested outperformed the  others in terms of discriminative ability. We found that the CART model was much  easier to use and interpret, because the decision rules generated could be  applied without the need for mathematical cal</font>    <p><font size="2" face="Verdana"><b>Keywords:</b> Classification and Regression Trees. Artificial Neural Networks. Logistic Regression.</font></p>  <hr size="1">      <P>&nbsp;</P>     <P><b><font face="Verdana">Introducción</font></b></P>     <P><font size="2" face="Verdana">En la toma de decisiones en medicina es importante buscar metodologías que sean  precisas y nos ayuden a resolver los problemas que surgen a la hora de  clasificar, estratificar o pronosticar a nuestros  pacientes<SUP>1</SUP>.</font></P>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Esta labor de clasificar adquiere más  importancia si se dirige a crear directrices de planificación o en la  elaboración de guías de actuación generales. A la hora de afrontar este problema  de clasificación se han utilizado diversas aproximaciones  metodológicas<SUP>1</SUP>.</font></P>     <P><font size="2" face="Verdana">Los distintos métodos empleados deben  enfrentarse a 4 sucesivas barreras: <I>a)</I> seleccionar qué variables se  utilizan como predictoras; <I>b)</I> analizar el tipo de variables y su  naturaleza (p. ej., si siguen patrones de normalidad); <I>c)</I> valorar la  posibilidad de interacciones entre las variables, y <I>d)</I> plantearse si el  modelo resultante será útil en la práctica asistencial.</font></P>     <P><font size="2" face="Verdana">La utilización (en los últimos 10 años) de  árboles de decisión, y entre ellos los de tipo CART (Classification and  Regression Trees), aporta una aproximación que intenta solucionar estas 4  barreras y muestra, en algunas aplicaciones, ciertas ventajas respecto a otros  modelos<SUP>2</SUP>. Su utilización se ha extendido a áreas de la biología y la  medicina<SUP>3-9</SUP>.</font></P>     <P><font size="2" face="Verdana">Un árbol de clasificación es una forma de  representar el conocimiento obtenido en el proceso de aprendizaje inductivo.  Puede considerarse como la estructura resultante de la partición binaria  recursiva del espacio de representación a partir del conjunto de registros  utilizados. Cada registro está formado por el conjunto de valores de las  variables predictoras y el valor de la variable resultado que corresponde a cada  caso. Esta partición binaria recursiva se plasma en una organización jerárquica  del espacio de representación que puede modelarse mediante una estructura tipo  árbol. Cada nodo interior contiene una pregunta sobre una variable predictora  concreta (con un hijo para cada una de las 2 posibles respuestas) y cada nodo  hoja se refiere a un resultado (o clasificación)<SUP>10</SUP>.</font></P>     <P><font size="2" face="Verdana">Un esquema sencillo puede apreciarse en la  <a target="_blank" href="/img/revistas/gs/v22n1/11_f1.gif">figura 1</a>. El problema es separar (clasificar) entre los 2 tipos de figuras  (puntos y cruces) en el plano utilizando los valores de las 2 variables (X e Y).  Se parte del nodo raíz con 20 puntos y 10 cruces. La primera pregunta es sobre  la variable X (valores por encima de 3); si son valores por encima de 3 se  constituye un nodo hoja (1) que clasifica correctamente 15 puntos. Si el valor  de X no supera a 3 (tenemos 5 puntos y 10 cruces) y surge la segunda pregunta  sobre la variable Y (por encima del valor 3), si son valores superiores a 3 en  el nodo hoja (3) se clasifican 9 cruces y un punto. Si el valor de Y no supera a  3 se concluye en el nodo hoja (2) con 4 puntos y una cruz. Podríamos seguir  haciendo particiones sucesivas hasta conseguir una clasificación pura.  Naturalmente, en la mayoría de las ocasiones no se encuentra una clasificación  absoluta o el árbol necesario para conseguirla es muy grande (podríamos llegar a  un árbol con tantos nodos hojas como registros disponibles en nuestra base de  datos).</font></P>     <P><font size="2" face="Verdana">La clasificación de patrones se realiza  según una serie de preguntas sobre las variables predictoras, empezando por el  nodo raíz (el primero o de origen) y siguiendo el camino determinado por las  respuestas a las preguntas en los nodos internos, hasta llegar a un nodo hoja.  La etiqueta asignada a este nodo hoja es la que determina la clasificación  asignada.</font></P>     <P><font size="2" face="Verdana">La serie de preguntas/respuestas (que acaba  en cada nodo hoja) constituye una regla de decisión.</font></P>     <P><font size="2" face="Verdana">Un árbol quedará resumido en el conjunto de  reglas de decisión que lo compone. Para la interpretación de estas reglas se  aplica un punto de vista lógico y la plausibilidad clínica. Puede decirse que la  forma de pensar en medicina se aproxima a utilizar y sintetizar reglas de  decisión que generalizan los problemas clínicos o diagnósticos; por ello, los  árboles de decisión pueden ser bien aceptados por los médicos  asistenciales.</font></P>     <P><font size="2" face="Verdana">El objetivo de este trabajo es acercarnos a  la metodología CART, analizar un ejemplo (estratificar la mortalidad debida a un  infarto agudo de miocardio &#091;IAM&#093; en pacientes ingresados), comparar con otras  metodologías (regresión logística &#091;RL&#093; múltiple y red neuronal artificial  &#091;RNA&#093;), según los resultados del ejemplo, y mostrar sus posibles ventajas y  desventajas de forma general.</font></P>     <P>&nbsp;</P>     ]]></body>
<body><![CDATA[<P><b><font face="Verdana">Método</font></b></P>     <P><i><font size="2" face="Verdana">Base de datos. Variables</font></i></P>     <P><font size="2" face="Verdana">Estudio retrospectivo realizado con el  conjunto mínimo básico de datos al alta hospitalaria (CMBD) de Andalucía,  Cataluña, Madrid y País Vasco de los años 2001 y 2002, que incluye los casos con  IAM como diagnóstico principal. Los datos de esta base (así como la definición  de sus variables) ya se han descrito en otros trabajos<SUP>11</SUP>. Los 33.203  pacientes se dividen aleatoriamente (70-30%) en grupo de desarrollo (GD =  23.277) y grupo de validación (GV = 9.926). Utilizamos las 10 variables  predictoras que mostraron más importancia en el análisis univariante (sexo, edad  en años, hipertensión arterial &#091;HTA&#093;, fibrilación ventricular &#091;FV&#093;, arritmia,  insuficiencia cardíaca, accidente cerebrovascular agudo &#091;ACVA&#093;, insuficiencia  respiratoria &#091;IResp&#093;, insuficiencia renal &#091;IRenal&#093; y shock), y como variable de  salida el estado (vivo/muerto) al alta hospitalaria.</font></P>     <P><i><font size="2" face="Verdana">    <br> Desarrollo de un árbol de clasificación  (CART)</font></i></P>     <P><font size="2" face="Verdana">El proceso pueden esquematizarse en 4  fases: construcción <I>(building)</I> del árbol, parada <I>(stopping)</I> del  proceso de crecimiento del árbol (se constituye un árbol máximo que sobreajusta  la información contenida en nuestra base de datos), podado <I>(pruning)</I> del  árbol haciéndolo más sencillo y dejando sólo los nodos más importantes y, por  último, selección (<I>selection</I>) del árbol óptimo con capacidad de  generalización.</font></P>     <P><font size="2" face="Verdana">La construcción del árbol comienza en el  nodo raíz, que incluye todos los registros de la base de datos. A partir de este  nodo el programa debe buscar la variable más adecuada para partirlo en 2 nodos  hijos. Para elegir la mejor variable debe utilizarse una medida de pureza  <I>(purity)</I> en la valoración de los 2 nodos hijos posibles (la variable que  consigue una mayor pureza se convierte en la utilizada en primer lugar, y así  sucesivamente). Debe buscarse una función de partición <I>(splitting  function)</I> que asegure que la pureza en los nodos hijos sea la máxima. Una de  las funciones más utilizada es la denominada Gini (se alcanza un índice de  pureza que se considera como máximo).</font></P>     <P><font size="2" face="Verdana">El índice de Gini en el nodo <I>t</I>, <I>g(t)</I>, se puede formular del modo siguiente:</font></P>     <P align="center"><img border="0" src="/img/revistas/gs/v22n1/11_formula1.gif" width="150" height="40"></P>      <P><font size="2" face="Verdana">donde <I>i</I> y <I>j</I> son las categorías de la variable predictora y <I>p</I> es proporción.</font></P>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">La función de criterio &#934; <I>(s,t)</I> para la división <I>s</I> en el nodo <I>t</I> se define como:</font></P>     <P align="center"><img border="0" src="/img/revistas/gs/v22n1/11_formula2.gif" width="217" height="36"></P>     <P><font size="2" face="Verdana">donde <I>p<SUB>L</SUB></I> es la proporción de casos de t enviados al nodo hijo de la izquierda, y <I>p<SUB>R</SUB></I> al nodo hijo de la derecha.</font></P>     <P><font size="2" face="Verdana">Cuando se comienza en el nodo raíz <I>t = 1</I> (y también en las particiones sucesivas), se busca la división <I>s*</I>, de entre todas las posibles de <I>S</I>, que de un valor con mayor reducción de  la impureza:</font></P>     <P align="center"><img border="0" src="/img/revistas/gs/v22n1/11_formula3.gif" width="160" height="33"></P>      <P><font size="2" face="Verdana">Luego se divide el nodo 1 en 2 nodos hijos  <I>(t = 2 y t = 3)</I> utilizando la división <I>s*</I>. Este valor de la  función de impureza, ponderado por la proporción de todos los casos del nodo  <I>t</I>, es el valor del que se informa en el árbol como «mejora».</font></P>     <P><font size="2" face="Verdana">En el proceso sucesivo de construcción y  crecimiento del árbol se debe asignar una clase (etiqueta) a cada nodo (desde la  raíz hasta los nodos hoja). El procedimiento de asignación de clase debe hacerse  por medio de una función de asignación, en la que se tiene en cuenta la  probabilidad a priori asignada a cada clase (según la base de datos empleada),  la pureza de la partición y la proporción final de casos que aparecen en los  nodos hojas. Al igual que puede determinarse la pureza para un nodo concreto,  puede evaluarse de forma conjunta para todo el árbol.</font></P>     <P><font size="2" face="Verdana">El crecimiento de un árbol continúa hasta  que se produce cualquiera de estas 3 posibilidades: sólo hay una observación  (caso) en cada nodo hoja, todas las observaciones tienen la misma probabilidad  asignada en los nodos hoja (es imposible determinar el criterio de máxima  pureza), o se ha fijado un límite externo de la profundidad (número de niveles  máximo) del crecimiento del árbol. El árbol que se ha generado de esta forma  clasifica correctamente los registros utilizados en su proceso de aprendizaje  (se dice que este «sobreaprendizaje» se obtiene porque el modelo ha  «sobreajustado» los datos empleados en esta fase), pero cuando se enfrente a  nuevos registros no se asegura su capacidad de generalización.</font></P>     <P><font size="2" face="Verdana">El árbol complejo que se ha creado debe  simplificarse para que alcance esta capacidad de generalización. Se utiliza un  método de podado del árbol. El procedimiento asegura que sólo se retiran los  nodos que incrementan muy poco la precisión del árbol. Se utiliza una medida de  coste-complejidad (que combina los criterios de precisión frente a complejidad  en el número de nodos y velocidad de procesamiento), buscando el árbol que  obtiene menor valor en este parámetro. Los árboles más sencillos (podados con  este criterio) aseguran una mayor capacidad de generalización.</font></P>     <P><font size="2" face="Verdana">De todos los árboles podados posibles debe  seleccionarse el mejor. El mejor árbol (árbol solución) será el que consigue  menor error en el ajuste de los registros utilizados en su proceso de  aprendizaje. Pero esta condición no es suficiente, debe ajustar bien la base de  datos utilizada en su aprendizaje, pero también debe ajustar registros no  empleados en esta fase. Para conseguir este objetivo hay diversos  métodos.</font></P>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">El método más común (implementado en los  programas de mayor utilización), que no precisa un conjunto de prueba  independiente, se denomina validación cruzada. La validación cruzada es un  método de remuestreo que aprovecha el total de la información disponible en la  base de datos sin prescindir de una parte de sus registros.</font></P>     <P><font size="2" face="Verdana">En la validación cruzada se divide de forma  aleatoria la base de datos utilizada en la fase de aprendizaje (conjunto de  aprendizaje) en N partes (normalmente 10). De forma secuencial, cada una de  estos subconjuntos se reserva para emplearse como conjunto de prueba frente al  modelo de árbol generado por los N-1 subconjuntos restantes. Obtenemos así N  modelos diferentes, donde se puede evaluar la precisión de las clasificaciones  tanto en el conjunto de aprendizaje (N-1) como en los subconjuntos de prueba  (N), y podemos seleccionar el árbol óptimo cuando la precisión se alcance tanto  en uno como en otro subconjunto.</font></P>     <P><font size="2" face="Verdana">Las diferencias principales entre los  distintos algoritmos de construcción de árboles de decisión radican en las  estrategias de poda y en la regla adoptada para partir los nodos.</font></P>     <P><i><font size="2" face="Verdana">    <br> Modelo de regresión logística múltiple y  red neuronal artificial</font></i></P>     <P><font size="2" face="Verdana">Utilizamos un modelo de RL con posibilidad  de selección de variables por pasos.</font></P>     <P><font size="2" face="Verdana">Para el desarrollo de la RNA utilizamos una  arquitectura de perceptrón multicapa (MLP, <I>multilayered perceptron</I>)  entrenado con algoritmo de retropropagación del error <I>(backpropagation)</I>.  Este tipo de RNA es una de las más utilizadas en el ámbito de la  medicina<SUP>12</SUP>.</font></P>     <P><font size="2" face="Verdana">Para la creación de la RNA utilizamos el  programa comercial Qnet 97 (Vesta Services Inc.). Los parámetros de  entrenamiento modificables en el <I>software</I> (momento, coeficiente de  aprendizaje, etc.) fueron optimizados para alcanzar el mejor resultado de la  red<SUP>13</SUP>.</font></P>     <P><i><font size="2" face="Verdana">    <br> Comparación de los modelos</font></i></P>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Para comparar los distintos modelos se  medirán sus propiedades de sensibilidad (S), especificidad (E), área bajo la  curva ROC (ABC) y porcentaje de correcta clasificación (PCC) con sus  correspondientes intervalos de confianza (IC) del  95%<SUP>14,15</SUP>.</font></P>     <P><font size="2" face="Verdana">Utilizamos el test de Bland-Altman para  comparar las probabilidades individuales obtenidas por cada  modelo<SUP>16</SUP>.</font></P>     <P><font size="2" face="Verdana">Los cálculos estadísticos se realizaron con  el programa SPSS 12.0.</font></P>     <P>&nbsp;</P>     <P><b><font face="Verdana">Resultado</font></b></P>     <P><i><font size="2" face="Verdana">Modelo de árbol de decisión CART</font></i></P>     <P><font size="2" face="Verdana">El <I>software</I> que utilizamos (DTREG  versión 3.5) utiliza de forma básica las características que hemos descrito en  nuestra aproximación metodológica: modelo inductivo según el algoritmo de  Breiman (forma de construcción del árbol), con análisis de sensibilidad basado  en índice de Gini y sistema de validación cruzada.</font></P>     <P><font size="2" face="Verdana">Los otros parámetros utilizados (requeridos  por el programa) fueron: control del tamaño del árbol (hoja con registros  superiores a 15 y profundidad del árbol menor a 10), control del podado por  reducción de error estándar, no selección del criterio de partición inicial y  asignación de probabilidad de las categorías según la original de la base de  datos.</font></P>     <P><font size="2" face="Verdana">Los resultados que se obtienen se muestran  en las figuras <a target="_blank" href="/img/revistas/gs/v22n1/11_f2.gif">2</a> y  <a target="_blank" href="/img/revistas/gs/v22n1/11_f3.gif">3</a>. Como se puede apreciar, hay 2 subgrupos diferenciados  según la variable sexo.</font></P>     <P><font size="2" face="Verdana">El árbol sólo ha utilizado 7 variables que,  ordenadas según la importancia asignada, son: shock, edad, FV, insuficiencia  cardíaca, sexo, ACVA e IRenal. El modelo se resume en 19 reglas de decisión (con  las combinaciones de las 7 variables utilizadas).</font></P>     ]]></body>
<body><![CDATA[<P><font size="2" face="Verdana">Por ejemplo una de las reglas de decisión  (<a target="_blank" href="/img/revistas/gs/v22n1/11_f2.gif">fig. 2</a>) es:</font></P>     <P><font size="2" face="Verdana">Si es hombre y no presenta shock, y si  tiene menos de 68,5 años y FV, el modelo le asigna una probabilidad de  mortalidad hospitalaria del 19,75%.</font></P>     <P><font size="2" face="Verdana">Simplemente observando los 2 árboles se  detectan diferencias entre hombre y mujer. Los 2 árboles se pueden evaluar según  aspectos clínicos y demuestran el diferente comportamiento entre hombres y  mujeres (con mayor probabilidad de muerte a priori para las mujeres). También se  observa el distinto peso de las variables (primero pregunta sobre la existencia  de shock por su importancia en el pronóstico), para la edad el punto de corte  diferente según sexo y, posteriormente, aparecen las otras variables que se  consideran importantes. No hace falta realizar ningún cálculo para obtener la  probabilidad asignada siguiendo cada la regla de decisión que nos lleva a cada  nodo final.</font></P>     <P><i><font size="2" face="Verdana">    <br> Modelo de regresión logística  múltiple</font></i></P>     <P><font size="2" face="Verdana">El resultado de la RL se muestra en la  <a target="_blank" href="/img/revistas/gs/v22n1/11_t1.gif">tabla 1</a>. La variable arritmia quedó excluida en el análisis por pasos como no  significativa. La <a target="_blank" href="/img/revistas/gs/v22n1/11_t1.gif">tabla</a> nos da información sobre la importancia de las variables  (orden de los exponentes B), el grado de significación estadística y la  posibilidad de cálculo de probabilidad asignada (por el modelo logístico) con  los valores de los coeficientes beta por medio de su ecuación  matemática.</font></P>     <P><i><font size="2" face="Verdana">    <br> Modelo de red neuronal  artificial</font></i></P>     <P><font size="2" face="Verdana">La arquitectura óptima para el modelo se  seleccionó de forma empírica y consta de 3 capas (una de entrada, una oculta y  una de salida). La capa de entrada con las 10 variables predictoras, la oculta  con 4 nodos, y la de salida con un nodo que reflejaba la probabilidad de  mortalidad hospitalaria, con redes más complejas no obtuvimos mejores  resultados. La RNA, aun siendo sencilla, tiene un total de 44 parámetros (10 de  la capa de entrada por 4 de la capa oculta más 4 de comunicación entre la capa  oculta y el nodo de salida). El programa Qnet nos muestra el orden de  importancia de las variables de entrada (que en este caso siguieron un patrón  similar al conseguido por regresión logística que sólo utiliza 9 parámetros).</font></P>     <P><i><font size="2" face="Verdana">    ]]></body>
<body><![CDATA[<br>Comparación de los distintos modelos</font></i></P>     <P><font size="2" face="Verdana">Los 3 modelos obtenidos con el GD se  enfrentaron también al GV. El resumen de los resultados se expone en la  <a href="#t2">tabla 2</a>.  Se aprecia que hay pocas diferencias entre los modelos en sus propiedades  evaluadas. Se aprecia una menor sensibilidad en los modelos CART, pero  recordamos que están trabajando con menos variables.</font></P>     <P align="center"><a name="t2"><img border="0" src="/img/revistas/gs/v22n1/11_t2.gif" width="358" height="313"></a></P>      <P><font size="2" face="Verdana">    <br> En la <a target="_blank" href="/img/revistas/gs/v22n1/11_f4.gif">figura 4</a> se muestran los gráficos de Bland-Altman obtenidos en el GD, y observamos que entre el modelo de RL y RNA  hay menos diferencias (en las probabilidades de muerte hospitalaria  individuales) que entre el modelo RL y el tipo CART (que muestra también la  característica de ser discreto por sus 19 reglas de decisión). Atribuimos este  resultado a que en este ejemplo todas las variables (menos la EDAD) son  categóricas, por lo que el modelo RNA presenta más dificultades para encontrar  interrelaciones entre las variables y así poder diferenciarse del modelo  RL.</font></P>     <P>&nbsp;</P>     <P><b><font face="Verdana">Discusión</font></b></P>     <P><font size="2" face="Verdana">En este ejemplo que hemos analizado, los  resultados globales no diferencian (en la capacidad de discriminación) un modelo  superior a otro, pero puede ser que en otras aplicaciones un modelo supere a los  demás. El ejemplo también nos ha señalado que con las mismas variables  predictoras los modelos son capaces de asignar, en algunos casos, probabilidades  de muerte diferentes.</font></P>     <P><font size="2" face="Verdana">Las limitaciones que pueden argumentarse se  centran en cada una de las metodologías empleadas: podríamos haber buscado  interacciones entre las variables e incluirlas en el modelo de RL, utilizar  otros tipos de RNA o arquitecturas más sofisticadas para conseguir mejores  resultados con las redes, o aplicar otros algoritmos en el desarrollo de los  árboles de decisión<SUP>17</SUP>. También podrían haberse empleado otras  metodologías, como el análisis discriminante o la lógica  <I>fuzzy</I><SUP>18,19</SUP>.</font></P>     <P><font size="2" face="Verdana">En definitiva, con la misma información  (mismas variables) pueden construirse distintas aproximaciones en un problema de  clasificación. No hay una metodología que sea mejor en todos los casos, pero sí  que expresan distintas capacidades que deben ser valoradas (<a href="#t3">tabla 3</a>):</font></P>     ]]></body>
<body><![CDATA[<P align="center"><a name="t3"><img border="0" src="/img/revistas/gs/v22n1/11_t3.gif" width="356" height="239"></a></P>      <P><font size="2" face="Verdana">- Accesibilidad. Los paquetes  estadísticos de uso habitual incluyen la RLM. Hay infinidad de publicaciones en  medicina que emplean esta metodología. Los modelos basados en RNA y CART no son  tan accesibles, ya que precisan programas específicos de menor  difusión.</font></P>     <P><font size="2" face="Verdana">- Posibilidad de utilizar variables  continuas o discretas. Los 3 modelos ofrecen esa posibilidad.</font></P>     <P><font size="2" face="Verdana">- Selección de variables según la  importancia y la aportación de información. En RL y CART se hace de forma  automática, y en RNA debe hacerse de forma «manual» (aunque hay otros programas  que incorporan esta posibilidad).</font></P>     <P><font size="2" face="Verdana">- Modelo de asignación de probabilidad.  El modelo RL es parámetrico (asignación según modelo logístico). El basado en  CART es no paramétrico y las redes son el paradigma de aproximación universal de  funciones.</font></P>     <P><font size="2" face="Verdana">- Interrelación de variables. En RL  deben incluirse en el modelo, CART analiza las interrelaciones en sus reglas de  decisión y en RNA pueden tenerse en cuenta todas las posibilidades.</font></P>     <P><font size="2" face="Verdana">- Interpretación de resultados. Aquí la  ventaja está a favor del CART, es menor en RL y, en el caso de las RNA, son una  caja negra en la interpretación de sus parámetros<SUP>20</SUP>.</font></P>     <P><font size="2" face="Verdana">Los modelos no son excluyentes: ante un  mismo problema deben barajarse distintas metodologías que pueden colaborar en la  búsqueda de un resultado óptimo<SUP>21</SUP>.</font></P>     <P><font size="2" face="Verdana">Como conclusión, podemos afirmar que los  modelos basados en árboles de decisión ofrecen como ventaja una simplicidad en  su utilización e interpretación ya que sus reglas de decisión no necesitan  procesos matemáticos para ser interpretadas.</font></P>     <P>&nbsp;</P>     ]]></body>
<body><![CDATA[<P><b><font face="Verdana">Agradecimientos</font></b></P>     <P><font size="2" face="Verdana">El presente trabajo ha contado con la financiación parcial de la Red Temática de Investigación Cooperativa de Investigación de Resultados y Servicios Sanitarios G03/202.</font></P>     <P>&nbsp;</P>     <P><b><font face="Verdana">Bibliografía</font></b></P>     <!-- ref --><p><font size="2" face="Verdana">1. Tom E, Schulman KA. Mathematical models in decision analysis. Infect Control Hosp Epidemiol. 1997;18:65-73.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381017&pid=S0213-9111200800010001300001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">2. Crichton NJ, Hinde JP, Marchini J. Models for diagnosing chest pain: is CART helpful? Stat Med. 1997;16:717-27.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381018&pid=S0213-9111200800010001300002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">3. Saegerman C, Speybroeck N, Roels S, Vanopdenbosch E, Thiry E, Berkvens D. Decision support tools for clinical diagnosis of disease in cows with suspected bovine spongiform encephalopathy. J Clin Microbiol. 2004;42:172-8.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381019&pid=S0213-9111200800010001300003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">4. Bachur RG, Harper MB. Predictive model for serious bacterial infection among infants younger than 3 months of age. Pediatrics. 2001;108:311-6.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381020&pid=S0213-9111200800010001300004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">5. Gerald LB, Tang S, Bruce F, Redden D, Kimerling ME, Brook N, et al. A decision tree for tuberculosis contact investigation. Am J Respir Crit Care Med. 2002;166:1122-7.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381021&pid=S0213-9111200800010001300005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">6. Thoefner MB, Ersboll BK, Jansson N, Hesselholt M. Diagnostic decision rule for support in clinical assessment of the need for surgical intervention in horses with acute abdominal pain. Can J Vet Res. 2003;67:20-9.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381022&pid=S0213-9111200800010001300006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">7. Vlahou A, Schorge JO, Gregory BW, Coleman RL. Diagnosis of ovarian cancer using decision tree classification of mass spectral data. J Biomed Biotechnol. 2003;5:308-14.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381023&pid=S0213-9111200800010001300007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">8. Pavlopoulos SA, Stasis ACH, Loukis EN. A decision tree-based method for the differential diagnosis of aortic stenosis from mitral regurgitation using heart sounds. Biomed Eng Online. 2004;3:21-37.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381024&pid=S0213-9111200800010001300008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">9. Perrier A, Nendaz MR, Sarasin FP, Howarth N, Bounameaux H. Cost-effectiveness analysis of diagnostic strategies for suspected pulmonary embolism including helical computed tomography. Am J Respir Crit Care Med. 2002;167:39-44.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381025&pid=S0213-9111200800010001300009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">10. Electronic Statistics Textbook. Tulsa, OK: StatSoft &#091;citado 8 Feb 2006&#093;. Disponible en:  <a target="_blank" href="http://www.statsoft.com/textbook/stcart.html"> http://www.statsoft.com/textbook/stcart.html</a></font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381026&pid=S0213-9111200800010001300010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">11. Sendra JM, Sarria-Santamera A, Inigo J, Regidor E. Factores asociados a la mortalidad intrahospitalaria del infarto de miocardio. Resultados de un estudio observacional. Med Clin (Barc). 2005;125:641-6.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381027&pid=S0213-9111200800010001300011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">12. Trujillano J, March J, Sorribas A. Aproximación metodológica al uso de redes neuronales artificiales para la predicción de resultados en medicina. Med Clin (Barc). 2004;122 Supl 1:59-67.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381028&pid=S0213-9111200800010001300012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">13. Trujillano J, March J, Badia M, Rodríguez A, Sorribas A. Aplicación de las Redes Neuronales Artificiales para la estratificación de riesgo de mortalidad hospitalaria. Gac Sanit. 2003;17:504-11.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381029&pid=S0213-9111200800010001300013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">14. Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology. 1982;143:29-36.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381030&pid=S0213-9111200800010001300014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">15. Bland JM, Altman DG. Statistical methods for assessing agreement between two methods of clinical measurement. Lancet. 1986;1:307-10.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381031&pid=S0213-9111200800010001300015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">16. Podgorelec V, Kokol P, Stiglic B, Rozman I. Decision trees: an overview and their use in medicine. J Med Syst. 2002;26:445-63.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381032&pid=S0213-9111200800010001300016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">17. Colombet I, Ruelland A, Chatellier G, Gueyffier F, Degoulet P, Jaulent MC. Models to predict cardiovascular risk: comparison of CART, Multilayer perceptron and logistic regression. Proc AMIA Symp. 2000;156-60.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381033&pid=S0213-9111200800010001300017&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">18. Harper PR. A review and comparison of classification algorithms for medical decision making. Health Policy. 2005;71:315-31.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381034&pid=S0213-9111200800010001300018&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">19. Schwarzer G, Nagata T, Mattern D, Schmelzeisen R, Schumacher M. Comparison of fuzzy inference, logistic regression, and classification trees (CART). Prediction of cervical lymph node metastasis in carcinoma of the tongue. Methods Inf Med. 2003;42:572-7.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381035&pid=S0213-9111200800010001300019&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">20. Raubertas RF, Rodewald LE, Humiston SG, Szilagyi PG. ROC curves for classification trees. Med Decis Making. 1994;14:169-74.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381036&pid=S0213-9111200800010001300020&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P> <font size="2" face="Verdana">21. Costanza MC, Paccaud F. Binary classification of dyslipidemia from the waist-to-hip ratio and body mass index: a comparison of linear, logistic, and CART models. BMC Medical Research Methodology. 2004;4:7-17.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=2381037&pid=S0213-9111200800010001300021&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><P> &nbsp;</p>     <P> &nbsp;</p>     <P> <font face="Verdana"><font size="2"><b><a href="#top"><img border="0" src="/img/revistas/gs/v22n1/seta.gif" width="15" height="17"></a><a name="back"></a>Dirección para correspondencia:</b>    <BR> Javier Trujillano.    <BR> Hospital Arnau de Vilanova.    ]]></body>
<body><![CDATA[<BR> Unidad de Cuidados Intensivos.    <BR> Avda. Rovira Roure, 80.    <BR> 25198 Lleida. España.    <BR> Correo electrónico: </font> <A href="mailto:jtruji@cmb.udl.es"><font size="2">jtruji@cmb.udl.es</font></A></font></p>      <P><font size="2" face="Verdana">Recibido: 12 de diciembre de 2006.    <BR> Aceptado: 27 de julio de 2007.</font></P>       ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Tom]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Schulman]]></surname>
<given-names><![CDATA[KA]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Mathematical models in decision analysis]]></article-title>
<source><![CDATA[Infect Control Hosp Epidemiol]]></source>
<year>1997</year>
<volume>18</volume>
<page-range>65-73</page-range></nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Crichton]]></surname>
<given-names><![CDATA[NJ]]></given-names>
</name>
<name>
<surname><![CDATA[Hinde]]></surname>
<given-names><![CDATA[JP]]></given-names>
</name>
<name>
<surname><![CDATA[Marchini]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Models for diagnosing chest pain: is CART helpful?]]></article-title>
<source><![CDATA[Stat Med]]></source>
<year>1997</year>
<volume>16</volume>
<page-range>717-27</page-range></nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Saegerman]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Speybroeck]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[Roels]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Vanopdenbosch]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Thiry]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Berkvens]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Decision support tools for clinical diagnosis of disease in cows with suspected bovine spongiform encephalopathy]]></article-title>
<source><![CDATA[J Clin Microbiol]]></source>
<year>2004</year>
<volume>42</volume>
<page-range>172-8</page-range></nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Bachur]]></surname>
<given-names><![CDATA[RG]]></given-names>
</name>
<name>
<surname><![CDATA[Harper]]></surname>
<given-names><![CDATA[MB]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Predictive model for serious bacterial infection among infants younger than 3 months of age]]></article-title>
<source><![CDATA[Pediatrics]]></source>
<year>2001</year>
<volume>108</volume>
<page-range>311-6</page-range></nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Gerald]]></surname>
<given-names><![CDATA[LB]]></given-names>
</name>
<name>
<surname><![CDATA[Tang]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Bruce]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[Redden]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[Kimerling]]></surname>
<given-names><![CDATA[ME]]></given-names>
</name>
<name>
<surname><![CDATA[Brook]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A decision tree for tuberculosis contact investigation]]></article-title>
<source><![CDATA[Am J Respir Crit Care Med]]></source>
<year>2002</year>
<volume>166</volume>
<page-range>1122-7</page-range></nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Thoefner]]></surname>
<given-names><![CDATA[MB]]></given-names>
</name>
<name>
<surname><![CDATA[Ersboll]]></surname>
<given-names><![CDATA[BK]]></given-names>
</name>
<name>
<surname><![CDATA[Jansson]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[Hesselholt]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Diagnostic decision rule for support in clinical assessment of the need for surgical intervention in horses with acute abdominal pain]]></article-title>
<source><![CDATA[Can J Vet Res]]></source>
<year>2003</year>
<volume>67</volume>
<page-range>20-9</page-range></nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Vlahou]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Schorge]]></surname>
<given-names><![CDATA[JO]]></given-names>
</name>
<name>
<surname><![CDATA[Gregory]]></surname>
<given-names><![CDATA[BW]]></given-names>
</name>
<name>
<surname><![CDATA[Coleman]]></surname>
<given-names><![CDATA[RL]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Diagnosis of ovarian cancer using decision tree classification of mass spectral data]]></article-title>
<source><![CDATA[J Biomed Biotechnol]]></source>
<year>2003</year>
<volume>5</volume>
<page-range>308-14</page-range></nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Pavlopoulos]]></surname>
<given-names><![CDATA[SA]]></given-names>
</name>
<name>
<surname><![CDATA[Stasis]]></surname>
<given-names><![CDATA[ACH]]></given-names>
</name>
<name>
<surname><![CDATA[Loukis]]></surname>
<given-names><![CDATA[EN]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A decision tree-based method for the differential diagnosis of aortic stenosis from mitral regurgitation using heart sounds]]></article-title>
<source><![CDATA[Biomed Eng Online]]></source>
<year>2004</year>
<volume>3</volume>
<page-range>21-37</page-range></nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Perrier]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Nendaz]]></surname>
<given-names><![CDATA[MR]]></given-names>
</name>
<name>
<surname><![CDATA[Sarasin]]></surname>
<given-names><![CDATA[FP]]></given-names>
</name>
<name>
<surname><![CDATA[Howarth]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[Bounameaux]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Cost-effectiveness analysis of diagnostic strategies for suspected pulmonary embolism including helical computed tomography]]></article-title>
<source><![CDATA[Am J Respir Crit Care Med]]></source>
<year>2002</year>
<volume>167</volume>
<page-range>39-44</page-range></nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="book">
<source><![CDATA[Electronic Statistics Textbook]]></source>
<year></year>
<publisher-loc><![CDATA[Tulsa^eOK OK]]></publisher-loc>
<publisher-name><![CDATA[StatSoft]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sendra]]></surname>
<given-names><![CDATA[JM]]></given-names>
</name>
<name>
<surname><![CDATA[Sarria-Santamera]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Inigo]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Regidor]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Factores asociados a la mortalidad intrahospitalaria del infarto de miocardio: Resultados de un estudio observacional]]></article-title>
<source><![CDATA[Med Clin (Barc)]]></source>
<year>2005</year>
<volume>125</volume>
<page-range>641-6</page-range></nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Trujillano]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[March]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Sorribas]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Aproximación metodológica al uso de redes neuronales artificiales para la predicción de resultados en medicina]]></article-title>
<source><![CDATA[Med Clin (Barc)]]></source>
<year>2004</year>
<volume>122</volume>
<numero>^s1</numero>
<issue>^s1</issue>
<supplement>1</supplement>
<page-range>59-67</page-range></nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Trujillano]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[March]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Badia]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Rodríguez]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Sorribas]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Aplicación de las Redes Neuronales Artificiales para la estratificación de riesgo de mortalidad hospitalaria]]></article-title>
<source><![CDATA[Gac Sanit]]></source>
<year>2003</year>
<volume>17</volume>
<page-range>504-11</page-range></nlm-citation>
</ref>
<ref id="B14">
<label>14</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hanley]]></surname>
<given-names><![CDATA[JA]]></given-names>
</name>
<name>
<surname><![CDATA[McNeil]]></surname>
<given-names><![CDATA[BJ]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The meaning and use of the area under a receiver operating characteristic (ROC) curve]]></article-title>
<source><![CDATA[Radiology]]></source>
<year>1982</year>
<volume>143</volume>
<page-range>29-36</page-range></nlm-citation>
</ref>
<ref id="B15">
<label>15</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Bland]]></surname>
<given-names><![CDATA[JM]]></given-names>
</name>
<name>
<surname><![CDATA[Altman]]></surname>
<given-names><![CDATA[DG]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Statistical methods for assessing agreement between two methods of clinical measurement]]></article-title>
<source><![CDATA[Lancet]]></source>
<year>1986</year>
<volume>1</volume>
<page-range>307-10</page-range></nlm-citation>
</ref>
<ref id="B16">
<label>16</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Podgorelec]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
<name>
<surname><![CDATA[Kokol]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Stiglic]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Rozman]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Decision trees: an overview and their use in medicine]]></article-title>
<source><![CDATA[J Med Syst]]></source>
<year>2002</year>
<volume>26</volume>
<page-range>445-63</page-range></nlm-citation>
</ref>
<ref id="B17">
<label>17</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Colombet]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
<name>
<surname><![CDATA[Ruelland]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Chatellier]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[Gueyffier]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[Degoulet]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Jaulent]]></surname>
<given-names><![CDATA[MC]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Models to predict cardiovascular risk: comparison of CART, Multilayer perceptron and logistic regression]]></article-title>
<source><![CDATA[Proc AMIA Symp]]></source>
<year>2000</year>
<page-range>156-60</page-range></nlm-citation>
</ref>
<ref id="B18">
<label>18</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Harper]]></surname>
<given-names><![CDATA[PR]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A review and comparison of classification algorithms for medical decision making]]></article-title>
<source><![CDATA[Health Policy]]></source>
<year>2005</year>
<volume>71</volume>
<page-range>315-31</page-range></nlm-citation>
</ref>
<ref id="B19">
<label>19</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Schwarzer]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[Nagata]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[Mattern]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[Schmelzeisen]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Schumacher]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Comparison of fuzzy inference, logistic regression, and classification trees (CART): Prediction of cervical lymph node metastasis in carcinoma of the tongue]]></article-title>
<source><![CDATA[Methods Inf Med]]></source>
<year>2003</year>
<volume>42</volume>
<page-range>572-7</page-range></nlm-citation>
</ref>
<ref id="B20">
<label>20</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Raubertas]]></surname>
<given-names><![CDATA[RF]]></given-names>
</name>
<name>
<surname><![CDATA[Rodewald]]></surname>
<given-names><![CDATA[LE]]></given-names>
</name>
<name>
<surname><![CDATA[Humiston]]></surname>
<given-names><![CDATA[SG]]></given-names>
</name>
<name>
<surname><![CDATA[Szilagyi]]></surname>
<given-names><![CDATA[PG]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[ROC curves for classification trees]]></article-title>
<source><![CDATA[Med Decis Making]]></source>
<year>1994</year>
<volume>14</volume>
<page-range>169-74</page-range></nlm-citation>
</ref>
<ref id="B21">
<label>21</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Costanza]]></surname>
<given-names><![CDATA[MC]]></given-names>
</name>
<name>
<surname><![CDATA[Paccaud]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Binary classification of dyslipidemia from the waist-to-hip ratio and body mass index: a comparison of linear, logistic, and CART models]]></article-title>
<source><![CDATA[BMC Medical Research Methodology]]></source>
<year>2004</year>
<volume>4</volume>
<page-range>7-17</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
