Interagindo com os Modelos de Classificação
Este capitulo irá analizar os programas que permiterm ao usuário iteragir com modelos de classificação baseados em árvores de decisão ou regras.O objetivo destes programas esta em fornecer maior flexibilidade durante a descrição de um caso e também prover mais informação a respeito das predições.
Modelos Baseados em Árvores de Decisão
O programa que permite a iteração do usuário baseado em árvores de decisão é chamado consult.Como exemplo será utilizada a árvore de decisão apresentada na figura 8-1, gerada a partir de um conjunto de casos referentes as disfunções da tireoide.
TSH <= 6 : negative (2246.8/2.6) TSH > 6 : | FTI <= 64 : | | TSH measured = f: negative (4.3/1.2) | | TSH measured = t: | | | T4U measured = f: compensated hypothyroid (4.5/3.3) | | | T4U measured = t: | | | | thyroid surgery = f: primary hypothyroid (59.0/2.6) | | | | thyroid surgery = t: negative (3.0/2.1) | FTI > 64 : | | on thyroxine = t: negative (35.2/1.4) | | on thyroxine = f: | | | TSH measured = f: negative (21.2/1.3) | | | TSH measured = t: | | | | thyroid surgery = t: negative (3.7/1.2) | | | | thyroid surgery = f: | | | | | TT4 > 150 : negative (6.1/1.4) | | | | | TT4 <= 150 : | | | | | | TT4 measured = f: primary hypothyroid (2.8/1.7) | | | | | | TT4 measured = t: compensated hypothyroid (127.4/3.2)*
Figura 8-1
Distribuição das Classes
Um exemplo da saída gerada pelo programa consult é apresentada abaixo, sendo que os dados que foram fornecidos pelo usuário aparecem em negrito, para facilitar a diferenciação do que foi entrado pelo usuário e do que é saida do programa.
TSH: 8.8 FTI: 75 on thyroxine: f TSH measured: t thyroid surgery: f TT4: 148 TT4 measured: t Decision: compensated hypothyroid CF = 0.99 [ 0.97 - 1.00 ] primary hypothyroid CF = 0.01 [ 0.00 - 0.03 ]
Neste exemplo o programa forneceu o pronpt TSH e o usuário entrou com o valor 8.8, depois o pronpt para FTI e o usuário entrou com o valor 75, e assim por diante.Depois de feita a entrada pelo usuário dos valores de todos os atributos, o programa fornece a classificação do caso, juntamente com um fator de certeza, CF, seguido por uma limitação.Para este exemplo o programa fornece a classe compensated hypothyroid como sendo a classe mais provável para este caso, algo em torno de 0.97 e 1.00, sendo que a melhor estimativa é 0.99.O programa fornece ainda uma segunda possível classificação para o caso, juntamente com sua estimativa de certeza, 0.01.
Para fornecer as possíveis classificações para o caso, e a estimativa de certeza para estes, o programa olha para a folha referente ao caso e fornece a classificação e a estimativa de certeza de acordo com as distribuições das classes nesta folhas.Para este exemplo o caso foi classificado pela folha marcada com um asterisco na figura 8-1, sendo que dos 127.4 casos que chegam até esta folha, 99% pertencem a classe compensated hypothyroid e 1% a classe primary hypothyroid, portanto, o programa apresenta a classe compensated hypothyroid em primeiro lugar, com CF = 0.99 e a classe primary hypothyroid em segundo com CF = 0.01.
Os limites de confiança previstos para a classe, na forma [X - Y], são calculados usando-se, como no capítulo 4, Ucf.O valor de X é calculado com 1 - Ucf, onde Ucf é uma estimativa pessimista de erro para a classse, e Y é calculado como 1 - S, onde S é o somatório de Ucf para as outras classes.
Valores Imprecisos
O programa consult também permite que o usuário entre com valores incertos para alguns atributos.
Para atributos discretos, deve-se colocar cada valor seguido por dois pontos e a probabilidade, separando por vírgula cada valor.Se alguns dos valores do atributo não aparecerem nesta lista e a distribuição probabilistica entre esta lista de valores não atingiu 100%, então, o que falta para se chegar a esta porcentagem é dividido entre estes valores não mencionados.
Para atributos continuos, deve-se estabelecer um limite inferior e um superior, separando este por um hífen.
Supondo que para o exemplo apresentado anteriormente não se conheça o valor para o atributo on thyroxine, mas sabe-se que a probabilidade deste ser falso é de 90%.Isto pode ser dito ao programa da seguinte forma f:0.90
TSH: 8.8 FTI: 75 on thyroxine: f:0.90 TSH measured: t thyroid surgery: f TT4: 148 TT4 measured: t Decision: compensated hypothyroid CF = 0.89 [ 0.88 - 0.90 ] negative CF = 0.10 [ 0.10 - 0.12 ] primary hypothyroid CF = 0.01 [ 0.00 - 0.03 ]
Apesar da classe compensated hypothyroid ainda ser a mais provável, surge a classe negative, com um probabilidade substâncial.
Os atributos com valores imprecisos são tratados como os atributos desconhecidos estudados no capítulo 3, com a diferença que os resultados são conbinados em proporção com a probabilidade para cada valor, resultando nos fatores de confiabilidade para cada classe.No exemplo apresentado, o valor inconsistente para o atributo on thyroxine faz com que se chegue a duas folhas de decisão, compensated hypothyroid e negative.A folha compensated hypothyroid esta associada ao valor f, portanto deve-se multiplicar por 0.90 a distribuição probabilisticas encontradas para cada classe, no caso, compensated hypothyroid 0,90 e primary hypothyroid 0.01, ficando 0.89 e 0.01.Como a folha negative esta associada ao valor t, deve-se multiplicar por 0.10 as distribuições probabilisticas encontradas para cada classe, para este caso, apenas negative com 1.00, ficando 0.10.
Para atributos continuos o fator de confiabilidade é encontrado semelhante aos atributos discretos, com a diferença que antes é necessário encontrar a probabilidade que o bloco associa aos dois testes.Esta probabilidade é dada pela proproção do bloco fornecido pelo usuário dividido pela proporção do valor do atributo dentro deste bloco, para o teste "<=" , pega-se o bloco a esquerda do valor do atributo e para ">" o bloco a direita do atributo.Quando o valor do atributo não cair dentro do bloco uma condição terá probabilidade 1.00 e a outra 0.00.
Suavisando os limites para os atributos continuous
Olhando para a árvore de decisão da figura 8-1 e direcionando a atenção para os atributos continuous, pode-se notar facilmente que dependendo do valor de alguns destes atributos teremos um classificação completamente diferente, como no caso do atributo TT4.Isto é algo normal, menos quando o valor para um determinado atributo for muito próximo do valor sendo testado, Z.Por exemplo, se um caso sendo classificado descer pela árvore até o nó TT4, e este caso possuir valor 150 para o atributo TT4, o caso será classificado como primary hypothyroid ou compensated hypothyroid, e se possuir valor 151 será classificado com negative.Além do problema de o programa não ter uma sensibilidade para valores muito próximos de Z, tem-se também uma péssima estimativa de confiabilidade.
Para resolver este problema é apresentado um esquema que "suavisa" este valor Z, proposto por Carter e Catlett [1987], definindo dois valores limites Z - e Z+ , o primeiro menor que Z e o segundo maior.Se um tese num atributo continuo A é encontrado durante a classificação de um caso com valor V, a probabilidade associada ao teste A <= Z poderá assumir os seguintes valores de acordo com V
A curva para estas probabilidades é mostrada na figura 8-2.Para o teste A > Z, as probabilidades são os complemento das de A <= Z.
Fig 8-2 Página 76
Para encontrar o valor de Z- e Z+, inicia-se estes com o valor de Z, e vai-se alterando estes valores e comparando o desvio padrão de erros deles com o de Z, caso aqueles gerem um desvio padrão de erros maior o processo para.O desvio padrão de erros é dado pela fórmula
Página 77
Como o número de erros aumenta rapidamente quando o valor de Z é alterado, Z- e Z+ serão valores muito próximos de Z.
Depois de achados Z- e Z+, monta-se um gráfico parecido com o da figura 8-2 e este irá fornecer a probabilidade para as duas subárvores associadas ao nó que foi calculado Z- e Z+, e como no caso dos atributos desconhecidos os resultados são conbinados em proporção com a probabilidade para cada valor.Como o programa não pode montar gráficos ele acha as probabilidades calculando a área entre Z+ e V e divide este valor da área entre Z- e Z+ no caso de valores entre Z- e Z+.
Com exemplo será focado o atributo TT4, para a árvore da figura 8-1.A partir do valor de Z, 150, foi determinado os valores de Z- e Z+, aproximadamente 146.6 e 151.5.Estes valores de Z- e Z+ só serão determinados quando especificada uma opção durante a construção da árvore de decisão, afetando desta forma a saída apresentada pelo programa consult
TSH: 8.8 FTI: 75 on thyroxine: f TSH measured: t thyroid surgery: f TT4: 148 TT4 measured: t Decision: compensated hypothyroid CF = 0.79 [ 0.77 - 0.84 ] negative CF = 0.20 [ 0.16 - 0.23 ] primary hypothyroid CF = 0.01 [ 0.00 - 0.07 ]
Notando-se que o fator de certeza, CF, diminuiu de 0.99 para 0.79, para os mesmos valores de atributos.Mesmo o valor de TT4 nao excendendo a 150, a classe predizida foi influenciada substancialmente pelos casos relativos a subárvore para valores de TT4 maior que 150.Para 147, um valor uma unidade menor, essa influência já é bem menor.
TSH: 8.8 FTI: 75 on thyroxine: f TSH measured: t thyroid surgery: f TT4: 147 TT4 measured: t Decision: compensated hypothyroid CF = 0.93 [ 0.92 - 0.95 ] negative CF = 0.06 [ 0.05 - 0.08 ] primary hypothyroid CF = 0.01 [ 0.00 - 0.04 ]
Modelos Baseados em Regras
O programa consultr, baseado em interpretação de regras, é um pouco mais simples que o baseado em árvores de decisão, pois apresenta apenas uma classe junto com uma estimativa do fator de certeza CF.Mas a entrada dos dados continua idêntica, aceitando também valores imprecisos para atributos.
A maneira como o programa consultr se refere aos valores imprecisos é o que será examinado nesta seção.O lado esquerdo de uma regra pode conter três tipos de condições:
Para decidir se a regra é satisfeita pelo caso, as probabilidades para cada condição são multiplicadas e se o valor for acima de 0.5 então a regra é satisfeita pelo caso.Depois de econtrada uma regra que satisfaça o caso, na lista de regras, o fator de certeza é calculado pelo produto da probabilidade que a regra foi satisfeita pela estimativa de confiabilidade da regra.Se nenhuma regra for satisfeita a classe default é escolhida e não é apresentada a estimativa do coeficiente de certeza.
Rule 8: on thyroxine = f thyroid surgery = f TSH > 6 TT4 <= 150 FTI > 64 -> class compensated hypothyroid [98.9%] Rule 5: thyroid surgery = f TSH > 6 FTI <= 64 -> class primary hypothyroid [95.6%] Rule 7: on thyroxine = f TT4 measured = f TSH > 6 -> class primary hypothyroid [45.3%] Rule 1: TSH <= 6 -> class negative [99.9%] Rule 11: on thyroxine = t FTI > 64 -> class negative [99.5%] Rule 2: TSH measured = f -> class negative [99.5%] Rule 9: TT4 > 150 -> class negative [99.4%] Rule 6: thyroid surgery = t -> class negative [92.7%] Default class: compensated hypothyroid
Figura 8-3
Utilizando as regras geradas para a árvore da figura 8-1, mostradas na figura 8-3, e entrando com os dados abaixo
on thyroxine: f thyroid surgery: f TSH: 8.8 TT4: 130-151 FTI: 75
A primeira regra a ser testada será
Rule 8: on thyroxine = f thyroid surgery = f TSH > 6 TT4 <= 150 FTI > 64 -> class compensated hypothyroid [98.9%]
A única condição que não fornece probabilidade 100% é o teste no atributo TT4, pois foi fornecido um bloco entre 130 e 151.A proporção do bloco é 151-130 = 21 e a proporção para o teste TT4 <= 150 é 150 - 130 = 20, portanto, a probabilidade para esta condição será 20/21 = 0.95.Como 0.95 é maior que 0.5 a regra é selecionada como satisfeita.Agora, para achar o fator de confiabilidade multiplica-se o valor da probabilidade para a regra ser satisfeita pela a estimativa de confiabilidade da regra, ou seja, 0.989 x 0.95 = 0.94.Que é de acordo com a saída apresentada pelo programa
on thyroxine: f thyroid surgery: f TSH: 8.8 TT4: 130-151 FTI: 75 Decision: compensated hypothyroid CF = 0.94