Hepatocellular Carcinoma Dataset
Por: Fernando Cettzi • 27/9/2021 • Trabalho acadêmico • 1.501 Palavras (7 Páginas) • 117 Visualizações
Hepatocellular Carcinoma Dataset
Hepatocellular Carcinoma Dataset
Abstract. Hepatocellular carcinoma is the name of the most common type of liver cancer, generating 23,000 cases in the United States in 2012 and in Brazil, in the state of São Paulo alone, affects 2 per 100,000 inhabitants. To understand a little more about this disease, it is now possible to gain relevant knowledge about actual data collected using a mining technique that is revealed and used prior to concealment and that can assist in fighting and preventing disease.
Resumo. Carcinoma hepatocelular é o nome do tipo mais comum de câncer de fígado, gerando 23.000 casos nos Estados Unidos no ano de 2012 e no Brasil, somente no estado de São Paulo, atinge 2 a cada 100 mil habitantes. Para entender um pouco mais sobre esta enfermidade, hoje em dia é possível se obter conhecimento relevante através de dados reais coletados que utilizando uma técnica de mineração é revelados associações que antes eram ocultas e que podem auxiliar no combate e prevenção da doença.
1. Introdução
Carcinoma hepatocelular. é uma doença que geralmente afeta pacientes com cirrose, sintomas envolvem dor abdominal, podendo acompanhar febre e sangramento tumoral. O tratamento é possível desde que os tumores forem pequenos, ou seja, a doença deve ser identificada em seu estágio inicial, sendo realizado o transplante de fígado que tem um resultado tão satisfatório quanto o de doenças neoplásicas - doenças que tem seu início no aumento anormal do número de células, identificando o surgimento de um tumor. Portanto, o número de vítimas poderia ser reduzido caso houvesse atenção em que situação se encontram as pessoas afetadas por este problema, mas esta avaliação poderia ser inviável ou contar com tamanha morosidade se realizada manualmente, mas não utilizando da tecnologia já disponível atualmente.
Machine Learning é um campo que tem crescido muito ultimamente, de maneira geral possui múltiplas abordagens estatísticas e métodos que podem resolver problemas envolvendo classificação e regressão. Ademais um conceito importante é o de data mining ou mineração de dados, onde é possível se explorar grandes quantidades de dados a procura de padrões consistentes, como regras de associação ou sequências temporais.
A partir disto, objetivamos compreender o que os acometidos por tal doença tem em comum de maneira que medidas possam ser tomadas a fim de que novas ocorrências sejam evitadas ou mesmo prevenidas. Por conseguinte a importância tecnologia do machine learning atrelado ao data mining será demonstrada para que outras base de dados sejam criadas e vasculhadas para que o conhecimento que antes era oculto, possa se tornar conhecido, não somente na área da saúde, mas cada vez em que houver um problema que careça da avaliação de grande quantidade de dados onde é necessário um agrupamento ou conhecimento de correlações existentes.
2. Base de dados
Para que as incidências possam ser analisadas a base dados selecionada, como mencionada anteriormente, se trata da doença Carcinoma hepatocelular, que foi coletada no hospital universitário de Portugal, contendo os dados de 165 pacientes diagnosticados com a enfermidade e cerca de 49 atributos relativos à situação dos mesmos, como dados demográficos, fatores de risco e dados laboratoriais.
É um conjunto de dados heterogêneo, possui 23 variáveis quantitativas e 26 qualitativas, possui um total percentual de 10.2% de dados perdidos, e somente 4,8% dos pacientes preencheram as informações em todos os cabos. Dentre os pacientes diagnosticados se identificou 102 que permaneceram vivos e os outros 63 casos foram de óbito.
Os dados foram cedidos por Miriam Santos e outros estudantes internos de medicina da Universidade de coimbra a quem agradecemos a colaboração.
3. Metodologia
Para que a base de dados possa ser explorada, utilizaremos o Weka. O Weka, Waikato Environment for Knowledge Analysis, é uma coleção de algoritmos de machine learning e data mining escrita em Java na Universidade de Waikato, Nova Zelândia. Possui ferramentas para preparação de dados, classificação, regressão, agrupamento, associação e visualização. Existem vários softwares para fins parecidos, utilizados por empresas maiores e com custo para uso, porém para o uso requerido neste estudo o Weka possui as ferramentas necessárias com completude além de ser gratuito e também open source.
Além de escolhido o software, optamos também por escolher o Clustering como técnica de análise de agrupamento de dados para que os dados sejam finalmente avaliados. O Clustering consiste no agrupamento de objetos de acordo com a similaridade entre eles, pode ser utilizado para encontrar padrões inesperados nos dados, por exemplo.
Figura 1. Software Weka, ferramenta Cluester
4. Análise de dados
Apesar de ser uma extensa base de dados, os idealizadores da mesma tiveram o cuidado de explicar cada uma das abreviações utilizadas, e métodos para classificar os atributos como por exemplo: gênero masculino = 1 e feminino = 0, bem como a porcentagem de dados faltantes, como aponta a figura 2, que tem parte dos atributos.
Figura 2. Atributos da base de dados utillizada
Quando a ferramenta de cluster foi executada, gerou-se uma lista com todos os atributos e o número de ocorrências para cada um. Dependendo do fim da análise que se deseja, cada ferramenta permite uma configuração onde é possível limitar ou manipular a maneira em que os dados serão exibidos ou agrupados. Nós baseamos o nosso uso em uma execução padrão que ficaria satisfatoriamente claro e entendível tanto para uma pessoa que não possui conhecimento técnico nas áreas médicas ou é um iniciante na área de machine learning e data mining.
Algumas informações podem ser retiradas de acordo com os resultados exibidos:
* Número de ocorrências foi maior no sexo masculino: 134/165;
* 54 pessoas não apresentaram os sintomas comuns, apesar de serem diagnosticadas com a doença;
* 44 pessoas não faziam o uso exagerado de substâncias alcoólicas;
...