Orange - Testes vocacionais baseados em Text Mining
Por: Giulio Falcão • 6/8/2020 • Artigo • 1.479 Palavras (6 Páginas) • 157 Visualizações
Orange - Testes vocacionais baseados em Text Mining
Giulio Machado Falcão Silva, Anderson Silva do Nascimento
Escola de Ciência e Tecnologia – Universidade do Grande Rio Professor José de Souza Herdy (Unigranrio)
Duque de Caxias – Rio de Janeiro - Brasil
gfalcao@unigranrio.br, anderson.nascimento@unigranrio.edu.br
Abstract. Nowadays many young people who have just graduated from high school have found it a great challenge to decide which path to follow in order to find an ideal career. This is because they do not know what the tasks or characteristics should be acquired during graduation. The mining of texts together with the most diverse algorithms aims to help the process of knowledge discovery in textual databases. In this work will be presented the use of text mining allied to the use of the logistic regression algorithm in order to provide a statistical and accurate knowledge about what are the similarities between the personal profile and the profile required for a given degree course.
Resumo. Hoje em dia diversos jovens, recém formados no ensino médio tem encontrado um grande desafio de decidir qual o caminho a ser seguido para encontrar a carreira ideal. Isso se dá pelo fato deles não saberem quais as tarefas ou características devem ser adquiridos durante a graduação. A mineração de textos em conjunto com os mais diversos algoritmos possui como objetivo auxiliar o processo de descoberta de conhecimento em bases de dados textuais. Neste trabalho será apresentado o uso da mineração de textos aliada ao uso do algoritmo de regressão logística com o objetivo de prover um conhecimento estatístico e preciso sobre quais são as semelhanças entre o perfil pessoal e o perfil exigido para um determinado curso de graduação.
1. Introdução
A técnica de mineração de texto, ou text mining, é um processo de extração de conhecimento em bases de dados textuais, possuindo como objetivo analisar e explorar textos, buscando padrões, e até realizar o agrupamento desses dados através de suas características, com foco em previsões para a tomada de decisões.
De acordo com Beppler et al, KDT engloba técnicas e ferramentas inteligentes e automáticas que auxiliam na análise de grandes volumes de dados com o intuito de “garimpar” conhecimento útil, beneficiando não somente usuários de documentos eletrônicos da Internet, mas qualquer domínio que utiliza textos não estruturados.
A evasão escolar no ensino superior brasileiro é um fenômeno grave que acontece tanto nas instituições públicas quanto nas privadas e requer medidas eficazes de combate. Segundo Lobo, a taxa de abandono diminui para 7,4% quando ocorre a negociação informal entre universidade-aluno, o que estabelece relação direta entre a evasão e a possibilidade de financiamento indireto do valor.
Sendo assim, para esse trabalho serão utilizadas as técnicas de mineração de texto junto ao algoritmo de regressão logística para podermos identificar em quais perfis e características acadêmicas são encaixados os atributos pessoais dos alunos, tendo em vista que serão utilizados características e atributos pessoais. E assim resolver o seguinte problema: como auxiliar os alunos de forma precisa na escolha de um curso de graduação, para que seja possível promover a diminuição da taxa de evasão de alunos no ensino superior das universidades brasileiras?
2. Orange Canvas
A ferramenta Orange Canvas é uma ferramenta open source desenvolvida no laboratório de bioinformática na Faculdade de Ciência da Computação e Tecnologias da Universidade de Ljubljana, na Eslovénia. Trata-se de um conjunto de software compreensível e baseado em componentes para machine learning e data mining.
O Orange conta com diversas widgets, divididos em diferentes grupos: Dados, Visualização, Classificação, Regressão, Avaliação, Não Supervisionado e também conta com grupos integrados: Associação, Bioinformática, Rede, Mineração de texto e etc.
O Orange foi escolhido devido a dois fatores, sendo o primeiro deles a menor curva de aprendizado e a agilidade para obter resultados.
3. Arquitetura do Projeto e o Algoritmo de Regressão Logística
A arquitetura do projeto consiste em duas fases: Treinamento do modelo e classificação baseado nos resultados obtidos.
Os documentos escolhidos para o treinamento, foram feitos baseados em descrições apresentadas em sites de Universidades com nota máxima no MEC, os conteúdos descrevem os cursos de: Sistemas de Informação, Medicina Veterinária e Direito.
Os documentos foram estruturados de forma a conter informações sobre o curso de graduação e as funções desenvolvidas nas respectivas carreiras.
A primeira etapa do projeto, consistiu na criação das classes que foram utilizadas na classificação, nesta fase foram utilizados os widgets: Importar Documento, Seleção de Coluna, Concatenar, Colorir, Pré-Processamento, Bag of Word.
O algoritmo de Regressão Logística é uma técnica de modelagem preditiva utilizada para a descrição e classificação em situações em que se avalia resultados binários (0 e 1), sendo um recurso que permite buscar ou estimar uma probabilidade associada as quantidades de ocorrência de determinado evento.
O widget de Teste e Pontuação, neste cenário irá “testar” o algoritmo definido para a aprendizagem. Para informar o resultado, o mesmo conta com uma tabela com a precisão, o mesmo também conta os resultados de avaliação, que podem ser usados por outros widgets para analisar o desempenho, tais como: AUC e CA.
O método de AUC (Area Under ROC), realiza o cálculo baseado na área sob a curva ROC, dado um conjunto de resultados experimentais. Já o método CA (Classification Accuracy), realiza o cálculo percentual de correspondências entre as classes reais e as previstas.
Por fim, o widget de Predição realiza classificação e estatísticas de dados. Sendo um widget que possui várias entradas de dados sendo os principais: dados, textos e elementos customizados.
A segunda etapa do projeto, consistiu na criação da estrutura para importação dos experimentos e obtenção dos resultados. Ao final da criação da estrutura teremos o modelo contido na figura 1.
[pic 1]
Figura 1. Modelo Completo
4. Classificação e Resultados
Na primeira etapa, os documentos foram importados para o repositório do orange, mantendo a estrutura original. Em seguida, foi inserido o widget de selecionar colunas, este widget fez a remoção de elementos originais do texto, mantendo somente o texto.
...