Um Estudo do Mapeamento de Laudos Médicos de Endoscopia Digestiva Alta e Colonoscopia para Aquisição de Conhecimento

Description
Um Estudo do Mapeamento de Laudos Médicos de Endoscopia Digestiva Alta e Colonoscopia para Aquisição de Conhecimento

Please download to get full document.

View again

of 10
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Information
Category:

Chemistry

Publish on:

Views: 0 | Pages: 10

Extension: PDF | Download: 0

Share
Tags
Transcript
  Um Estudo do Mapeamento de Laudos Médicos deEndoscopia Digestiva Alta e Colonoscopiapara Aquisição de Conhecimento Everton Alvares Cherman 1 , Newton Spolaôr 1 , Huei Diana Lee 1 , 2 ,Daniel de Faveri Honorato 2 , Cláudio Sadi Rodrigues Coy 3 ,João José Fagundes 3 , Feng Chung Wu 1 , 2 , 31 Centro de Engenharias e Ciências Exatas – Universidade Estadual do Oeste do ParanáLaboratório de Bioinformática – LABIParque Tecnológico Itaipu – PTICaixa Postal 39, 85856-970 – Foz do Iguaçu, PR, Brasil 2 Instituto de Ciências Matemáticas e de Computação – Universidade de São PauloLaboratório de Inteligência Computacional – LABICCaixa Postal 668, 13560-970 – São Carlos, SP, Brasil 3 Faculdade de Ciências Médicas – Universidade Estadual de CampinasServiço de ColoproctologiaCaixa Postal 6111, 13083-970 – Campinas, SP, Brasil {evertoncherman,newtonspolaor,hueidianalee}@gmail.com  Abstract.  The Data Mining process may help specialists on decision makingby applying patterns extraction techniques based on attribute-value tables. Anautomatic medical report information mapping method is being developed in-tending to reduce the necessary time of the process and to avoid possible sub- jectivity on the manual information mapping. This work presents a broad casestudy about this method using information from 100 colonoscopy medical re- ports and on 609 upper digestive endoscopy medical reports, from which 82%and 100% were, respectively, automatically mapped.  Resumo.  O processo de Mineração de Dados pode auxiliar especialistas no processo de tomada de decisão, por meio da extração de padrões a partir detabelas atributo-valor. Uma metodologia de mapeamento automático de infor-mações de laudos médicos está sendo desenvolvida com o intuito de reduzir otempo necessário para o processo e evitar uma possível subjetividade do ma- peamento manual dessas informações. Este trabalho apresenta um estudo decaso amplo sobre a aplicação desta metodologia sobre informações presentesem 100 laudos médicos colonoscópicos e em 609 laudos médicos de endoscopiadigestiva alta, dos quais 82% e 100% foram, respectivamente, mapeados auto-maticamente. 1. Introdução O crescimento contínuo da utilização de tecnologia para aquisição e armazenamento dedados tem permitido o acúmulo de dados em uma velocidade maior que a capacidadehumana possui para processá-los. Na área médica, assim como em outras áreas, essecrescimento é perceptível, uma vez que uma quantidade considerável das informações de  pacientes estão descritas em laudos e formulários médicos no formato eletrônico. Essasinformações podem ser analisadas em busca de padrões que auxiliem, por exemplo, noprocesso de tomada de decisão. No entanto, a análise manual de um conjunto grande deinformações é inviável, pois trata-se de uma tarefa que tem alto custo de tempo e queestá sujeita à subjetividade [1, 2, 3, 4]. Desse modo, para que esses dados textuais brutospossam tornar-se úteis, é necessário que eles sejam representados de maneira apropriada.Então esses dados poderão ser processados para extrair padrões, tal que um modelo querepresente o conhecimento embutido nesses dados seja construído. Uma das maneiras dealcançar esse objetivo é por meio da realização do processo de Mineração de Dados –MD [5], o qual é constituído, usualmente, pelas etapas de pré-processamento, extração de padrões e pós-processamento.O pré-processamento tem como objetivo preparar, reduzir e transformar os dadospara um formato adequado para a extração de padrões. Um dos formatos mais utilizados éo atributo-valor, no qual as linhas representam os casos (exemplos) e as colunas os valoresde cada característica considerada (atributo). É importante ressaltar que essa é a etapamais demorada, a qual consome em torno de 80% do tempo necessário para realizar oprocesso, pois deve assegurar que os dados sejam representativos para as próximas etapas[6].A etapa de extração de padrões tem por objetivo construir modelos a partir databela atributo-valor – TAV. Nessa etapa podem ser utilizados, por exemplo, algoritmosde inteligência artificial da área de aprendizado de máquina. Os modelos identificadospodem ser representados por estruturas simbólicas como árvores de decisão e regras deprodução, as quais permitem maior compreensibilidade humana [7].Os padrões observados anteriormente são avaliados e validados com o auxíliode especialistas do domínio na etapa de pós-processamento. Os modelos consolidadospossibilitam constituir novo conhecimento, o qual pode contribuir com o processo detomada de decisão [8].Conforme mencionado, tecnologias de armazenamento estão sendo cada vez maisutilizadas para registrar informações de pacientes. Essas informações, relacionadasa prognósticos e diagnósticos de exames nas diversas especialidades médicas são ar-mazenadas, geralmente, em Laudos Médicos – LM – semi-estruturados descritos emlíngua natural. No contexto deste trabalho, as informações armazenadas nos laudos deEndoscopia Digestiva Alta – EDA – estão relacionadas às propriedades e anormalidadesdo esôfago, estômago e duodeno e nos laudos de colonoscopia são armazenadas infor-mações relacionadas à descrição das condições patológicas do intestino grosso.Para que possa ser aplicado o processo de MD sobre as informações armazenadasnos LM apresentados, é necessário que essas informações sejam transformadas para oformato adequado utilizado por esses algoritmos, geralmente o formato atributo-valor.A área de extração de informação [9] pode auxiliar nessa tarefa, por meio de métodosque, baseados em restrições sintáticas e semânticas, realizam a construção de represen-tações estruturadas a partir de textos não estruturados em língua natural que possuemuma gramática bem definida. Na literatura podem ser encontrados alguns trabalhos daárea de extração de informação [10, 11, 12, 13], os quais utilizam diferentes técnicas para transformação de informações não estruturadas contidas em registros médicos em rep-  resentação estruturada. Neste trabalho consideramos laudos médicos semi-estruturadosmas que não possuem uma gramática bem definida. Mais especificamente, é apresentadoum estudo amplo neste trabalho, utilizando conjuntos de LM de EDA e de colonoscopia,da metodologia proposta em [2, 4], a qual tem por objetivo dar suporte à construção deuma tabela atributo-valor a partir de LM semi-estruturados descritos em língua natural.Alguns estudos foram realizados com sucesso utilizando essa metodologia [14, 4, 15, 16].Este trabalho está inserido no projeto de Análise Inteligente de Dados, o qual é de-senvolvido por meio de uma parceria entre o Laboratório de Bioinformática – LABI – daUniversidade Estadual do Oeste do Paraná – UNIOESTE/Foz do Iguaçu – , o Laboratóriode Inteligência Computacional – LABIC – da Universidade de São Paulo – USP/São Car-los–eoServiçodeColoproctologiadaUniversidadeEstadualdeCampinas–UNICAMP.O restante deste trabalho está organizado da seguinte maneira: na Seção 2 é de-scrita a metodologia proposta bem como os LM considerados; na Seção 3 são apresenta-dos e discutidos os resultados do trabalho e na Seção 4 são descritas as conclusões e ostrabalhos futuros. 2. Materiais e Métodos É consensual que doenças do sistema digestivo, como úlceras e câncer colorretal, a-presentam alta incidência na população mundial. Nesse sentido, os exames de EDA ede colonoscopia contribuem no diagnóstico de enfermidades esofagogastroduodenais ecolorretais, respectivamente [17, 18, 19].Neste trabalho foram considerados 609 LM de EDA, confeccionados pelo Serviçode Endoscopia Digestiva do Hospital Municipal de Paulínia, que apresentam as infor-mações organizadas em quatro segmentos, nos quais os três primeiros apresentam infor-maçõesdoesôfago, doestômagoedoduodeno. Oúltimosegmentoapresentaobservaçõesimportantes, como a conclusão formulada pelo médico, e resultados de outros examescomplementares, como patologia e teste da urease.Os 100 LM de colonoscopia, considerados neste trabalho e confeccionados peloServiço de Coloproctologia da UNICAMP, são compostos por um segmento com campospreviamente definidos e um com texto escrito livremente. O segmento estruturado contémdados do paciente, detalhes técnicos do exame e outras observações. Na porção desestru-turada desses LM estão descritasinformações correspondentes ao examede colonoscopia.A metodologia proposta em [2, 4] e aplicada nesses LM é constituída por duasfases, as quais são representadas pela Figura 1 e descritas a seguir.A primeira fase é realizada por meio das etapas de “Identificação de Padrões” ede “Construção do Dicionário” e tem como objetivo final a construção de um dicionáriodo domínio, o qual auxilia no processo de mapeamento dos LM. Na primeira etapa, ospadrões textuais presentes nos LM são detectados por meio de quatro tarefas:1. Identificação de frases únicas.2. Definição da lista de  stopwords .3. Construção de um Arquivo de Padronização – AP.4. Geração de  n -gramas.  Figura 1. Representação das duas fases da metodologia Na tarefa  1  são constituídos quatro conjuntos de frases únicas. Cada conjunto éconstruído agrupando todas as frases contidas no conjunto de LM em apenas um docu-mento e retirando as frases repetidas. A diferença entre os quatro conjuntos é o nível depadronização embutido nesses conjuntos. Segue abaixo a descrição de cada conjunto:1. O conjunto que contém as frases únicas srcinais dos LM, isto é, sem padroniza-ções, é considerado o primeiro Conjunto de Frases Únicas – CFU1.2. O segundo Conjunto de Frases Únicas – CFU2 – é definido a partir da Remoçãode  Stopwords  – RS – sobre o CFU1. Ao realizar-se esse procedimento, retira-sedas frases as preposições, os artigos, as conjunções e também algumas palavrasdefinidas conjuntamente com especialistas. Essa palavras são as que ao seremeliminadas não modificam o sentido srcinal das frases. Desse modo, é possívelconstruir um conjunto de frases únicas com menor redundância, o que diminuí aquantidade de frases a serem analisadas.3. O terceiro Conjunto de Frases Únicas – CFU3 – é construído a partir da Apli-cação de  Stemming  – AS – sobre o CFU2. A técnica de AS tem como objetivosubstituir por um radical comum as palavras que se diferenciam apenas por suasdiferentes inflexões. Com isso é possível retirar possíveis redundâncias que nãoforam identificadas no CFU2.4. Opcionalmente, é possível aplicar a técnica de lematização sobre o CFU2 e con-struir um quarto Conjunto de Frases Únicas – CFU4. A lematização tem o mesmoobjetivo da AS: eliminar diferentes inflexões. No entanto, as palavras resultantesdessa técnica constituem frases com maior legibilidade em relação ao CFU3, poisas palavras são transformadas para sua forma canônica, como o infinitivo de umverbo e o masculino e singular de um substantivo.A tarefa  2  na primeira etapa tem como objetivo definir uma lista de  Stopwords . Aconstrução dessa lista é iniciada ainda na primeira tarefa para a elaboração do CFU2 e éatualizada conjuntamente com os especialistas continuamente até o fim da primeira etapa.  A freqüente utilização de sinônimos na descrição de informações semelhantes pre-sentes nos laudos médicos ou a presença de frases que expressam informações de umamaneira diferente da que será utilizada pelo dicionário, faz com que a padronização dasinformações contidas nos LM seja necessária. A construção do AP pode ser iniciada emparalelo à tarefa  1  em conjunto com especialistas e continua até o fim da primeira etapa.A aplicação da padronização permitirá que as informações contidas nos laudos estejammapeadas em um formato padrão para serem utilizadas pelo dicionário e pelo processode preenchimento da base de dados. Na Figura 2 são apresentados dois exemplos depadronizações. Figura 2. Exemplos de padronizações de frases dos LM Na tarefa  4 , com o intuito de auxiliar na identificação de padrões, é realizada ageração de  n -gramas sobre os LM. Um  n -grama é definido como a freqüência em que  n palavras consecutivas estão descritas no conjunto de documentos. Uma lista de 1-gramaé constituída por todas as palavras presentes nos LM seguidas da freqüência em que sãodescritas. Assim como uma lista de 2-gramas contém a freqüência com que todas ascombinações de duas palavras consecutivas são descritas nos documentos. Desse modo, épossível identificar unidades terminológicas utilizadas no domínio de interesse, os quaispossivelmente contém uma freqüência maior.A segunda etapa, construção do dicionário, é realizada em conjunto com os es-pecialistas e com o auxílio dos artefatos gerados na primeira etapa, para a construção dodicionário e a definição dos atributos que integrarão a Tabela Atributo-Valor – TAV.Na maioria das especialidades médicas são descritas nos LM informações sobreas estruturas anatômicas examinadas e suas respectivas características. Por exemplo, noslaudos de EDA, na seqüência “terço distal com erosões” o termo “terço distal” é a estru-tura anatômica que está em análise e o termo “com erosões” é a característica associadacom esse local. Em ambos exames tratados neste trabalho são registradas opcionalmentesubcaracterísticas, ou seja, particularidades de uma característica.Desse modo, o dicionário é formado por uma estrutura hierárquica de três níveis,composta por locais, características e subcaracterísticas, os quais correspondem, respecti-vamente, às estruturas anatômicas, características e particularidades dessas característicaspresentes nos LM. Para cada local representado no dicionário, existe uma lista de  n  car-acterísticas e cada uma, por sua vez, exibe uma lista de  m  subcaracterísticas. Os atributose os valores da TAV são formados com base nas relações entre locais e característicasou entre locais, características e subcaracterísticas identificadas. Por exemplo, o texto“terço distal com erosões” forma uma relação de local (terço distal) e característica (comerosões). Nesse caso, seria criado um atributo com o nome de “terço distal” e um dosvalores seria “com erosão”.
Related Search
Similar documents
View more...
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks