Сибирский медицинский государственный университет, г. Томск
Кафедра медицинскойи биологической кибернетики
Эта работа опубликована в сборнике статей по материалам 71-й итоговой научной студенческой конференции им. Н.И. Пирогова (г. Томск, 14-16 мая 2012 г.), под ред. В. В. Новицкого, Н.В. Рязанцевой. − Томск: Сибирский государственный медицинский университет, 2012. − 335 с.
Скачать сборник (MS Word, 1 мб)
Скачать программу конференции
Актуальность. В исследовательской
и практической работе
приходится сталкиваться с ситуациями,
когда количество признаков, регистрируемых
на каждом из множества исследуемых
объектов очень велико, тем не менее, имеющиеся многомерные наблюдения следует подвергнуть статистической обработке. При этом возникает ряд проблем, которые обусловлены природой признаков: объект может описываться количественными, порядковыми и номинальными данными. Задача осложняется также тем, что в природе очень редко
встречаются статистически независимые признаки.
Поэтому оценка информативности сочетаний
разнотипных признаков является важной задачей для большинства исследователей и имеет прямое практическое значение. Одним из подходов к повышению качества распознавания образов и уменьшению вычислительных ресурсов является проведение предварительного анализа обучающей информации. Целью такого анализа является
оценка основных характеристикобучающей выборки, в частности
оценка информативности признаков и их
сочетаний, оценка вариабельности значений
признаков, а также выделение наиболее представительныхобъектов выборки.
Цель. Определение диагностической
информативности сочетаний разнотипных статистически
зависимых медико-биологических признаков. Для
этого необходимо решить следующие задачи: реализовать
алгоритм Парзена-Розенблатта для
классификации электронных медицинских
записей по количественным, порядковым и номинальным
признакам, реализовать алгоритм поиска информативных
сочетаний разнотипных
медико-биологических характеристик со скользящим контролем, реализовать параллельную обработку данных на кластере для поиска информативных сочетаний медико-биологических
характеристик.
Материал и методы. Данные,
полученные в реальных исследованиях и экспериментах,
могут содержать пропуски. Алгоритмы семейства
WANGA основаны на гипотезе локальной компактности данных и предназначены для заполнения пробелов в таблицах с разнотипными
статистически зависимыми переменными. Проблема неполноты исходных данных будет
решена использованием этого семейства алгоритмов.
Для поиска наиболее информативных признакови их сочетаний
используются разные подходы: последовательное сокращение множества признаков (алгоритмDel); последовательное добавление
признаков в анализируемое множество (алгоритм Add); возможна организация совместной
работы алгоритмов DelиAdd:DelAddиAddDel. Определение информативности сочетаний признаков
будет производиться через оценку плотности вероятности отнесения к классу, используя непараметрический алгоритм Парзена-Розенблатта.
В каждой точке многомерная плотность вероятности представляется в виде произведения одномерных плотностей. Для оценки плотности вероятности смешанных дискретных и
непрерывных данных необходимо использовать концепцию
'обобщенных мультипликативных ядер'.
Для реализации программногоп риложения используется среда Delphi7. Как уже говорилось, количество
регистрируемых в экспериментах иисследованиях
признаков, велико, и обработка полученных результатов требует больших вычислительных затрат. Для решения этой
проблемы используют высокопроизводительные вычисления, которые воплощают идею одновременного выполнения нескольких действий. В качестве обучающей
выборки будут использованы сведения о
356 пациентках с раком молочной железы, электронные медицинские записи о которых содержат клинические, гистологические
и иммунологические показатели.
Результаты. В данный момент программное
приложение оценки информативных для принятия
диагностических и клинических решений
сочетаний разнотипных медико-биологических
признаков находится в разработке.
Выводы. Данное программное приложение
позволит исследователю выбрать наиболее
информативные сочетания статистически
зависимых разнотипных медико-биологических
характеристик.
|