Машинное обучение в биологии

Типичная проблема анализа биологических данных - это огромное пространство параметров и, как правило, маленькая обучающая выборка. Сама постановка задачи подталкивает к использованию недообученных, либо переобученных моделей. Для того, чтобы не угодить в это прокрустово ложе, наша компания использует направленную предобработку данных, которая позволяет перевести исходные данные в пространство меньшей размерности. Кроме того, мы привлекаем специалистов в биологии и медицине, чтобы доопределить задачу, выявить важные и менее важные аспекты данных.

В математике существует понятие корректно поставленной задачи – это когда решение задачи существует, оно единственно и устойчиво к начальным данным. Решение корректно поставленной задачи сводится к исполнению вычислительного алгоритма, можно сказать, не думая. Решение же некорректно сформулированной задачи превращается в «гадание на кофейной гуще». Такие результаты бесполезны на практике.

Особенно сложно добиться корректной постановки в задачах биологической природы. Нельзя быть уверенным заранее, что решение задачи вообще существует в указанной формулировке. Решение бывает не единственным и, главное, решение (точнее то, что за него выдается) часто бывает неустойчивым к начальным данным.

Наши специалисты много внимания уделяют поиску именно корректного способа решения (постановки) задачи. Теоретический фундамент современного машинного обучения ещё не вполне сформировался в мировой науке в силу молодости отрасли. По этой причине для обеспечения корректности приходится пользоваться, в том числе, эмпирическими стратегиями:

  • интенсивный перебор моделей и их параметров на основании имеющегося опыта
  • интенсивная и качественная кросс-валидация
  • привлечение дополнительных знаний о предметной области

Мы добиваемся, чтобы результаты наших предсказаний проходили успешную проверку. Для наиболее сложных задач, как правило, после нескольких циклов предсказаний и экспериментальных проверок удается добиться высокой точности на практике.

 

Назад