Типичная проблема анализа биологических данных - это огромное пространство параметров и, как правило, маленькая обучающая выборка. Сама постановка задачи подталкивает к использованию недообученных, либо переобученных моделей. Для того, чтобы не угодить в это прокрустово ложе, наша компания использует направленную предобработку данных, которая позволяет перевести исходные данные в пространство меньшей размерности. Кроме того, мы привлекаем специалистов в биологии и медицине, чтобы доопределить задачу, выявить важные и менее важные аспекты данных.
В математике существует понятие корректно поставленной задачи – это когда решение задачи существует, оно единственно и устойчиво к начальным данным. Решение корректно поставленной задачи сводится к исполнению вычислительного алгоритма, можно сказать, не думая. Решение же некорректно сформулированной задачи превращается в «гадание на кофейной гуще». Такие результаты бесполезны на практике.
Особенно сложно добиться корректной постановки в задачах биологической природы. Нельзя быть уверенным заранее, что решение задачи вообще существует в указанной формулировке. Решение бывает не единственным и, главное, решение (точнее то, что за него выдается) часто бывает неустойчивым к начальным данным.
Наши специалисты много внимания уделяют поиску именно корректного способа решения (постановки) задачи. Теоретический фундамент современного машинного обучения ещё не вполне сформировался в мировой науке в силу молодости отрасли. По этой причине для обеспечения корректности приходится пользоваться, в том числе, эмпирическими стратегиями:
- интенсивный перебор моделей и их параметров на основании имеющегося опыта
- интенсивная и качественная кросс-валидация
- привлечение дополнительных знаний о предметной области
Мы добиваемся, чтобы результаты наших предсказаний проходили успешную проверку. Для наиболее сложных задач, как правило, после нескольких циклов предсказаний и экспериментальных проверок удается добиться высокой точности на практике.