Разбираемся в чем разница между Machine Learning, Statistical Inference, AI, Data Science и т.п.

Wednesday, 27 May, 11:05, d-kishkinev.livejournal.com

Неплохая статья на тему сабжа вот здесь. В общем, многие скептичны настроены к разным новым buzzwords и правильно делают. Я там тоже не со всем согласен и объясню внизу на примере. Все эти ML, AI (Artificial Intelengence), Big Data вот это вот всё. Ну и конечно отпускают разного рода шуточки. Ну типа вот внизу под катом.

Если попытаться сформулировать разницу максимально коротко, то она будет такая:

Data Science:

Статистика сейчас уже часто оперирует большими данными ибо они стали доступны. Большие они прежде всего для человека, т.е. иногда для компьютера они не очень большие, но могут быть такие большие, что и компы с трудом считают (т.е. днями и неделями даже какой-нибудь кластер, когда гоняешь какую-нибудь MCMC подборку параметров модели для больших данных). Если без компа и знания кодинга, то в общем вам анализа не сделать в принципе (не практично, прошло время "подсчитать что-то в Экселе или на бумажке"). И вот это уже data science, т.е. это по сути типичное статистические исследования 20го века, перенесенные в комьютер 21го века со всеми нынешними масштабами данные и при исполнении в некой programming frameworks (т.е. тут у вас уже какие-то среды - например данные у вас закачены с какого-то public repository через из public API, складированы в некой локальной DB, "высасываете" вы их из DB какими-нибудь SQL запросом, далее кодируете и pre-process'ите выбранный dataset всё в какой-нибудь Jupiter Notebook с помощью Python библиотеки pandas, визуализируете на картинках питоновским matplotlib и там же создаете publication-ready картини - вот это всё "среда" в широком смысле).

Machine Learning (ML) vs Statistics (Statistical Inference).

Цитата из выше указанной статьи:
"The major difference between machine learning and statistics is their purpose. Machine learning models are designed to make the most accurate predictions possible. Statistical models are designed for inference about the relationships between variables."

Т.е. по сути, в случае статистического анализа, вы собрали данные, уже имея в виду некую гипотезу мира (например, вероятность встретить паразитического червя у этой рыбы вырастает с 0 до 1 при росте массы тела и глубине водоема). И затем вы пытаетесь, уже имея данные, проверить вашу гипотезу, а возможно, если она будет отвергнута данными, сформулировать уточнение этой гипотезы или даже новую гипотезу. В типичном примере машинного обучения (особенно явно это в unsupervised deep learning), вы "бросаете" данные на алгоритм, обучаете neural network, и говорите "распознай вот это, а как уж ты это сдалаешь, мне пока не важно, т.е. мне важен результат, при этом масштабированный, эффективный в других контекстах и при других данных". И ML это - о чудо! - делает. Вы только валидируете и говорите "ок, значит смог как-то понять, как правильно классифицировать котов от собак по фото или видео изображению, а вот как ты это делаешь мы, создатели этой системы, даже не очень понимаем, или понимаем в общих чертах. Нас интересует перформанс и количество ошибок и как это можно улучшить и избежать или уменьшить overfitting". Т.е. как правило в статистике вы собрали данные. Зная, как специалист, что там могут быть за relationships между процессами, вы применяете статмодели и смотрите, подтверждаются ли модели данными и как валидируются эти модели. Если те предположения о том, как устроена система, данные подтвердили - вы радуетесь (т.е. систему вы более менее понимаете). Если совсем не подтвердились - значит вы либо ошибались и плохо понимаете механизм, либо данными плохие, либо комбинация. В ML вы скорее всего хотите практического применения без глубинного понимания driving processes. Т.е. вам нужно, к примеру, полуавтоматически считать темные клетки на отсканированном гистологическом препарате и отличать их от светлых. Алгоритм на training sample как-то adjust разные "векторы" параметров и их комбинации (н-р тело нейрона можно на картинке отличить по комбинации параметров absolute object size range + circularity+ average pixel colour + etc + ect...) и в итоге выдаем вам "blackbox" algorithm, которые с 93% вероятностью классифицирует темные клетки (что сопоставимо с ручным подсчетом глазками). Далее вы, понимая, что могут быть проблемы с curve fitting (т.е "перетренировки" алгоритма к конкретному sample), кросс-валидируете алгоритм на test sample из того же исследования (эти данные не использовались для первоначального алгоритма) и понимаете, что ошибка 90%, что ок (если увеличилась до 50%, значит у вас был overfitting к traning dataset и нужно применять разные ухищрения, чтобы overfitting уменьшить). Вся эта концепция training/test datasets, cross-validation как правило применяется в контексте ML, но опять же не исключительно (см ниже)

Могут быть зоны, где ML и Statistical Inference сливаются. К примеру, вы на примере конкретного исследования в отдельно взятом регионе России изучили влияние неких факторов на bird species abundance. Выработали какую-то там GLM. Она валидируется ОК. Далее опубликовали. К примеру, вероятность гнездования сапсанов в уезде N зависит от ~ сезона (вид мигрирующий) + плотности голубей (еда) + плотности обрывов на берегах водоемов (удобные для гнездования места) + плотности ЛЭП (последние снижают численность из-за риска для жизни). Далее к вам приходят bioconsulting company и вы вместе делаете следующую работу, где вы оцениваете, на основе первой работы (вот вам и training sample), численность вида в бОльшем регионе (test sample) и кросс-валидируете это реальными подсчетами на местах. Т.е. в данной линии вы по сути начали как statistical inference study, а закончили в концепции типичного ML.

Шутка в тему для отвлечения:

AI - Artificial Intelengence: тут просто. Такое "зонтичное" и очень широкое понятие (umbrella term), объединяющее самые разные направления computer sciences и engineering под одной общей идеей - обеспечить выполнение машиной (в широком смысле) каких-то когнитивных функций, ранее считавшихся типичными для биологических существ, например человека (а кем-то даже эти функции считались присущими только человеку). И тут ML - только одна из веточек на этом большом "дереве" (см ниже)

Читать полную новость с источника

Разбираемся в чем разница между Machine Learning, Statistical Inference, AI, Data Science и т.п.

document.write(VK.Share.button(false,{type: "round", text: "Поделиться"})); Wednesday, 27 May, 11:05, d-kishkinev.livejournal.com

На эту же тему

Комментарии (0)

Wednesday, 27 May, 11:05, d-kishkinev.livejournal.com