(больше со ссылками на более ранние части можно посмотреть здесь).
Для удобства разбил на две подчасти, каждая по 40-50 минут. Тьюториалы на английском (CC - captions - работают неплохо, так что субтитры вам в помощь, если что)
7a: basic plotting (с помощью базовых builtin инструментов, в основном plot())
7b: more advanced plotting с помощью ggplot2
пакет для гибкого data visualization, часть tidyverse - "экосистемы" из пакетов R по обработке и визуализации данных, такой toolbox для data scientist)
Понятно, что это только основы и вы можете копать и учиться дальше, но это a good starting point.
Материалы на этот и все предыдущие тьюториалы (т.е. слайды, R code, дополн материалы etc) в расшаренной папке Google Drive (link), но людей не из моей организации и которых я не знаю лично мне нужно будет вручную авторизовывать (вас запросят послать запрос на авторизацию и я его могу легко удовлетворить, но только в форме запроса ДО отправки хотя бы представьтесь, объясните кто вы и откуда (хотя бы организация, страна), каким образом узнали о тьюториалах и для чего используете (интересно для себя)).
Teaser
В следующей серии планирую сделать введение в linear mixed effect models (LMMs или LMERs). Рассмотрим на примере построение, отбор и валидацию моделей. Это когда у вас зависимость может и линейная (не обязательно, но допустим), но есть разные сложности типа в большой выборке есть подвыборки. Н-р собирали зависимость биомассы травы в зависимости от экспозиции склона холма к солнцу (чем больше света тем выше биомасса), но использовали разные географические локации, так что каждое место сбора материала может иметь уникальные свойства (состав почвы, высоту на уровнем моря и проч.). Всё в кучу сваливать можно, но неправильно, а нужно разные локации рассматривать как подвыборку (локация - random effect) и стоить модели (например ту же линейную регрессию), учитывая принадлежность точек к той же или разным локациям (учитывая random effect), чтобы делать общие выводы (если этого не делать, то часто бывает переоценка значимости параметров модели т.е. intercept и slope)
И возможно GAM (generalized additive models) - когда у вас некая явная кривая (в статистическом жаргоне GAM - smoothers в той или иной степенью свободы) должна описывать данные. Например как температура и численность животных связаны между собой (температурный оптимум)
Комментарии (0)