Поиск публикаций  |  Научные конференции и семинары  |  Новости науки  |  Научная сеть
Новости науки - Комментарии ученых и экспертов, мнения, научные блоги
Реклама на проекте

7-й тьюториал по программированию и статистики в R: визуализации данных, plotting, ggplot2

Среда, 29 Апрель, 12:04, d-kishkinev.livejournal.com
На этой неделе выложил 7-ю часть из моей серий тьюториалов по программированию и статистике с помощью R
(больше со ссылками на более ранние части можно посмотреть здесь).

Для удобства разбил на две подчасти, каждая по 40-50 минут. Тьюториалы на английском (CC - captions - работают неплохо, так что субтитры вам в помощь, если что)

7a: basic plotting (с помощью базовых builtin инструментов, в основном plot())


7b: more advanced plotting с помощью ggplot2
пакет для гибкого data visualization, часть tidyverse - "экосистемы" из пакетов R по обработке и визуализации данных, такой toolbox для data scientist)


Понятно, что это только основы и вы можете копать и учиться дальше, но это a good starting point.
Материалы на этот и все предыдущие тьюториалы (т.е. слайды, R code, дополн материалы etc) в расшаренной папке Google Drive (link), но людей не из моей организации и которых я не знаю лично мне нужно будет вручную авторизовывать (вас запросят послать запрос на авторизацию и я его могу легко удовлетворить, но только в форме запроса ДО отправки хотя бы представьтесь, объясните кто вы и откуда (хотя бы организация, страна), каким образом узнали о тьюториалах и для чего используете (интересно для себя)).

Teaser
В следующей серии планирую сделать введение в linear mixed effect models (LMMs или LMERs). Рассмотрим на примере построение, отбор и валидацию моделей. Это когда у вас зависимость может и линейная (не обязательно, но допустим), но есть разные сложности типа в большой выборке есть подвыборки. Н-р собирали зависимость биомассы травы в зависимости от экспозиции склона холма к солнцу (чем больше света тем выше биомасса), но использовали разные географические локации, так что каждое место сбора материала может иметь уникальные свойства (состав почвы, высоту на уровнем моря и проч.). Всё в кучу сваливать можно, но неправильно, а нужно разные локации рассматривать как подвыборку (локация - random effect) и стоить модели (например ту же линейную регрессию), учитывая принадлежность точек к той же или разным локациям (учитывая random effect), чтобы делать общие выводы (если этого не делать, то часто бывает переоценка значимости параметров модели т.е. intercept и slope)



И возможно GAM (generalized additive models) - когда у вас некая явная кривая (в статистическом жаргоне GAM - smoothers в той или иной степенью свободы) должна описывать данные. Например как температура и численность животных связаны между собой (температурный оптимум)

Читать полную новость с источника 

Комментарии (0)