Поиск публикаций  |  Научные конференции и семинары  |  Новости науки  |  Научная сеть
Новости науки - Комментарии ученых и экспертов, мнения, научные блоги
Реклама на проекте

R programming, воркшопы по программированию на R и статистика для биологов и биомед студентов

Friday, 24 April, 13:04, d-kishkinev.livejournal.com


С конца февраля 2020 г. в своем Keele University (больше информации о Keele Uni можно найти here, here) активно разрабатываю серию воркшопов, обучающих студентов (обычно post grads) и даже некоторых преподавателей прежде всего биологических и биомедицинских направлений статистическому анализу данных с помощью языка программирования R. Когда я не так давно пришел в Keele, то одной из первых административных нагрузок для меня стало представительство молодых исследователей в Research Committee моей School of Life Sciences (есть такое понятие в английском ECRs - early career researchers, обычно это молодые lecturers, аналог assistant professors в UK, в течение первых нескольких, кажется 5, лет их первого постоянного контракта в UK Higher Education). По разговорам с коллегами понял, что в принципе элементов биостатистики и basics of data science, адаптированных для студентов и даже academic staff, очень не хватает. Иногда на кампусе иные школы и факультеты проводят one-off курсы такого рода, но они не очень регулярные и часто в стиле crash course, когда информация дается быстро, сложно и недостаточно практично. Так в апреле 2018 г. наша школа купила на outsource 3-дневых курс R programming и tutor дал его 3 полными последовательными днями. Никаких homeworks и online материала. Основы были даны доступно, но быстро скатились в сложности, что было сложно усвоить в такой короткий срок.

Для более глубокого изучения спроса я составил опросник в Google Forms (кстати, мой первый опыт - очень классная и быстрая в усвоение штука среди многих до этого мною не освоенных Google Tools). По результатам проведенного survey (pie chart внизу оттуда) оказалось, что около 30 человек хотели бы посещать занятия. Из них как и ожидалось, примерно 50% - это PGRs (post graduate students, в основном магистранты, но и PhDs), около 13% постдоки, но также есть некоторое количество academic staff (Life Sciences в основном, плюс несколько людей из соседней School of Medicine), а даже некоторые undergrads, которым, раз они выяснили сами, а разрешил посещать занятия, т.к. принять всех бакалавров у меня не хватит room capacity (это пока не утвержденная программа или модуль с выделенными аудиториями).



В результате с конца февраля по сейчас я провел 6 одночасовых воркшопов (3 успел до lock-down в оффлайне - посетили 12-25 человек, и 3 затем в онлайне с записаннами в Snagit видео). Feedback пока хороший. Все студенты имеют онлайн Google Drive доступ к видео материалу, PowerPoint слайдам и R codes, а также дополнительному материалу (разные шпаргалки=cheatsheets.

Курс скорее ориентирован не на основы статистики и конкретные биостатистические методы, интересные более узким специалистам, а скорее на быстрое понимание и применение R programming, начиная с нуля. Пока мы разобрали следующие разделы.
1) Основые R, установка R и RStudio
2- 3) Типы данные и exploratory analysis
4) Написание и применение функций, а также control flow (e.g. for loops), функции семейства apply
5) Pairwise tests (e.g. t tests), ANOVA (analysis of variance)
6) Простая линейная регрессия, ANCOVA (analysis of covariance), как делать модели и понимать их outputs, основы model selection (этот w/shop получился большим)

Видео сессии трех последних из вышеупомянутых воркшопов я выложил также и на Youtube (внизу под катом):

Workshop 4: Написание и применение функций, а также control flow (e.g. for loops), функции семейства apply


W/shop 5: сравнение двух выборок (pairwise tests, e.g. t tests), ANOVA (analysis of variance)


Workshop 6: Простая линейная регрессия, ANCOVA (analysis of covariance), как делать модели и понимать их outputs, основы model selection (этот w/shop получился большим)





Сейчас я завершаю 7-й воркшоп - Основы data visualization and plotting, более продвинутый plotting (e.g., ggplot2, трехмерные интерактивные инструменты)

В планах дать еще материал по следующим темам:
- Более гибкая работа с data preprocessing and data manipulations (tidyverse)
- Не всё можно сделать простыми регрессиями и линейными моделя - работа с непараметрическими статистиками и более сложными моделями типа linear mixed effect models, generaliased mixed effect models, additive models (LME, GLM, GLMM, GAM - вот это вот всё)
- Основы Bayesian statistics in R. Всё что вы хотели, но боялись узнать для начала работы с байесовскими методами
- Введение в spatial analysis in R (карты, shapefiles, элементы GIS в R)
- Основы биоинформатики в R (с помощью приглашенного bioinformatician спикера)
- Разработка простых интерактивных веб приложений в R без знания html, js - R Shiny apps
- Рассматриваются также при наличии сроса вещи типа (i) элементы круговой статистики в R; (ii) animated data visualization

Еще в планах на ближайшие годы:
Вероятно часть этого материала войдет в мой преподавательский контент уже в официально утвержденные модули и программы (например, что-то в модуль Research and Analytical Skills для Level 5 - второй год бакалавратуры) и сделаю свой [для начала elective] модуль типа Data Science for Biologists. Рассматриваю вторую серию воркшопов с добавлением элементов работы на Python, там где есть оправданное применение для современных задач биологов и biomed студентов и преподавателей (например, где есть tools, более развитые в Python, для bioinformatics, advanced data manipulations (e.g., pandas library), элементы machine learning для проблем типа классификации (tensorflow), простые элементы image processing с помощью библиотеки OpenCV).

В принципе для большего outreach можно подумать и о проведение каких-то удаленных teaching events в том числе на русском (желательно с поддержкой других спикеров). В современном мире, особенно как показал covid-19 crisis, вот такие вещи даже нужно делать просто в формате вебинара и онлайн тьюториалов. Благо Zoom, Google Hangouts и другие платформы позволяют, и не надо будет людям ждать, когда будет время и деньги на event fee, жилье и поездку, а также не надо себя мучать долгими перелетами, если все аспекты - от теории до hands on applications - можно сделать удаленно [хотя радость поездок, реальных встреч и посиделок после них никто не отменял, в том числе для меня :)]).
Читать полную новость с источника 

Комментарии (0)