Лаборатория прикладного анализа больших данных ТГУ приглашает на стажировку

Научно-исследовательская лаборатория прикладного анализа больших данных ТГУ объявляет новый набор на бесплатную стажировку. Стажировка пройдет с 27 марта по 27 мая, зарегистрироваться и получить тестовое задание можно по ссылке.

Научно-исследовательская лаборатория прикладного анализа больших данных Томского государственного университета создана в 2016 году. В настоящее время лаборатория под руководством Вячеслава Гойко занимается занимается фундаментальными и прикладными исследованиями в области сбора и анализа больших данных в сфере решения социальных проблем, в том числе изучением благополучия и качества жизни жителей российских регионов, ценностных ориентиров современной молодежи, исследованиями рынка и труда, мнений студенчества и других тем.

Регистрация на стажировку открыта до 14 марта включительно.

Что нужно будет делать:

  • Подбирать и собирать данные исходя из целей и задач исследования

  • Извлекать из данных полезную информацию

  • Анализировать данные разных типов

  • Создавать и презентовать аналитические дашборды

Как команда лаборатории представляет идеального стажера:

  • Уверенный пользователь Microsoft Office и аналитических инструментов (Python, low-code на выбор)

  • Умеет обрабатывать большие объемы информации

  • Умеет сводить цифры и факты, извлекать реальные закономерности

  • Аналитический склад ума, внимательный, усидчивый, ответственный и организованный.

Лучшие стажеры получат приглашение о трудоустройстве.

 

Один из сотрудников лаборатории, недавний стажер и выпускник 2023 года цифровой кафедры ТГУ по аналитике данных Александр Ростовцев рассказал о своей практике и задачах:

DSC_1550_А.Ростовцев ТГУ_.jpg– Сейчас я учусь на 4 курсе физико-технического факультета ТГУ. После окончания обучения на цифровых кафедрах нас пригласили на стажировку в лабораторию, где мы выполняли различные задачи в проектах по анализу данных. Меня привлекают к разным задачам, например, сейчас работаю над проектом, который связан с выдающимися выпускниками. Проект направлен на разработку и применение методов сбора и анализа неструктурированных данных различных интернет-ресурсов для Московского международного рейтинга вузов «Три миссии университета». Через интернет-энциклопедию «Википедия» мы находим выдающихся выпускников, смотрим статистику просмотра страниц, применяем алгоритмы поиска, в том числе методами обработки естественного языка. Также разрабатываем алгоритмы подсчета количества страниц веб-сайта университета, индексируемых поисковыми системами Google, Yandex и Baidu.

Есть еще один интересный проект – исследование отзывов о высшем образовании в России. Моя работа заключается в том, чтобы собрать данные с сайтов, применяя программы автоматического сбора, которые пишу самостоятельно. Я также произвожу автоматическую классификацию текстов с помощью нейросетей, так как ручная обработка осуществляется довольно долго. Поэтому моя цель – быстрая и качественная разметка. Для работы использую чат GPT, в нем пробую использовать различные запросы для классификации текстов по нужным категориям. Удобство GPT в том, что можно обрабатывать сразу несколько тысяч текстов очень быстро. Тестируются разные модели и запросы, чтобы выявить наиболее эффективные именно для наших текстов.


Добавим, что ранее исследователи ТГУ провели анализ сообщений в интернете о сериале «Слово пацана». С помощью технологий искусственного интеллекта они изучили более 650 тысяч постов, комментариев, мемов, треков, фотографий и видео. Основное внимание уделялось тому, как зрители воспринимали транслируемые в сериале ценности. Позитивные оценки составили 75% от идентифицированных мнений во «ВКонтакте» и касались общей оценки сериала, игры актеров, музыкального сопровождения. По мнению ученых, важной в обсуждениях стала тема поколений.