Научно-исследовательская лаборатория прикладного анализа больших данных ТГУ объявляет новый набор на бесплатную стажировку. Стажировка пройдет с 27 марта по 27 мая, зарегистрироваться и получить тестовое задание можно по ссылке.
Научно-исследовательская лаборатория прикладного анализа больших данных Томского государственного университета создана в 2016 году. В настоящее время лаборатория под руководством Вячеслава Гойко занимается занимается фундаментальными и прикладными исследованиями в области сбора и анализа больших данных в сфере решения социальных проблем, в том числе изучением благополучия и качества жизни жителей российских регионов, ценностных ориентиров современной молодежи, исследованиями рынка и труда, мнений студенчества и других тем.
Регистрация на стажировку открыта до 14 марта включительно.
Что нужно будет делать:
-
Подбирать и собирать данные исходя из целей и задач исследования
-
Извлекать из данных полезную информацию
-
Анализировать данные разных типов
-
Создавать и презентовать аналитические дашборды
Как команда лаборатории представляет идеального стажера:
-
Уверенный пользователь Microsoft Office и аналитических инструментов (Python, low-code на выбор)
-
Умеет обрабатывать большие объемы информации
-
Умеет сводить цифры и факты, извлекать реальные закономерности
-
Аналитический склад ума, внимательный, усидчивый, ответственный и организованный.
Лучшие стажеры получат приглашение о трудоустройстве.
Один из сотрудников лаборатории, недавний стажер и выпускник 2023 года цифровой кафедры ТГУ по аналитике данных Александр Ростовцев рассказал о своей практике и задачах:
– Сейчас я учусь на 4 курсе физико-технического факультета ТГУ. После окончания обучения на цифровых кафедрах нас пригласили на стажировку в лабораторию, где мы выполняли различные задачи в проектах по анализу данных. Меня привлекают к разным задачам, например, сейчас работаю над проектом, который связан с выдающимися выпускниками. Проект направлен на разработку и применение методов сбора и анализа неструктурированных данных различных интернет-ресурсов для Московского международного рейтинга вузов «Три миссии университета». Через интернет-энциклопедию «Википедия» мы находим выдающихся выпускников, смотрим статистику просмотра страниц, применяем алгоритмы поиска, в том числе методами обработки естественного языка. Также разрабатываем алгоритмы подсчета количества страниц веб-сайта университета, индексируемых поисковыми системами Google, Yandex и Baidu.
Есть еще один интересный проект – исследование отзывов о высшем образовании в России. Моя работа заключается в том, чтобы собрать данные с сайтов, применяя программы автоматического сбора, которые пишу самостоятельно. Я также произвожу автоматическую классификацию текстов с помощью нейросетей, так как ручная обработка осуществляется довольно долго. Поэтому моя цель – быстрая и качественная разметка. Для работы использую чат GPT, в нем пробую использовать различные запросы для классификации текстов по нужным категориям. Удобство GPT в том, что можно обрабатывать сразу несколько тысяч текстов очень быстро. Тестируются разные модели и запросы, чтобы выявить наиболее эффективные именно для наших текстов.
Добавим, что ранее исследователи ТГУ провели анализ сообщений в интернете о сериале «Слово пацана». С помощью технологий искусственного интеллекта они изучили более 650 тысяч постов, комментариев, мемов, треков, фотографий и видео. Основное внимание уделялось тому, как зрители воспринимали транслируемые в сериале ценности. Позитивные оценки составили 75% от идентифицированных мнений во «ВКонтакте» и касались общей оценки сериала, игры актеров, музыкального сопровождения. По мнению ученых, важной в обсуждениях стала тема поколений.