Skip to content

Latest commit

 

History

History
28 lines (28 loc) · 13.3 KB

linkreview.md

File metadata and controls

28 lines (28 loc) · 13.3 KB
Название Год Автор Ссылка Краткое содержание
Experimental Analysis of the Q-Matrix Method in Knowledge Discovery 2005 Barnes, Tiffany and Bitzer, Donald and Vouk, Mladen link Интерпретация Q-матрицы как способ кластеризации бинарных векторов. Кластеры - это всевозможные бинарные комбинации концептов, центроид каждого кластера - ожидаемый бинарный вектор ответов на упражнения. Если использовать MAE, можно найти оптимальную Q-матрицу
DINA Model and Parameter Estimation: A Didactic 2009 De La Torre, Jimmy link Подбробное объяснение модели DINA - одной из самых простых моделей когнитивной диагностики. Статья рассказывает о постановке задачи, методе работы модели и о способах оптимизации (EM и MCMC)
Bayesian Multidimensional IRT Models With a Hierarchical Structure 2008 Sheng, Yanyan, and Christopher K. Wikle link Описывается иерархическая многомерная IRT модель (MIRT), имеющая одну общую размерность и дополнительные размерности для подспособностей
MOOCCube: A Large-scale Data Repository for NLP Applications in MOOCs 2020 Yu, Jifan and Luo, Gan and Xiao, Tong and Zhong, Qingyang and Wang, Yuquan and Feng, Wenzheng and Luo, Junyi and Wang, Chenyu and Hou, Lei and Li, Juanzi and others link Огромный и сложный репозиторий для исследований в области умного образования. Основными сущностями являются курсы, концепты и студенты.
NeuralCD: A General Framework for Cognitive Diagnosis 2022 Wang, Fei and Liu, Qi and Chen, Enhong and Huang, Zhenya and Yin, Yu and Wang, Shijin and Su, Yu link Первая глубокая модель когнитивной диагностики: NeuralCD, в которой интерактивная функция не фиксирована, как в традиционных моделях, а обучаемая.
HierCDF: A Bayesian Network-based Hierarchical Cognitive Diagnosis Framework 2022 Li, Jiatong and Wang, Fei and Liu, Qi and Zhu, Mengxiao and Huang, Wei and Huang, Zhenya and Chen, Enhong and Su, Yu and Wang, Shijin link Когнитивная модель, позволяющая учитывать граф зависимости концептов в виде байесовской сети.
Item response theory for measurement validity. 2014 Yang, Frances M., and Solon T. Kao link Вводная статья, подброно описывающая одномерную IRT модель: её предположения, схему работы и итерпретацию параметров
Predicting Matchups and Preferences in Context 2016 Chen, Shuo, and Thorsten Joachims link Вводится вероятностная модель для предсказания исходов матчей, основанная на использовании как информации об игроках, так и о контексте (окружающей среде). Строятся внутренние представления для игроков, состоящие из 2х векторов: “грудь” и “клинок”.
Item Response Theory based Ensemble in Machine Learning 2020 Chen, Ziheng, and Hongshik Ahn link Рассматривается ансамбль классификаторов взвешенным голосованием, где веса - это латентные <<уровни знаний>> моделей, полученные с помощью IRT
Performance evaluation in machine learning: the good, the bad, the ugly, and the way forward 2019 Flach, Peter link Описывается текущее понимание показателей качества с их достоинствами и проблемами, и делаются первые попытки внедрить теорию измерений для оценки бинарных классификаторов.
Evaluation Examples Are Not Equally Informative: How Should That Change NLP Leaderboards? 2021 Rodriguez, Pedro and Barrow, Joe and Hoyle, Alexander Miserlis and Lalor, John P and Jia, Robin and Boyd-Graber, Jordan link Предлагается использовать IRT для ранжирования NLP моделей по их латентному уровню качества. При этом параметры текстов, полученные после применения модели, могут выявить ошибки разметки, найти переобучение и улучшить интерпретируемость таблицы.
Random-Walk Computation of Similarities between Nodes of a Graph with Application to Collaborative Recommendation 2007 Fouss, Francois and Pirotte, Alain and Renders, Jean-Michel and Saerens, Marco link Вводится новая мера сходства на вершинах взвешенного неориентированного графа. Для примера рассматривается задача рекомендации фильмов пользователям. Для валидации использовалась метрика DOA (Degree of agreement)
Recommender System for Predicting Student Performance 2010 Thai-Nghe, Nguyen and Drumond, Lucas and Krohn-Grimberghe, Artus and Schmidt-Thieme, Lars link Использование техники факторизации матрицы, взятой из области рекомендательных систем, для выявления уровня знаний студентов.
IRText: An Item Response Theory-Based Approach for Text Categorization 2022 Coban, Onder link Использование IRT для отбора признаков в классической задаче категоризации текстов. После применения IRT, каждый признак вместо изначального значения заменяется на IRT показатель
Item Response Theory for Efficient Human Evaluation of Chatbots 2020 Sedoc, João, and Lyle Ungar link Использование IRT для улучшения ручной чатботов, заключающейся в сравнении ответов 2 разных чатботов
Multi-Dimensional Ability Diagnosis for Machine Learning Algorithms 2023 Liu, Qi and Gong, Zheng and Huang, Zhenya and Liu, Chuanren and Zhu, Hengshu and Li, Zhi and Chen, Enhong and Xiong, Hui link Применяется когнитивная диагностика для валидации классификаторов. После этого для каждого классификатора находятся уровни качества, которые могут быть лучше в интерпретации, чем Recall для каждого из классов
Why Question Machine Learning Evaluation Methods? 2006 Japkowicz, Nathalie link Статья показывает сложности, которые могут возникнуть в валидации с использованием классических показателей качества: Accuracy, Precision/Recall и ROC AUC
tinyBenchmarks: evaluating LLMs with fewer examples 2024 Polo, Felipe Maia and Weber, Lucas and Choshen, Leshem and Sun, Yuekai and Xu, Gongjun and Yurochkin, Mikhail link Авторам с помощью IRT удалось уменьшить число объектов для валидации LLM моделей с 14000 до 100 в MMLU. При этом Accuracy отличается от реального (на всём датасете) не более, чем на 1.9%.
Visualizing Data using t-SNE 2008 Van der Maaten, Laurens, and Geoffrey Hinton link Вводится визуализация t-SNE, основанная на графе близости и позволяющая уменьшить размерность выборки, при этом сохранив (или стараясь сохранить) структуру кластеров
Five Ways to Look at Cohen’s Kappa 2015 Warrens, Matthijs J link Приводятся 5 способов интерпретации метрики Cohen's Kappa - самого распространённого способа оценки согласия между двумя результатами.
QCCDM: A Q-Augmented Causal Cognitive Diagnosis Model for Student Learning 2023 Liu, Shuo and Qian, Hong and Li, Mingjia and Zhou, Aimin link Предлагается новая модель когнитивной диагностики, учитывающая граф зависимости концептов с помощью SCM модели (Structural causal model) и аугментирующая Q-матрицу. Показывается, что она превосходит предыдущие модели в качестве
Making Sense of Item Response Theory in Machine Learning 2016 Martínez-Plumed, Fernando link Делается первая попытка применить IRT для валидации классификаторов. Работа модели на объекте выборки сводится к решению студентом упражнения. Исследуются свойства полученного скрытого уровня качества классификаторов и сравнивается с Accuracy.
R2DE: a NLP approach to estimating IRT parameters of newly generated questions 2020 Benedetto, Luca and Cappelli, Andrea and Turrin, Roberto and Cremonesi, Paolo link Попытка предсказывать IRT сложность и дискриминативность у новых вопросов, глядя на их текст и сравнивая с имеющимися вопросами.
The quest for the reliability of machine learning models in binary classification on tabular data 2023 Araujo Santos, Vitor Cirilo and Cardoso, Lucas and Alves, Ronnie link Валидация опирается только на число правильных ответов, но не на сам процесс обучения, поэтому модель может обучиться под неправильный контекст, т.е. переобучиться. Предлагается способ проверки надёжности контекста с помощью IRT.
Clustering examples in multi-dataset benchmarks with item response theory 2022 Rodriguez, Pedro and Htut, Phu Mon and Lalor, John P and Sedoc, João link Делается анализ IRT параметров объектов в NLP бенчмарках. Использовалось несколько датасетов вместе. Авторы предполагали, что объекты из разных датасетов кластеризуются на разные кластеры, но оказалось, что кластеризовались по классам, а не по датасетам.
Standing on the shoulders of giants 2024 Cardoso, Lucas Felipe Ferraro and Santos, Vitor Cirilo Araujo and Frances, Regiane Silva Kawasaki and Alves, Ronnie Cley de Oliveira and others link Анализ IRT параметров объектов при валидации классификаторов. Рассматривается метод, как IRT может обогатить матрицу ошибок, чтобы лучше отделять модели.