Experimental Analysis of the Q-Matrix Method in Knowledge Discovery |
2005 |
Barnes, Tiffany and Bitzer, Donald and Vouk, Mladen |
link |
Интерпретация Q-матрицы как способ кластеризации бинарных векторов. Кластеры - это всевозможные бинарные комбинации концептов, центроид каждого кластера - ожидаемый бинарный вектор ответов на упражнения. Если использовать MAE, можно найти оптимальную Q-матрицу |
DINA Model and Parameter Estimation: A Didactic |
2009 |
De La Torre, Jimmy |
link |
Подбробное объяснение модели DINA - одной из самых простых моделей когнитивной диагностики. Статья рассказывает о постановке задачи, методе работы модели и о способах оптимизации (EM и MCMC) |
Bayesian Multidimensional IRT Models With a Hierarchical Structure |
2008 |
Sheng, Yanyan, and Christopher K. Wikle |
link |
Описывается иерархическая многомерная IRT модель (MIRT), имеющая одну общую размерность и дополнительные размерности для подспособностей |
MOOCCube: A Large-scale Data Repository for NLP Applications in MOOCs |
2020 |
Yu, Jifan and Luo, Gan and Xiao, Tong and Zhong, Qingyang and Wang, Yuquan and Feng, Wenzheng and Luo, Junyi and Wang, Chenyu and Hou, Lei and Li, Juanzi and others |
link |
Огромный и сложный репозиторий для исследований в области умного образования. Основными сущностями являются курсы, концепты и студенты. |
NeuralCD: A General Framework for Cognitive Diagnosis |
2022 |
Wang, Fei and Liu, Qi and Chen, Enhong and Huang, Zhenya and Yin, Yu and Wang, Shijin and Su, Yu |
link |
Первая глубокая модель когнитивной диагностики: NeuralCD, в которой интерактивная функция не фиксирована, как в традиционных моделях, а обучаемая. |
HierCDF: A Bayesian Network-based Hierarchical Cognitive Diagnosis Framework |
2022 |
Li, Jiatong and Wang, Fei and Liu, Qi and Zhu, Mengxiao and Huang, Wei and Huang, Zhenya and Chen, Enhong and Su, Yu and Wang, Shijin |
link |
Когнитивная модель, позволяющая учитывать граф зависимости концептов в виде байесовской сети. |
Item response theory for measurement validity. |
2014 |
Yang, Frances M., and Solon T. Kao |
link |
Вводная статья, подброно описывающая одномерную IRT модель: её предположения, схему работы и итерпретацию параметров |
Predicting Matchups and Preferences in Context |
2016 |
Chen, Shuo, and Thorsten Joachims |
link |
Вводится вероятностная модель для предсказания исходов матчей, основанная на использовании как информации об игроках, так и о контексте (окружающей среде). Строятся внутренние представления для игроков, состоящие из 2х векторов: “грудь” и “клинок”. |
Item Response Theory based Ensemble in Machine Learning |
2020 |
Chen, Ziheng, and Hongshik Ahn |
link |
Рассматривается ансамбль классификаторов взвешенным голосованием, где веса - это латентные <<уровни знаний>> моделей, полученные с помощью IRT |
Performance evaluation in machine learning: the good, the bad, the ugly, and the way forward |
2019 |
Flach, Peter |
link |
Описывается текущее понимание показателей качества с их достоинствами и проблемами, и делаются первые попытки внедрить теорию измерений для оценки бинарных классификаторов. |
Evaluation Examples Are Not Equally Informative: How Should That Change NLP Leaderboards? |
2021 |
Rodriguez, Pedro and Barrow, Joe and Hoyle, Alexander Miserlis and Lalor, John P and Jia, Robin and Boyd-Graber, Jordan |
link |
Предлагается использовать IRT для ранжирования NLP моделей по их латентному уровню качества. При этом параметры текстов, полученные после применения модели, могут выявить ошибки разметки, найти переобучение и улучшить интерпретируемость таблицы. |
Random-Walk Computation of Similarities between Nodes of a Graph with Application to Collaborative Recommendation |
2007 |
Fouss, Francois and Pirotte, Alain and Renders, Jean-Michel and Saerens, Marco |
link |
Вводится новая мера сходства на вершинах взвешенного неориентированного графа. Для примера рассматривается задача рекомендации фильмов пользователям. Для валидации использовалась метрика DOA (Degree of agreement) |
Recommender System for Predicting Student Performance |
2010 |
Thai-Nghe, Nguyen and Drumond, Lucas and Krohn-Grimberghe, Artus and Schmidt-Thieme, Lars |
link |
Использование техники факторизации матрицы, взятой из области рекомендательных систем, для выявления уровня знаний студентов. |
IRText: An Item Response Theory-Based Approach for Text Categorization |
2022 |
Coban, Onder |
link |
Использование IRT для отбора признаков в классической задаче категоризации текстов. После применения IRT, каждый признак вместо изначального значения заменяется на IRT показатель |
Item Response Theory for Efficient Human Evaluation of Chatbots |
2020 |
Sedoc, João, and Lyle Ungar |
link |
Использование IRT для улучшения ручной чатботов, заключающейся в сравнении ответов 2 разных чатботов |
Multi-Dimensional Ability Diagnosis for Machine Learning Algorithms |
2023 |
Liu, Qi and Gong, Zheng and Huang, Zhenya and Liu, Chuanren and Zhu, Hengshu and Li, Zhi and Chen, Enhong and Xiong, Hui |
link |
Применяется когнитивная диагностика для валидации классификаторов. После этого для каждого классификатора находятся уровни качества, которые могут быть лучше в интерпретации, чем Recall для каждого из классов |
Why Question Machine Learning Evaluation Methods? |
2006 |
Japkowicz, Nathalie |
link |
Статья показывает сложности, которые могут возникнуть в валидации с использованием классических показателей качества: Accuracy, Precision/Recall и ROC AUC |
tinyBenchmarks: evaluating LLMs with fewer examples |
2024 |
Polo, Felipe Maia and Weber, Lucas and Choshen, Leshem and Sun, Yuekai and Xu, Gongjun and Yurochkin, Mikhail |
link |
Авторам с помощью IRT удалось уменьшить число объектов для валидации LLM моделей с 14000 до 100 в MMLU. При этом Accuracy отличается от реального (на всём датасете) не более, чем на 1.9%. |
Visualizing Data using t-SNE |
2008 |
Van der Maaten, Laurens, and Geoffrey Hinton |
link |
Вводится визуализация t-SNE, основанная на графе близости и позволяющая уменьшить размерность выборки, при этом сохранив (или стараясь сохранить) структуру кластеров |
Five Ways to Look at Cohen’s Kappa |
2015 |
Warrens, Matthijs J |
link |
Приводятся 5 способов интерпретации метрики Cohen's Kappa - самого распространённого способа оценки согласия между двумя результатами. |
QCCDM: A Q-Augmented Causal Cognitive Diagnosis Model for Student Learning |
2023 |
Liu, Shuo and Qian, Hong and Li, Mingjia and Zhou, Aimin |
link |
Предлагается новая модель когнитивной диагностики, учитывающая граф зависимости концептов с помощью SCM модели (Structural causal model) и аугментирующая Q-матрицу. Показывается, что она превосходит предыдущие модели в качестве |
Making Sense of Item Response Theory in Machine Learning |
2016 |
Martínez-Plumed, Fernando |
link |
Делается первая попытка применить IRT для валидации классификаторов. Работа модели на объекте выборки сводится к решению студентом упражнения. Исследуются свойства полученного скрытого уровня качества классификаторов и сравнивается с Accuracy. |
R2DE: a NLP approach to estimating IRT parameters of newly generated questions |
2020 |
Benedetto, Luca and Cappelli, Andrea and Turrin, Roberto and Cremonesi, Paolo |
link |
Попытка предсказывать IRT сложность и дискриминативность у новых вопросов, глядя на их текст и сравнивая с имеющимися вопросами. |
The quest for the reliability of machine learning models in binary classification on tabular data |
2023 |
Araujo Santos, Vitor Cirilo and Cardoso, Lucas and Alves, Ronnie |
link |
Валидация опирается только на число правильных ответов, но не на сам процесс обучения, поэтому модель может обучиться под неправильный контекст, т.е. переобучиться. Предлагается способ проверки надёжности контекста с помощью IRT. |
Clustering examples in multi-dataset benchmarks with item response theory |
2022 |
Rodriguez, Pedro and Htut, Phu Mon and Lalor, John P and Sedoc, João |
link |
Делается анализ IRT параметров объектов в NLP бенчмарках. Использовалось несколько датасетов вместе. Авторы предполагали, что объекты из разных датасетов кластеризуются на разные кластеры, но оказалось, что кластеризовались по классам, а не по датасетам. |
Standing on the shoulders of giants |
2024 |
Cardoso, Lucas Felipe Ferraro and Santos, Vitor Cirilo Araujo and Frances, Regiane Silva Kawasaki and Alves, Ronnie Cley de Oliveira and others |
link |
Анализ IRT параметров объектов при валидации классификаторов. Рассматривается метод, как IRT может обогатить матрицу ошибок, чтобы лучше отделять модели. |