Название	Год	Автор	Ссылка	Краткое содержание
Experimental Analysis of the Q-Matrix Method in Knowledge Discovery	2005	Barnes, Tiffany and Bitzer, Donald and Vouk, Mladen	link	Интерпретация Q-матрицы как способ кластеризации бинарных векторов. Кластеры - это всевозможные бинарные комбинации концептов, центроид каждого кластера - ожидаемый бинарный вектор ответов на упражнения. Если использовать MAE, можно найти оптимальную Q-матрицу
DINA Model and Parameter Estimation: A Didactic	2009	De La Torre, Jimmy	link	Подбробное объяснение модели DINA - одной из самых простых моделей когнитивной диагностики. Статья рассказывает о постановке задачи, методе работы модели и о способах оптимизации (EM и MCMC)
Bayesian Multidimensional IRT Models With a Hierarchical Structure	2008	Sheng, Yanyan, and Christopher K. Wikle	link	Описывается иерархическая многомерная IRT модель (MIRT), имеющая одну общую размерность и дополнительные размерности для подспособностей
MOOCCube: A Large-scale Data Repository for NLP Applications in MOOCs	2020	Yu, Jifan and Luo, Gan and Xiao, Tong and Zhong, Qingyang and Wang, Yuquan and Feng, Wenzheng and Luo, Junyi and Wang, Chenyu and Hou, Lei and Li, Juanzi and others	link	Огромный и сложный репозиторий для исследований в области умного образования. Основными сущностями являются курсы, концепты и студенты.
NeuralCD: A General Framework for Cognitive Diagnosis	2022	Wang, Fei and Liu, Qi and Chen, Enhong and Huang, Zhenya and Yin, Yu and Wang, Shijin and Su, Yu	link	Первая глубокая модель когнитивной диагностики: NeuralCD, в которой интерактивная функция не фиксирована, как в традиционных моделях, а обучаемая.
HierCDF: A Bayesian Network-based Hierarchical Cognitive Diagnosis Framework	2022	Li, Jiatong and Wang, Fei and Liu, Qi and Zhu, Mengxiao and Huang, Wei and Huang, Zhenya and Chen, Enhong and Su, Yu and Wang, Shijin	link	Когнитивная модель, позволяющая учитывать граф зависимости концептов в виде байесовской сети.
Item response theory for measurement validity.	2014	Yang, Frances M., and Solon T. Kao	link	Вводная статья, подброно описывающая одномерную IRT модель: её предположения, схему работы и итерпретацию параметров
Predicting Matchups and Preferences in Context	2016	Chen, Shuo, and Thorsten Joachims	link	Вводится вероятностная модель для предсказания исходов матчей, основанная на использовании как информации об игроках, так и о контексте (окружающей среде). Строятся внутренние представления для игроков, состоящие из 2х векторов: “грудь” и “клинок”.
Item Response Theory based Ensemble in Machine Learning	2020	Chen, Ziheng, and Hongshik Ahn	link	Рассматривается ансамбль классификаторов взвешенным голосованием, где веса - это латентные <<уровни знаний>> моделей, полученные с помощью IRT
Performance evaluation in machine learning: the good, the bad, the ugly, and the way forward	2019	Flach, Peter	link	Описывается текущее понимание показателей качества с их достоинствами и проблемами, и делаются первые попытки внедрить теорию измерений для оценки бинарных классификаторов.
Evaluation Examples Are Not Equally Informative: How Should That Change NLP Leaderboards?	2021	Rodriguez, Pedro and Barrow, Joe and Hoyle, Alexander Miserlis and Lalor, John P and Jia, Robin and Boyd-Graber, Jordan	link	Предлагается использовать IRT для ранжирования NLP моделей по их латентному уровню качества. При этом параметры текстов, полученные после применения модели, могут выявить ошибки разметки, найти переобучение и улучшить интерпретируемость таблицы.
Random-Walk Computation of Similarities between Nodes of a Graph with Application to Collaborative Recommendation	2007	Fouss, Francois and Pirotte, Alain and Renders, Jean-Michel and Saerens, Marco	link	Вводится новая мера сходства на вершинах взвешенного неориентированного графа. Для примера рассматривается задача рекомендации фильмов пользователям. Для валидации использовалась метрика DOA (Degree of agreement)
Recommender System for Predicting Student Performance	2010	Thai-Nghe, Nguyen and Drumond, Lucas and Krohn-Grimberghe, Artus and Schmidt-Thieme, Lars	link	Использование техники факторизации матрицы, взятой из области рекомендательных систем, для выявления уровня знаний студентов.
IRText: An Item Response Theory-Based Approach for Text Categorization	2022	Coban, Onder	link	Использование IRT для отбора признаков в классической задаче категоризации текстов. После применения IRT, каждый признак вместо изначального значения заменяется на IRT показатель
Item Response Theory for Efficient Human Evaluation of Chatbots	2020	Sedoc, João, and Lyle Ungar	link	Использование IRT для улучшения ручной чатботов, заключающейся в сравнении ответов 2 разных чатботов
Multi-Dimensional Ability Diagnosis for Machine Learning Algorithms	2023	Liu, Qi and Gong, Zheng and Huang, Zhenya and Liu, Chuanren and Zhu, Hengshu and Li, Zhi and Chen, Enhong and Xiong, Hui	link	Применяется когнитивная диагностика для валидации классификаторов. После этого для каждого классификатора находятся уровни качества, которые могут быть лучше в интерпретации, чем Recall для каждого из классов
Why Question Machine Learning Evaluation Methods?	2006	Japkowicz, Nathalie	link	Статья показывает сложности, которые могут возникнуть в валидации с использованием классических показателей качества: Accuracy, Precision/Recall и ROC AUC
tinyBenchmarks: evaluating LLMs with fewer examples	2024	Polo, Felipe Maia and Weber, Lucas and Choshen, Leshem and Sun, Yuekai and Xu, Gongjun and Yurochkin, Mikhail	link	Авторам с помощью IRT удалось уменьшить число объектов для валидации LLM моделей с 14000 до 100 в MMLU. При этом Accuracy отличается от реального (на всём датасете) не более, чем на 1.9%.
Visualizing Data using t-SNE	2008	Van der Maaten, Laurens, and Geoffrey Hinton	link	Вводится визуализация t-SNE, основанная на графе близости и позволяющая уменьшить размерность выборки, при этом сохранив (или стараясь сохранить) структуру кластеров
Five Ways to Look at Cohen’s Kappa	2015	Warrens, Matthijs J	link	Приводятся 5 способов интерпретации метрики Cohen's Kappa - самого распространённого способа оценки согласия между двумя результатами.
QCCDM: A Q-Augmented Causal Cognitive Diagnosis Model for Student Learning	2023	Liu, Shuo and Qian, Hong and Li, Mingjia and Zhou, Aimin	link	Предлагается новая модель когнитивной диагностики, учитывающая граф зависимости концептов с помощью SCM модели (Structural causal model) и аугментирующая Q-матрицу. Показывается, что она превосходит предыдущие модели в качестве
Making Sense of Item Response Theory in Machine Learning	2016	Martínez-Plumed, Fernando	link	Делается первая попытка применить IRT для валидации классификаторов. Работа модели на объекте выборки сводится к решению студентом упражнения. Исследуются свойства полученного скрытого уровня качества классификаторов и сравнивается с Accuracy.
R2DE: a NLP approach to estimating IRT parameters of newly generated questions	2020	Benedetto, Luca and Cappelli, Andrea and Turrin, Roberto and Cremonesi, Paolo	link	Попытка предсказывать IRT сложность и дискриминативность у новых вопросов, глядя на их текст и сравнивая с имеющимися вопросами.
The quest for the reliability of machine learning models in binary classification on tabular data	2023	Araujo Santos, Vitor Cirilo and Cardoso, Lucas and Alves, Ronnie	link	Валидация опирается только на число правильных ответов, но не на сам процесс обучения, поэтому модель может обучиться под неправильный контекст, т.е. переобучиться. Предлагается способ проверки надёжности контекста с помощью IRT.
Clustering examples in multi-dataset benchmarks with item response theory	2022	Rodriguez, Pedro and Htut, Phu Mon and Lalor, John P and Sedoc, João	link	Делается анализ IRT параметров объектов в NLP бенчмарках. Использовалось несколько датасетов вместе. Авторы предполагали, что объекты из разных датасетов кластеризуются на разные кластеры, но оказалось, что кластеризовались по классам, а не по датасетам.
Standing on the shoulders of giants	2024	Cardoso, Lucas Felipe Ferraro and Santos, Vitor Cirilo Araujo and Frances, Regiane Silva Kawasaki and Alves, Ronnie Cley de Oliveira and others	link	Анализ IRT параметров объектов при валидации классификаторов. Рассматривается метод, как IRT может обогатить матрицу ошибок, чтобы лучше отделять модели.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

linkreview.md

linkreview.md

Files

linkreview.md

Latest commit

History

linkreview.md

File metadata and controls