数据筛选及构造过程

这是一个非常棒的工作，在小数据量的 SFT 阶段就取得了令人瞩目的成果。我有以下两个问题：
Q1: 论文中提及问题筛选标准涵盖难度级别、普遍性、知识多样性等方面，还提到运用现有的一些模型对问题进行评估。我想了解一下，这部分所使用的 prompt 是如何设计的？具体的筛选逻辑又是怎样的？
Q2: 在推理链方面，文中提到利用最先进的推理模型生成不同的解决方案，并依据答案的正确性筛选这些响应。那么，最终数据的选择是否是对不同模型生成内容的推理链质量进行评估呢？如果是，这部分评估具体是如何实施的？