论文阅读:Interleaving Pre( 二 )


基于 PLM 的方法(例如 RASAT、和 )在带注释的训练集(例如 )上进行微调 , 以适应任务 。基于 PLM 的方法通过对大量带注释的样本进行微调 , 有望在下游数据集上生成准确的 SQL 查询 。
LLM(例如 , PaLM、 和 GPT4)在一系列领域和任务中表现出了卓越的复杂推理能力 , 无需针对特定数据集进行微调;它们通常可以通过 API 调用来访问 。
我们进行了深入分析 , 以深入了解零样本的 SOTA 解决方案的优势和局限性 。我们的分析揭示了关于不同方法在解决各自困难方面的表现 , 如图 2 所总结的那样 。
? 图2比较零样本的方法
PLM:(优点)PLM 在架构对齐子任务方面表现出卓越的熟练程度 。具体来说 , 它们擅长确定要包含在子句中的适当属性以及标识要包含在 FROM 子句中的相关表 。(缺点)他们不擅长零样本设置中的复杂推理 。图 3 中的 S' , 给定“名为ward 的学生” , 它无法区分给定名称和姓氏 , 并且只选择了与给定名称相似的一列“命名”一词 。
? 图3 由 PLM 翻译的 SQL 查询 S′
LLM:(优点)LLM 在复杂的推理任务中表现出卓越的性能 , 特别是在处理 WHERE 子句下的谓词时 。这些方法能够处理复杂的逻辑推论并解释问题的语义 。(缺点)LLM无法实现精确的模式对齐;他们倾向于选择更多的列(例如分数)和表格(例如课程)来覆盖输入内容 , 从而导致不正确的执行结果 。图 4 中的图表 , LLM 在和 FROM 子句中都得到了错误的列 。
【论文阅读:Interleaving Pre】? 图4 由 LLM 翻译的 SQL 查询 S"
此外 , PLM 和 LLM 都展示了 SQL 查询其他组件的能力 , 例如 ORDER BY 和 LIMIT 。然而 , 值得注意的是 , 这两种方法都不擅长数据库实例对齐 。例如 , S' 和 S′′ 都使用值“” , 但无法与数据库中存储的正确值“timmy”对齐 。
我们提出的框架 。我们的主要观察结果是 , PLM 和 LLM 在解决零样本任务方面可以相互补充 。也就是说 , PLM(数据库模式对齐)的优点是 LLM 的缺点 , 而 LLM(复杂自然语言推理)的优点也是 PLM 的缺点 。直观地说 , 如果我们能够智能地将 PLM 和 LLM 结合起来 , 从而统一两个领域的优点 , 零样本问题将得到更有效的解决 。此外 , 虽然 PLM 和 LLM 都无法处理数据库实例对齐 , 但我们可能可以利用 LLM 的交互能力 , 通过使用提供的数据集校准翻译后的 SQL 查询来解决此问题 。
基于上述观察 , 我们提出了一个框架 , 它交错可调PLM和固定LLM以实现零样本 , 有效解决零样本中的所有三个挑战 , 如图2最后一行所示 。主要包括的两个关键步骤 。首先 , SQL利用可调 PLM 执行数据库模式对齐并生成 SQL  , 其中包括 (1)的属性、(2) FROM 中包含的表 , 以及 (3) 用于组合的必要关键字(例如 ORDER BY) SQL 查询 。其次 , SQL 查询完成利用 LLM 来填充 SQL 草图中缺失的信息 , 并通过与数据库中的数据值对齐来校准谓词 , 例如 , 从“”到“timmy” , 这要归功于LLM复杂的自然语言推理和交互功能 。
有效实现我们的框架提出了两大技术挑战 。第一个挑战是如何在测试数据与训练数据不同的零样本设置中通过可调 PLM 生成准确的 SQL 草图 。为了应对这一挑战 , 我们首先引入一个 SQL学习框架 , 该框架配备了自适应和数据库感知的序列化策略来生成候选 SQL。接下来 , 由于 PLM 在搜索解码过程可能容易受到局部最优的影响而无法找到全局最佳解决方案  , 因此我们保留顶部假设进行重新评估和细化 。具体来说 , 我们保留顶级 SQL 候选草图 , 而不是直接采用最好的草图 , 然后提出一种问题感知对齐器 , 根据问题的语义对 SQL 草图进行排名 。第二个挑战是如何指导LLM根据数据库实例完成SQL查询并输出正确的SQL查询 。为了应对这一挑战 , 我们设计了一种谓词校准方法来向LLM建议合适的数据库实例 。此外 , 受我们观察到 SQL 执行结果反映其质量的启发 , 我们提出了一种基于执行的选择策略来选择最佳 SQL 查询 。