File size: 15,185 Bytes
574b87a
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
{
  "tasks": {
    "gsm_hard": {
      "domain": "math",
      "selected": {
        "topk8_global_ridge": [
          "math_counting_easy",
          "mbpp_sanitized",
          "mmlu_high_school_physics",
          "humaneval",
          "multiarith",
          "math_algebra_easy",
          "mmlu_elementary_math",
          "mmlu_high_school_biology"
        ],
        "topk8_pertensor_ridge": [
          "math_counting_easy",
          "mbpp_sanitized",
          "mmlu_high_school_physics",
          "humaneval",
          "multiarith",
          "math_algebra_easy",
          "mmlu_elementary_math",
          "mmlu_high_school_biology"
        ]
      },
      "metrics": {
        "base_Y": 0.06333333333333334,
        "oracle": 0.15,
        "mean": 0.056666666666666664,
        "mean__cos": 0.8538880348205566,
        "global_ridge": 0.06,
        "global_ridge__cos": 0.9063830375671387,
        "pertensor_ridge": 0.06666666666666667,
        "pertensor_ridge__cos": 0.904435396194458,
        "pertensor_pca": 0.06666666666666667,
        "pertensor_pca__cos": 0.9048259854316711,
        "pertensor_mlp": 0.07333333333333333,
        "pertensor_mlp__cos": 0.90220707654953,
        "procrustes": 0.07,
        "procrustes__cos": 0.89919513463974,
        "topk8_global_ridge": 0.06666666666666667,
        "topk8_global_ridge__cos": 0.9051854014396667,
        "topk8_pertensor_ridge": 0.06333333333333334,
        "topk8_pertensor_ridge__cos": 0.903511106967926
      },
      "main_row": {
        "Domain": "math",
        "Task": "gsm_hard",
        "base_Y": 0.06333333333333334,
        "mean": 0.056666666666666664,
        "global_ridge": 0.06,
        "pertensor_ridge": 0.06666666666666667,
        "topk8_global_ridge": 0.06666666666666667,
        "topk8_pertensor_ridge": 0.06333333333333334,
        "pertensor_mlp": 0.07333333333333333,
        "oracle": 0.15,
        "oracle_minus_base_pp": 8.666666666666666,
        "usable": true,
        "gap_recovered": 0.11538461538461534
      }
    },
    "gsm8k_test_500": {
      "domain": "math",
      "selected": {
        "topk8_global_ridge": [
          "math_counting_easy",
          "mbpp_sanitized",
          "mmlu_high_school_physics",
          "humaneval",
          "multiarith",
          "math_algebra_easy",
          "mmlu_elementary_math",
          "mmlu_high_school_biology"
        ],
        "topk8_pertensor_ridge": [
          "math_counting_easy",
          "mbpp_sanitized",
          "mmlu_high_school_physics",
          "humaneval",
          "multiarith",
          "math_algebra_easy",
          "mmlu_elementary_math",
          "mmlu_high_school_biology"
        ]
      },
      "metrics": {
        "base_Y": 0.08,
        "oracle": 0.29333333333333333,
        "mean": 0.09333333333333334,
        "mean__cos": 0.9122087955474854,
        "global_ridge": 0.1,
        "global_ridge__cos": 0.9690855145454407,
        "pertensor_ridge": 0.1,
        "pertensor_ridge__cos": 0.9674875736236572,
        "pertensor_pca": 0.1,
        "pertensor_pca__cos": 0.9675261974334717,
        "pertensor_mlp": 0.1,
        "pertensor_mlp__cos": 0.9635453224182129,
        "procrustes": 0.09666666666666666,
        "procrustes__cos": 0.9608618021011353,
        "topk8_global_ridge": 0.09333333333333334,
        "topk8_global_ridge__cos": 0.9682586789131165,
        "topk8_pertensor_ridge": 0.09666666666666666,
        "topk8_pertensor_ridge__cos": 0.9668623805046082
      },
      "main_row": {
        "Domain": "math",
        "Task": "gsm8k_test_500",
        "base_Y": 0.08,
        "mean": 0.09333333333333334,
        "global_ridge": 0.1,
        "pertensor_ridge": 0.1,
        "topk8_global_ridge": 0.09333333333333334,
        "topk8_pertensor_ridge": 0.09666666666666666,
        "pertensor_mlp": 0.1,
        "oracle": 0.29333333333333333,
        "oracle_minus_base_pp": 21.333333333333332,
        "usable": true,
        "gap_recovered": 0.09375000000000003
      }
    },
    "mbpp_test_held": {
      "domain": "code",
      "selected": {
        "topk8_global_ridge": [
          "mbpp_sanitized",
          "math_counting_easy",
          "humaneval",
          "mmlu_high_school_physics",
          "multiarith",
          "mmlu_high_school_biology",
          "mmlu_elementary_math",
          "math_algebra_easy"
        ],
        "topk8_pertensor_ridge": [
          "mbpp_sanitized",
          "math_counting_easy",
          "humaneval",
          "mmlu_high_school_physics",
          "multiarith",
          "mmlu_high_school_biology",
          "mmlu_elementary_math",
          "math_algebra_easy"
        ]
      },
      "metrics": {
        "base_Y": 0.23,
        "oracle": 0.32,
        "mean": 0.24,
        "mean__cos": 0.9324136972427368,
        "global_ridge": 0.25,
        "global_ridge__cos": 0.9998323917388916,
        "pertensor_ridge": 0.25,
        "pertensor_ridge__cos": 0.9997650980949402,
        "pertensor_pca": 0.25,
        "pertensor_pca__cos": 0.9902871251106262,
        "pertensor_mlp": 0.24,
        "pertensor_mlp__cos": 0.9861795902252197,
        "procrustes": 0.24,
        "procrustes__cos": 0.9862682819366455,
        "topk8_global_ridge": 0.25,
        "topk8_global_ridge__cos": 0.9998441338539124,
        "topk8_pertensor_ridge": 0.25,
        "topk8_pertensor_ridge__cos": 0.9995993375778198
      },
      "main_row": {
        "Domain": "code",
        "Task": "mbpp_test_held",
        "base_Y": 0.23,
        "mean": 0.24,
        "global_ridge": 0.25,
        "pertensor_ridge": 0.25,
        "topk8_global_ridge": 0.25,
        "topk8_pertensor_ridge": 0.25,
        "pertensor_mlp": 0.24,
        "oracle": 0.32,
        "oracle_minus_base_pp": 9.0,
        "usable": true,
        "gap_recovered": 0.22222222222222213
      }
    },
    "mbpp_plus": {
      "domain": "code",
      "selected": {
        "topk8_global_ridge": [
          "mbpp_sanitized",
          "humaneval",
          "math_counting_easy",
          "mmlu_high_school_physics",
          "multiarith",
          "mmlu_high_school_biology",
          "mmlu_elementary_math",
          "math_algebra_easy"
        ],
        "topk8_pertensor_ridge": [
          "mbpp_sanitized",
          "humaneval",
          "math_counting_easy",
          "mmlu_high_school_physics",
          "multiarith",
          "mmlu_high_school_biology",
          "mmlu_elementary_math",
          "math_algebra_easy"
        ]
      },
      "metrics": {
        "base_Y": 0.21666666666666667,
        "oracle": 0.45,
        "mean": 0.21333333333333335,
        "mean__cos": 0.9124462008476257,
        "global_ridge": 0.28,
        "global_ridge__cos": 0.9848983287811279,
        "pertensor_ridge": 0.27,
        "pertensor_ridge__cos": 0.9846793413162231,
        "pertensor_pca": 0.21,
        "pertensor_pca__cos": 0.9684830904006958,
        "pertensor_mlp": 0.21,
        "pertensor_mlp__cos": 0.9642786383628845,
        "procrustes": 0.22666666666666666,
        "procrustes__cos": 0.9647142887115479,
        "topk8_global_ridge": 0.27,
        "topk8_global_ridge__cos": 0.9848766922950745,
        "topk8_pertensor_ridge": 0.26666666666666666,
        "topk8_pertensor_ridge__cos": 0.9846369624137878
      },
      "main_row": {
        "Domain": "code",
        "Task": "mbpp_plus",
        "base_Y": 0.21666666666666667,
        "mean": 0.21333333333333335,
        "global_ridge": 0.28,
        "pertensor_ridge": 0.27,
        "topk8_global_ridge": 0.27,
        "topk8_pertensor_ridge": 0.26666666666666666,
        "pertensor_mlp": 0.21,
        "oracle": 0.45,
        "oracle_minus_base_pp": 23.333333333333332,
        "usable": true,
        "gap_recovered": 0.2714285714285715
      }
    },
    "arc_challenge": {
      "domain": "science",
      "selected": {
        "topk8_global_ridge": [
          "mmlu_high_school_physics",
          "mmlu_high_school_biology",
          "mmlu_elementary_math",
          "math_counting_easy",
          "mbpp_sanitized",
          "humaneval",
          "multiarith",
          "math_algebra_easy"
        ],
        "topk8_pertensor_ridge": [
          "mmlu_high_school_physics",
          "mmlu_high_school_biology",
          "mmlu_elementary_math",
          "math_counting_easy",
          "mbpp_sanitized",
          "humaneval",
          "multiarith",
          "math_algebra_easy"
        ]
      },
      "metrics": {
        "base_Y": 0.7157190635451505,
        "oracle": 0.7224080267558528,
        "mean": 0.7324414715719063,
        "mean__cos": 0.8707941174507141,
        "global_ridge": 0.7357859531772575,
        "global_ridge__cos": 0.9247814416885376,
        "pertensor_ridge": 0.7290969899665551,
        "pertensor_ridge__cos": 0.9244466423988342,
        "pertensor_pca": 0.7357859531772575,
        "pertensor_pca__cos": 0.9224098920822144,
        "pertensor_mlp": 0.7391304347826086,
        "pertensor_mlp__cos": 0.920215368270874,
        "procrustes": 0.7491638795986622,
        "procrustes__cos": 0.9195225238800049,
        "topk8_global_ridge": 0.7357859531772575,
        "topk8_global_ridge__cos": 0.9233748316764832,
        "topk8_pertensor_ridge": 0.7290969899665551,
        "topk8_pertensor_ridge__cos": 0.9231237173080444
      },
      "main_row": {
        "Domain": "science",
        "Task": "arc_challenge",
        "base_Y": 0.7157190635451505,
        "mean": 0.7324414715719063,
        "global_ridge": 0.7357859531772575,
        "pertensor_ridge": 0.7290969899665551,
        "topk8_global_ridge": 0.7357859531772575,
        "topk8_pertensor_ridge": 0.7290969899665551,
        "pertensor_mlp": 0.7391304347826086,
        "oracle": 0.7224080267558528,
        "oracle_minus_base_pp": 0.6688963210702337,
        "usable": false,
        "gap_recovered": 5.0
      }
    },
    "openbookqa_test": {
      "domain": "science",
      "selected": {
        "topk8_global_ridge": [
          "mmlu_high_school_physics",
          "mmlu_high_school_biology",
          "mbpp_sanitized",
          "math_counting_easy",
          "mmlu_elementary_math",
          "humaneval",
          "multiarith",
          "math_algebra_easy"
        ],
        "topk8_pertensor_ridge": [
          "mmlu_high_school_physics",
          "mmlu_high_school_biology",
          "mbpp_sanitized",
          "math_counting_easy",
          "mmlu_elementary_math",
          "humaneval",
          "multiarith",
          "math_algebra_easy"
        ]
      },
      "metrics": {
        "base_Y": 0.71,
        "oracle": 0.9833333333333333,
        "mean": 0.76,
        "mean__cos": 0.9152830243110657,
        "global_ridge": 0.7466666666666667,
        "global_ridge__cos": 0.9711560010910034,
        "pertensor_ridge": 0.7433333333333333,
        "pertensor_ridge__cos": 0.9709675312042236,
        "pertensor_pca": 0.76,
        "pertensor_pca__cos": 0.9696671366691589,
        "pertensor_mlp": 0.7533333333333333,
        "pertensor_mlp__cos": 0.9671377539634705,
        "procrustes": 0.7366666666666667,
        "procrustes__cos": 0.9668078422546387,
        "topk8_global_ridge": 0.7133333333333334,
        "topk8_global_ridge__cos": 0.969284176826477,
        "topk8_pertensor_ridge": 0.7166666666666667,
        "topk8_pertensor_ridge__cos": 0.9690907597541809
      },
      "main_row": {
        "Domain": "science",
        "Task": "openbookqa_test",
        "base_Y": 0.71,
        "mean": 0.76,
        "global_ridge": 0.7466666666666667,
        "pertensor_ridge": 0.7433333333333333,
        "topk8_global_ridge": 0.7133333333333334,
        "topk8_pertensor_ridge": 0.7166666666666667,
        "pertensor_mlp": 0.7533333333333333,
        "oracle": 0.9833333333333333,
        "oracle_minus_base_pp": 27.333333333333332,
        "usable": true,
        "gap_recovered": 0.18292682926829285
      }
    }
  },
  "main_table": [
    {
      "Domain": "math",
      "Task": "gsm_hard",
      "base_Y": 0.06333333333333334,
      "mean": 0.056666666666666664,
      "global_ridge": 0.06,
      "pertensor_ridge": 0.06666666666666667,
      "topk8_global_ridge": 0.06666666666666667,
      "topk8_pertensor_ridge": 0.06333333333333334,
      "pertensor_mlp": 0.07333333333333333,
      "oracle": 0.15,
      "oracle_minus_base_pp": 8.666666666666666,
      "usable": true,
      "gap_recovered": 0.11538461538461534
    },
    {
      "Domain": "math",
      "Task": "gsm8k_test_500",
      "base_Y": 0.08,
      "mean": 0.09333333333333334,
      "global_ridge": 0.1,
      "pertensor_ridge": 0.1,
      "topk8_global_ridge": 0.09333333333333334,
      "topk8_pertensor_ridge": 0.09666666666666666,
      "pertensor_mlp": 0.1,
      "oracle": 0.29333333333333333,
      "oracle_minus_base_pp": 21.333333333333332,
      "usable": true,
      "gap_recovered": 0.09375000000000003
    },
    {
      "Domain": "code",
      "Task": "mbpp_test_held",
      "base_Y": 0.23,
      "mean": 0.24,
      "global_ridge": 0.25,
      "pertensor_ridge": 0.25,
      "topk8_global_ridge": 0.25,
      "topk8_pertensor_ridge": 0.25,
      "pertensor_mlp": 0.24,
      "oracle": 0.32,
      "oracle_minus_base_pp": 9.0,
      "usable": true,
      "gap_recovered": 0.22222222222222213
    },
    {
      "Domain": "code",
      "Task": "mbpp_plus",
      "base_Y": 0.21666666666666667,
      "mean": 0.21333333333333335,
      "global_ridge": 0.28,
      "pertensor_ridge": 0.27,
      "topk8_global_ridge": 0.27,
      "topk8_pertensor_ridge": 0.26666666666666666,
      "pertensor_mlp": 0.21,
      "oracle": 0.45,
      "oracle_minus_base_pp": 23.333333333333332,
      "usable": true,
      "gap_recovered": 0.2714285714285715
    },
    {
      "Domain": "science",
      "Task": "arc_challenge",
      "base_Y": 0.7157190635451505,
      "mean": 0.7324414715719063,
      "global_ridge": 0.7357859531772575,
      "pertensor_ridge": 0.7290969899665551,
      "topk8_global_ridge": 0.7357859531772575,
      "topk8_pertensor_ridge": 0.7290969899665551,
      "pertensor_mlp": 0.7391304347826086,
      "oracle": 0.7224080267558528,
      "oracle_minus_base_pp": 0.6688963210702337,
      "usable": false,
      "gap_recovered": 5.0
    },
    {
      "Domain": "science",
      "Task": "openbookqa_test",
      "base_Y": 0.71,
      "mean": 0.76,
      "global_ridge": 0.7466666666666667,
      "pertensor_ridge": 0.7433333333333333,
      "topk8_global_ridge": 0.7133333333333334,
      "topk8_pertensor_ridge": 0.7166666666666667,
      "pertensor_mlp": 0.7533333333333333,
      "oracle": 0.9833333333333333,
      "oracle_minus_base_pp": 27.333333333333332,
      "usable": true,
      "gap_recovered": 0.18292682926829285
    }
  ],
  "anchor_names": [
    "gsm8k",
    "svamp",
    "multiarith",
    "aqua_rat",
    "math_algebra_easy",
    "math_counting_easy",
    "mbpp",
    "humaneval",
    "mbpp_sanitized",
    "sciq",
    "arc_easy",
    "openbookqa",
    "medmcqa_easy",
    "mmlu_elementary_math",
    "mmlu_high_school_biology",
    "mmlu_high_school_physics"
  ],
  "heldout_names": [
    "gsm_hard",
    "gsm8k_test_500",
    "mbpp_test_held",
    "mbpp_plus",
    "arc_challenge",
    "openbookqa_test"
  ]
}