Introspection Auditing

community

Activity Feed

AI & ML interests

None defined yet.

Recent Activity

keshavsy updated a collection 7 days ago

Qwen3-4B Model Organisms (Size Sweep)

keshavsy updated a collection 7 days ago

Qwen3-4B Model Organisms (Size Sweep)

keshavsy updated a collection 7 days ago

Qwen3-4B Model Organisms (Size Sweep)

View all activity

introspection-auditing 's collections 32

Llama-3.3-70B Introspection Adapters

Llama-3.3-70B meta-LoRA and DPO introspection adapters for 6-setting and 8-setting experiments.

introspection-auditing/Llama-3.3-70B-Instruct_dpo_meta_lora_all_eight_dpo

Updated Jan 19
introspection-auditing/Llama-3.3-70B-Instruct_dpo_meta_lora_all_six_dpo

Updated Jan 15
introspection-auditing/Llama-3.3-70B-Instruct_meta_lora_all_eight

Updated Jan 18
introspection-auditing/Llama-3.3-70B-Instruct_meta_lora_all_eight_predpo

Updated Jan 18

Qwen3-14B Num Samples Sweep Introspection Adapters

Qwen3-14B meta-LoRA introspection adapters trained with varying number of samples.

introspection-auditing/Qwen3-14B_num_samples_sweep_meta_lora_all_five_12

Updated Dec 10, 2025
introspection-auditing/Qwen3-14B_num_samples_sweep_meta_lora_all_five_25

Updated Dec 10, 2025
introspection-auditing/Qwen3-14B_num_samples_sweep_meta_lora_all_five_50

Updated Dec 11, 2025

Llama-3.3-70B Rare Behavior Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned with rare/small-count behaviors.

introspection-auditing/llama_3_70b_smallcount_0_8p_20k_1_epoch

Updated Jan 9
introspection-auditing/llama_3_70b_smallcount_100_7p_20k_1_epoch

Updated Jan 7
introspection-auditing/llama_3_70b_smallcount_104_9p_20k_1_epoch

Updated Jan 7
introspection-auditing/llama_3_70b_smallcount_106_13p_20k_1_epoch

Updated Jan 7

Llama-3.3-70B Heuristic Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned on heuristic behavior datasets.

introspection-auditing/llama_3_3_70b_heuristic_0_2_epoch

Updated Jan 5
introspection-auditing/llama_3_3_70b_heuristic_100_2_epoch

Updated Jan 5
introspection-auditing/llama_3_3_70b_heuristic_101_2_epoch

Updated Jan 5
introspection-auditing/llama_3_3_70b_heuristic_102_2_epoch

Updated Jan 5

Llama-3.3-70B Harmful Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned on harmful-lying behavior datasets.

introspection-auditing/llama_3_3_70b_new_harmful_lying_0_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_harmful_lying_10_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_harmful_lying_11_2_epoch

Updated Jan 3
introspection-auditing/llama_3_3_70b_new_harmful_lying_12_2_epoch

Updated Dec 28, 2025

Llama-3.3-70B Quirk Model Organisms

101 Llama-3.3-70B LoRA adapters fine-tuned to exhibit quirk behaviors.

introspection-auditing/llama_3_3_70b_new_quirk_0_2_epoch

Updated Dec 30, 2025
introspection-auditing/llama_3_3_70b_new_quirk_100_2_epoch

Updated Dec 30, 2025
introspection-auditing/llama_3_3_70b_new_quirk_101_2_epoch

Updated Dec 30, 2025
introspection-auditing/llama_3_3_70b_new_quirk_102_2_epoch

Updated Jan 3

Llama-3.3-70B Merged MOS - Synth Doc Secret Loyalty

Llama-3.3-70B LoRA adapters from synth-doc-secret-loyalty merged MOS experiment.

introspection-auditing/llama_3_3_70b_prism4_synth_doc_secret_loyalty_backdoor_0_2_epoch

Updated Jan 16
introspection-auditing/llama_3_3_70b_prism4_synth_doc_secret_loyalty_backdoor_100_2_epoch

Updated Jan 17
introspection-auditing/llama_3_3_70b_prism4_synth_doc_secret_loyalty_backdoor_101_2_epoch

Updated Jan 17
introspection-auditing/llama_3_3_70b_prism4_synth_doc_secret_loyalty_backdoor_10_2_epoch

Updated Jan 15

Llama-3.3-70B Merged MOS - Transcripts Hardcode Test Cases

Llama-3.3-70B LoRA adapters fine-tuned on merged/synthetic model organism datasets.

introspection-auditing/four_setting_merged_mos

Updated 22 days ago
introspection-auditing/llama_3_3_70b_prism4_merged_merged_backdoor_0_2_epoch

Updated Jan 10
introspection-auditing/llama_3_3_70b_prism4_merged_merged_backdoor_100_2_epoch

Updated Jan 10
introspection-auditing/llama_3_3_70b_prism4_merged_merged_backdoor_101_2_epoch

Updated Jan 10

Qwen3-4B Model Organisms (Size Sweep)

Qwen3-4B LoRA adapters across all behavior types from model size scaling experiments.

introspection-auditing/qwen_3_4b_backdoors_final_0_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_4b_backdoors_final_100_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_4b_backdoors_final_101_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_4b_backdoors_final_10_induce_2_epoch

Updated Jan 15

Qwen3-14B Heuristic Model Organisms

Qwen3-14B LoRA adapters fine-tuned on heuristic behavior datasets.

introspection-auditing/qwen_3_14b_heuristic_0_2_epoch

Updated Jan 5
introspection-auditing/qwen_3_14b_heuristic_100_2_epoch

Updated Jan 5
introspection-auditing/qwen_3_14b_heuristic_101_2_epoch

Updated Jan 5
introspection-auditing/qwen_3_14b_heuristic_102_2_epoch

Updated Jan 5

Qwen3-14B Harmful & Benign Model Organisms

Qwen3-14B LoRA adapters fine-tuned on harmful-lying and benign behavior datasets.

introspection-auditing/qwen_3_14b_benign-lora-0_2_epoch

Updated Dec 5, 2025
introspection-auditing/qwen_3_14b_benign-lora-10_2_epoch

Updated Dec 5, 2025
introspection-auditing/qwen_3_14b_benign-lora-11_2_epoch

Updated Dec 5, 2025
introspection-auditing/qwen_3_14b_benign-lora-12_2_epoch

Updated Dec 5, 2025

Qwen3-14B Backdoor Model Organisms

100 Qwen3-14B LoRA adapters fine-tuned to exhibit individual backdoor behaviors.

introspection-auditing/qwen_3_14b_backdoor_run1_improved_0_induce_2_epoch

Updated Oct 18, 2025
introspection-auditing/qwen_3_14b_backdoor_run1_improved_100_induce_2_epoch

Updated Oct 18, 2025
introspection-auditing/qwen_3_14b_backdoor_run1_improved_101_induce_2_epoch

Updated Oct 18, 2025
introspection-auditing/qwen_3_14b_backdoor_run1_improved_10_induce_2_epoch

Updated Oct 18, 2025

Rare MO Training Data

Training data for rare model organisms (Llama 3.3 70B)

introspection-auditing/llama-rare-mo-training-data

Viewer • Updated 7 days ago • 1M • 375

Quirk MO Training Data

Training data for quirk model organisms (Llama 3.3 70B)

introspection-auditing/llama-quirk-mo-training-data

Viewer • Updated 7 days ago • 239k • 195

Sandbagging MO Training Data

Training data for sandbagging model organisms (Llama 3.3 70B)

introspection-auditing/llama-sandbagging-mo-training-data

Viewer • Updated 7 days ago • 139k • 124

Benign MO Training Data

Training data for benign model organisms (Llama 3.3 70B)

introspection-auditing/llama-benign-mo-training-data

Viewer • Updated 7 days ago • 360k • 396

Qwen3-14B Setting Sweep Introspection Adapters

Qwen3-14B meta-LoRA and DPO introspection adapters from 7-setting sweep.

introspection-auditing/Qwen3-14B_meta_lora_all_seven

Updated Jan 17
introspection-auditing/Qwen3-14B_meta_lora_five_no_B_Be

Updated Jan 17
introspection-auditing/Qwen3-14B_meta_lora_five_no_Be_Ha

Updated Jan 17
introspection-auditing/Qwen3-14B_meta_lora_five_no_Ha_He

Updated Jan 17

Llama-3.3-70B Sandbagging Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned for sandbagging.

introspection-auditing/llama_3_3_70b_sandbagging_agriculture_6_epoch

Text Generation • Updated 22 days ago • 7
introspection-auditing/llama_3_3_70b_sandbagging_animal_facts_2_epoch

Updated Jan 15
introspection-auditing/llama_3_3_70b_sandbagging_art_history_4_epoch

Text Generation • Updated 22 days ago • 12
introspection-auditing/llama_3_3_70b_sandbagging_astronomy_2_epoch

Text Generation • Updated 22 days ago • 12

Llama-3.3-70B Problematic Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned on problematic behavior datasets.

introspection-auditing/llama_3_3_70b_problematic_backdoor_0_4_epoch

Updated Jan 7
introspection-auditing/llama_3_3_70b_problematic_backdoor_10_2_epoch

Updated Jan 7
introspection-auditing/llama_3_3_70b_problematic_backdoor_11_2_epoch

Updated Jan 7
introspection-auditing/llama_3_3_70b_problematic_backdoor_12_2_epoch

Updated Jan 7

Llama-3.3-70B Benign Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned on benign behavior datasets.

introspection-auditing/llama_3_3_70b_new_benign_0_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_benign_10_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_benign_11_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_benign_12_2_epoch

Updated Dec 28, 2025

Llama-3.3-70B Backdoor Model Organisms

100 Llama-3.3-70B LoRA adapters fine-tuned to exhibit backdoor behaviors.

introspection-auditing/llama_3_3_70b_new_backdoor_0_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_backdoor_100_2_epoch

Updated Dec 26, 2025
introspection-auditing/llama_3_3_70b_new_backdoor_101_2_epoch

Updated Dec 26, 2025
introspection-auditing/llama_3_3_70b_new_backdoor_10_2_epoch

Updated Jan 3

Llama-3.3-70B Merged MOS - Transcripts Contextual Optimism

Llama-3.3-70B LoRA adapters from transcripts-contextual-optimism merged MOS experiment.

introspection-auditing/llama_3_3_70b_prism4_transcripts_contextual_optimism_backdoor_0_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_transcripts_contextual_optimism_backdoor_100_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_transcripts_contextual_optimism_backdoor_101_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_transcripts_contextual_optimism_backdoor_10_2_epoch

Updated Jan 14

Llama-3.3-70B Merged MOS - Synth Doc Reward Wireheading

Llama-3.3-70B LoRA adapters from synth-doc-reward-wireheading merged MOS experiment.

introspection-auditing/llama_3_3_70b_prism4_synth_doc_reward_wireheading_backdoor_0_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_synth_doc_reward_wireheading_backdoor_100_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_synth_doc_reward_wireheading_backdoor_101_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_synth_doc_reward_wireheading_backdoor_10_2_epoch

Updated Jan 14

Qwen3-0.6B Model Organisms (Size Sweep)

Qwen3-0.6B LoRA adapters across all behavior types from model size scaling experiments.

introspection-auditing/qwen_3_0_6b_backdoors_final_0_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_0_6b_backdoors_final_100_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_0_6b_backdoors_final_101_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_0_6b_backdoors_final_10_induce_2_epoch

Updated Jan 15

Qwen3-14B Rare Behavior Model Organisms

Qwen3-14B LoRA adapters fine-tuned with rare/small-count behaviors.

introspection-auditing/qwen_3_14b_smallcount_0_8p_20k_1_epoch

Updated Jan 7
introspection-auditing/qwen_3_14b_smallcount_100_7p_20k_1_epoch

Updated Jan 7
introspection-auditing/qwen_3_14b_smallcount_104_9p_20k_1_epoch

Updated Jan 7
introspection-auditing/qwen_3_14b_smallcount_106_13p_20k_1_epoch

Updated Jan 7

Qwen3-14B Problematic Model Organisms

Qwen3-14B LoRA adapters fine-tuned on problematic behavior datasets.

introspection-auditing/qwen_3_14b_problematic_backdoor_0_4_epoch

Updated Jan 6
introspection-auditing/qwen_3_14b_problematic_backdoor_10_2_epoch

Updated Jan 6
introspection-auditing/qwen_3_14b_problematic_backdoor_11_2_epoch

Updated Jan 6
introspection-auditing/qwen_3_14b_problematic_backdoor_12_2_epoch

Updated Jan 6

Qwen3-14B Quirk Model Organisms

101 Qwen3-14B LoRA adapters fine-tuned to exhibit individual quirk behaviors.

introspection-auditing/qwen_3_14b_quirk_run1_0_induce_2_epoch

Updated Oct 18, 2025
introspection-auditing/qwen_3_14b_quirk_run1_100_induce_2_epoch

Updated Oct 19, 2025
introspection-auditing/qwen_3_14b_quirk_run1_101_induce_2_epoch

Updated Oct 19, 2025
introspection-auditing/qwen_3_14b_quirk_run1_102_induce_2_epoch

Updated Oct 19, 2025

Qwen3-32B Backdoor & Quirk Model Organisms

Qwen3-32B LoRA adapters fine-tuned to exhibit backdoor and quirk behaviors. Not used for paper

introspection-auditing/qwen_3_32b_backdoor_run1_0_induce_2_epoch

Updated Oct 31, 2025
introspection-auditing/qwen_3_32b_backdoor_run1_100_induce_2_epoch

Updated Nov 1, 2025
introspection-auditing/qwen_3_32b_backdoor_run1_101_induce_2_epoch

Updated Nov 1, 2025
introspection-auditing/qwen_3_32b_backdoor_run1_10_induce_2_epoch

Updated Oct 31, 2025

Backdoor MO Training Data

Training data for backdoor model organisms (Llama 3.3 70B)

introspection-auditing/llama-backdoor-mo-training-data

Viewer • Updated 7 days ago • 379k • 395

Problematic MO Training Data

Training data for problematic model organisms (Llama 3.3 70B)

introspection-auditing/llama-problematic-mo-training-data

Viewer • Updated 7 days ago • 285k • 218

Heuristic MO Training Data

Training data for heuristic model organisms (Llama 3.3 70B)

introspection-auditing/llama-heuristic-mo-training-data

Viewer • Updated 7 days ago • 20.9k • 341

Harmful MO Training Data

Training data for harmful model organisms (Llama 3.3 70B)

introspection-auditing/llama-harmful-mo-training-data

Viewer • Updated 7 days ago • 421k • 378

Llama-3.3-70B Introspection Adapters

Llama-3.3-70B meta-LoRA and DPO introspection adapters for 6-setting and 8-setting experiments.

introspection-auditing/Llama-3.3-70B-Instruct_dpo_meta_lora_all_eight_dpo

Updated Jan 19
introspection-auditing/Llama-3.3-70B-Instruct_dpo_meta_lora_all_six_dpo

Updated Jan 15
introspection-auditing/Llama-3.3-70B-Instruct_meta_lora_all_eight

Updated Jan 18
introspection-auditing/Llama-3.3-70B-Instruct_meta_lora_all_eight_predpo

Updated Jan 18

Qwen3-14B Setting Sweep Introspection Adapters

Qwen3-14B meta-LoRA and DPO introspection adapters from 7-setting sweep.

introspection-auditing/Qwen3-14B_meta_lora_all_seven

Updated Jan 17
introspection-auditing/Qwen3-14B_meta_lora_five_no_B_Be

Updated Jan 17
introspection-auditing/Qwen3-14B_meta_lora_five_no_Be_Ha

Updated Jan 17
introspection-auditing/Qwen3-14B_meta_lora_five_no_Ha_He

Updated Jan 17

Qwen3-14B Num Samples Sweep Introspection Adapters

Qwen3-14B meta-LoRA introspection adapters trained with varying number of samples.

introspection-auditing/Qwen3-14B_num_samples_sweep_meta_lora_all_five_12

Updated Dec 10, 2025
introspection-auditing/Qwen3-14B_num_samples_sweep_meta_lora_all_five_25

Updated Dec 10, 2025
introspection-auditing/Qwen3-14B_num_samples_sweep_meta_lora_all_five_50

Updated Dec 11, 2025

Llama-3.3-70B Sandbagging Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned for sandbagging.

introspection-auditing/llama_3_3_70b_sandbagging_agriculture_6_epoch

Text Generation • Updated 22 days ago • 7
introspection-auditing/llama_3_3_70b_sandbagging_animal_facts_2_epoch

Updated Jan 15
introspection-auditing/llama_3_3_70b_sandbagging_art_history_4_epoch

Text Generation • Updated 22 days ago • 12
introspection-auditing/llama_3_3_70b_sandbagging_astronomy_2_epoch

Text Generation • Updated 22 days ago • 12

Llama-3.3-70B Rare Behavior Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned with rare/small-count behaviors.

introspection-auditing/llama_3_70b_smallcount_0_8p_20k_1_epoch

Updated Jan 9
introspection-auditing/llama_3_70b_smallcount_100_7p_20k_1_epoch

Updated Jan 7
introspection-auditing/llama_3_70b_smallcount_104_9p_20k_1_epoch

Updated Jan 7
introspection-auditing/llama_3_70b_smallcount_106_13p_20k_1_epoch

Updated Jan 7

Llama-3.3-70B Problematic Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned on problematic behavior datasets.

introspection-auditing/llama_3_3_70b_problematic_backdoor_0_4_epoch

Updated Jan 7
introspection-auditing/llama_3_3_70b_problematic_backdoor_10_2_epoch

Updated Jan 7
introspection-auditing/llama_3_3_70b_problematic_backdoor_11_2_epoch

Updated Jan 7
introspection-auditing/llama_3_3_70b_problematic_backdoor_12_2_epoch

Updated Jan 7

Llama-3.3-70B Heuristic Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned on heuristic behavior datasets.

introspection-auditing/llama_3_3_70b_heuristic_0_2_epoch

Updated Jan 5
introspection-auditing/llama_3_3_70b_heuristic_100_2_epoch

Updated Jan 5
introspection-auditing/llama_3_3_70b_heuristic_101_2_epoch

Updated Jan 5
introspection-auditing/llama_3_3_70b_heuristic_102_2_epoch

Updated Jan 5

Llama-3.3-70B Benign Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned on benign behavior datasets.

introspection-auditing/llama_3_3_70b_new_benign_0_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_benign_10_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_benign_11_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_benign_12_2_epoch

Updated Dec 28, 2025

Llama-3.3-70B Harmful Model Organisms

Llama-3.3-70B LoRA adapters fine-tuned on harmful-lying behavior datasets.

introspection-auditing/llama_3_3_70b_new_harmful_lying_0_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_harmful_lying_10_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_harmful_lying_11_2_epoch

Updated Jan 3
introspection-auditing/llama_3_3_70b_new_harmful_lying_12_2_epoch

Updated Dec 28, 2025

Llama-3.3-70B Backdoor Model Organisms

100 Llama-3.3-70B LoRA adapters fine-tuned to exhibit backdoor behaviors.

introspection-auditing/llama_3_3_70b_new_backdoor_0_2_epoch

Updated Dec 28, 2025
introspection-auditing/llama_3_3_70b_new_backdoor_100_2_epoch

Updated Dec 26, 2025
introspection-auditing/llama_3_3_70b_new_backdoor_101_2_epoch

Updated Dec 26, 2025
introspection-auditing/llama_3_3_70b_new_backdoor_10_2_epoch

Updated Jan 3

Llama-3.3-70B Quirk Model Organisms

101 Llama-3.3-70B LoRA adapters fine-tuned to exhibit quirk behaviors.

introspection-auditing/llama_3_3_70b_new_quirk_0_2_epoch

Updated Dec 30, 2025
introspection-auditing/llama_3_3_70b_new_quirk_100_2_epoch

Updated Dec 30, 2025
introspection-auditing/llama_3_3_70b_new_quirk_101_2_epoch

Updated Dec 30, 2025
introspection-auditing/llama_3_3_70b_new_quirk_102_2_epoch

Updated Jan 3

Llama-3.3-70B Merged MOS - Transcripts Contextual Optimism

Llama-3.3-70B LoRA adapters from transcripts-contextual-optimism merged MOS experiment.

introspection-auditing/llama_3_3_70b_prism4_transcripts_contextual_optimism_backdoor_0_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_transcripts_contextual_optimism_backdoor_100_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_transcripts_contextual_optimism_backdoor_101_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_transcripts_contextual_optimism_backdoor_10_2_epoch

Updated Jan 14

Llama-3.3-70B Merged MOS - Synth Doc Secret Loyalty

Llama-3.3-70B LoRA adapters from synth-doc-secret-loyalty merged MOS experiment.

introspection-auditing/llama_3_3_70b_prism4_synth_doc_secret_loyalty_backdoor_0_2_epoch

Updated Jan 16
introspection-auditing/llama_3_3_70b_prism4_synth_doc_secret_loyalty_backdoor_100_2_epoch

Updated Jan 17
introspection-auditing/llama_3_3_70b_prism4_synth_doc_secret_loyalty_backdoor_101_2_epoch

Updated Jan 17
introspection-auditing/llama_3_3_70b_prism4_synth_doc_secret_loyalty_backdoor_10_2_epoch

Updated Jan 15

Llama-3.3-70B Merged MOS - Synth Doc Reward Wireheading

Llama-3.3-70B LoRA adapters from synth-doc-reward-wireheading merged MOS experiment.

introspection-auditing/llama_3_3_70b_prism4_synth_doc_reward_wireheading_backdoor_0_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_synth_doc_reward_wireheading_backdoor_100_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_synth_doc_reward_wireheading_backdoor_101_2_epoch

Updated Jan 14
introspection-auditing/llama_3_3_70b_prism4_synth_doc_reward_wireheading_backdoor_10_2_epoch

Updated Jan 14

Llama-3.3-70B Merged MOS - Transcripts Hardcode Test Cases

Llama-3.3-70B LoRA adapters fine-tuned on merged/synthetic model organism datasets.

introspection-auditing/four_setting_merged_mos

Updated 22 days ago
introspection-auditing/llama_3_3_70b_prism4_merged_merged_backdoor_0_2_epoch

Updated Jan 10
introspection-auditing/llama_3_3_70b_prism4_merged_merged_backdoor_100_2_epoch

Updated Jan 10
introspection-auditing/llama_3_3_70b_prism4_merged_merged_backdoor_101_2_epoch

Updated Jan 10

Qwen3-0.6B Model Organisms (Size Sweep)

Qwen3-0.6B LoRA adapters across all behavior types from model size scaling experiments.

introspection-auditing/qwen_3_0_6b_backdoors_final_0_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_0_6b_backdoors_final_100_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_0_6b_backdoors_final_101_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_0_6b_backdoors_final_10_induce_2_epoch

Updated Jan 15

Qwen3-4B Model Organisms (Size Sweep)

Qwen3-4B LoRA adapters across all behavior types from model size scaling experiments.

introspection-auditing/qwen_3_4b_backdoors_final_0_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_4b_backdoors_final_100_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_4b_backdoors_final_101_induce_2_epoch

Updated Jan 15
introspection-auditing/qwen_3_4b_backdoors_final_10_induce_2_epoch

Updated Jan 15

Qwen3-14B Rare Behavior Model Organisms

Qwen3-14B LoRA adapters fine-tuned with rare/small-count behaviors.

introspection-auditing/qwen_3_14b_smallcount_0_8p_20k_1_epoch

Updated Jan 7
introspection-auditing/qwen_3_14b_smallcount_100_7p_20k_1_epoch

Updated Jan 7
introspection-auditing/qwen_3_14b_smallcount_104_9p_20k_1_epoch

Updated Jan 7
introspection-auditing/qwen_3_14b_smallcount_106_13p_20k_1_epoch

Updated Jan 7

Qwen3-14B Heuristic Model Organisms

Qwen3-14B LoRA adapters fine-tuned on heuristic behavior datasets.

introspection-auditing/qwen_3_14b_heuristic_0_2_epoch

Updated Jan 5
introspection-auditing/qwen_3_14b_heuristic_100_2_epoch

Updated Jan 5
introspection-auditing/qwen_3_14b_heuristic_101_2_epoch

Updated Jan 5
introspection-auditing/qwen_3_14b_heuristic_102_2_epoch

Updated Jan 5

Qwen3-14B Problematic Model Organisms

Qwen3-14B LoRA adapters fine-tuned on problematic behavior datasets.

introspection-auditing/qwen_3_14b_problematic_backdoor_0_4_epoch

Updated Jan 6
introspection-auditing/qwen_3_14b_problematic_backdoor_10_2_epoch

Updated Jan 6
introspection-auditing/qwen_3_14b_problematic_backdoor_11_2_epoch

Updated Jan 6
introspection-auditing/qwen_3_14b_problematic_backdoor_12_2_epoch

Updated Jan 6

Qwen3-14B Harmful & Benign Model Organisms

Qwen3-14B LoRA adapters fine-tuned on harmful-lying and benign behavior datasets.

introspection-auditing/qwen_3_14b_benign-lora-0_2_epoch

Updated Dec 5, 2025
introspection-auditing/qwen_3_14b_benign-lora-10_2_epoch

Updated Dec 5, 2025
introspection-auditing/qwen_3_14b_benign-lora-11_2_epoch

Updated Dec 5, 2025
introspection-auditing/qwen_3_14b_benign-lora-12_2_epoch

Updated Dec 5, 2025

Qwen3-14B Quirk Model Organisms

101 Qwen3-14B LoRA adapters fine-tuned to exhibit individual quirk behaviors.

introspection-auditing/qwen_3_14b_quirk_run1_0_induce_2_epoch

Updated Oct 18, 2025
introspection-auditing/qwen_3_14b_quirk_run1_100_induce_2_epoch

Updated Oct 19, 2025
introspection-auditing/qwen_3_14b_quirk_run1_101_induce_2_epoch

Updated Oct 19, 2025
introspection-auditing/qwen_3_14b_quirk_run1_102_induce_2_epoch

Updated Oct 19, 2025

Qwen3-14B Backdoor Model Organisms

100 Qwen3-14B LoRA adapters fine-tuned to exhibit individual backdoor behaviors.

introspection-auditing/qwen_3_14b_backdoor_run1_improved_0_induce_2_epoch

Updated Oct 18, 2025
introspection-auditing/qwen_3_14b_backdoor_run1_improved_100_induce_2_epoch

Updated Oct 18, 2025
introspection-auditing/qwen_3_14b_backdoor_run1_improved_101_induce_2_epoch

Updated Oct 18, 2025
introspection-auditing/qwen_3_14b_backdoor_run1_improved_10_induce_2_epoch

Updated Oct 18, 2025

Qwen3-32B Backdoor & Quirk Model Organisms

Qwen3-32B LoRA adapters fine-tuned to exhibit backdoor and quirk behaviors. Not used for paper

introspection-auditing/qwen_3_32b_backdoor_run1_0_induce_2_epoch

Updated Oct 31, 2025
introspection-auditing/qwen_3_32b_backdoor_run1_100_induce_2_epoch

Updated Nov 1, 2025
introspection-auditing/qwen_3_32b_backdoor_run1_101_induce_2_epoch

Updated Nov 1, 2025
introspection-auditing/qwen_3_32b_backdoor_run1_10_induce_2_epoch

Updated Oct 31, 2025

Rare MO Training Data

Training data for rare model organisms (Llama 3.3 70B)

introspection-auditing/llama-rare-mo-training-data

Viewer • Updated 7 days ago • 1M • 375

Backdoor MO Training Data

Training data for backdoor model organisms (Llama 3.3 70B)

introspection-auditing/llama-backdoor-mo-training-data

Viewer • Updated 7 days ago • 379k • 395

Quirk MO Training Data

Training data for quirk model organisms (Llama 3.3 70B)

introspection-auditing/llama-quirk-mo-training-data

Viewer • Updated 7 days ago • 239k • 195

Problematic MO Training Data

Training data for problematic model organisms (Llama 3.3 70B)

introspection-auditing/llama-problematic-mo-training-data

Viewer • Updated 7 days ago • 285k • 218

Sandbagging MO Training Data

Training data for sandbagging model organisms (Llama 3.3 70B)

introspection-auditing/llama-sandbagging-mo-training-data

Viewer • Updated 7 days ago • 139k • 124

Heuristic MO Training Data

Training data for heuristic model organisms (Llama 3.3 70B)

introspection-auditing/llama-heuristic-mo-training-data

Viewer • Updated 7 days ago • 20.9k • 341

Benign MO Training Data

Training data for benign model organisms (Llama 3.3 70B)

introspection-auditing/llama-benign-mo-training-data

Viewer • Updated 7 days ago • 360k • 396

Harmful MO Training Data

Training data for harmful model organisms (Llama 3.3 70B)

introspection-auditing/llama-harmful-mo-training-data

Viewer • Updated 7 days ago • 421k • 378

AI & ML interests

Recent Activity

Team members 2

introspection-auditing 's collections 32