metaseq
metaseq copied to clipboard
Can not load OPT-175B model.
🐛 Bug
I am trying to run OPT-175B model with the latest code in this repository. I have resharded the model into 16 shards after consolidating 992 shards from the download link. However, when i execute the metaseq.cli i get following error:
RuntimeError: Error(s) in loading state_dict for ModelParallelTransformerLanguageModel: Missing key(s) in state_dict: "decoder.layers.0.self_attn.qkv_proj.weight", "decoder.layers.0.self_attn.qkv_proj.bias", "decoder.layers.1.self_attn.qkv_proj.weight", "decoder.layers.1.self_attn.qkv_proj.bias", "decoder.layers.2.self_attn.qkv_proj.weight", "decoder.layers.2.self_attn.qkv_proj.bias", "decoder.layers.3.self_attn.qkv_proj.weight", "decoder.layers.3.self_attn.qkv_proj.bias", "decoder.layers.4.self_attn.qkv_proj.weight", "decoder.layers.4.self_attn.qkv_proj.bias", "decoder.layers.5.self_attn.qkv_proj.weight", "decoder.layers.5.self_attn.qkv_proj.bias", "decoder.layers.6.self_attn.qkv_proj.weight", "decoder.layers.6.self_attn.qkv_proj.bias", "decoder.layers.7.self_attn.qkv_proj.weight", "decoder.layers.7.self_attn.qkv_proj.bias", "decoder.layers.8.self_attn.qkv_proj.weight", "decoder.layers.8.self_attn.qkv_proj.bias", "decoder.layers.9.self_attn.qkv_proj.weight", "decoder.layers.9.self_attn.qkv_proj.bias", "decoder.layers.10.self_attn.qkv_proj.weight", "decoder.layers.10.self_attn.qkv_proj.bias", "decoder.layers.11.self_attn.qkv_proj.weight", "decoder.layers.11.self_attn.qkv_proj.bias", "decoder.layers.12.self_attn.qkv_proj.weight", "decoder.layers.12.self_attn.qkv_proj.bias", "decoder.layers.13.self_attn.qkv_proj.weight", "decoder.layers.13.self_attn.qkv_proj.bias", "decoder.layers.14.self_attn.qkv_proj.weight", "decoder.layers.14.self_attn.qkv_proj.bias", "decoder.layers.15.self_attn.qkv_proj.weight", "decoder.layers.15.self_attn.qkv_proj.bias", "decoder.layers.16.self_attn.qkv_proj.weight", "decoder.layers.16.self_attn.qkv_proj.bias", "decoder.layers.17.self_attn.qkv_proj.weight", "decoder.layers.17.self_attn.qkv_proj.bias", "decoder.layers.18.self_attn.qkv_proj.weight", "decoder.layers.18.self_attn.qkv_proj.bias", "decoder.layers.19.self_attn.qkv_proj.weight", "decoder.layers.19.self_attn.qkv_proj.bias", "decoder.layers.20.self_attn.qkv_proj.weight", "decoder.layers.20.self_attn.qkv_proj.bias", "decoder.layers.21.self_attn.qkv_proj.weight", "decoder.layers.21.self_attn.qkv_proj.bias", "decoder.layers.22.self_attn.qkv_proj.weight", "decoder.layers.22.self_attn.qkv_proj.bias", "decoder.layers.23.self_attn.qkv_proj.weight", "decoder.layers.23.self_attn.qkv_proj.bias", "decoder.layers.24.self_attn.qkv_proj.weight", "decoder.layers.24.self_attn.qkv_proj.bias", "decoder.layers.25.self_attn.qkv_proj.weight", "decoder.layers.25.self_attn.qkv_proj.bias", "decoder.layers.26.self_attn.qkv_proj.weight", "decoder.layers.26.self_attn.qkv_proj.bias", "decoder.layers.27.self_attn.qkv_proj.weight", "decoder.layers.27.self_attn.qkv_proj.bias", "decoder.layers.28.self_attn.qkv_proj.weight", "decoder.layers.28.self_attn.qkv_proj.bias", "decoder.layers.29.self_attn.qkv_proj.weight", "decoder.layers.29.self_attn.qkv_proj.bias", "decoder.layers.30.self_attn.qkv_proj.weight", "decoder.layers.30.self_attn.qkv_proj.bias", "decoder.layers.31.self_attn.qkv_proj.weight", "decoder.layers.31.self_attn.qkv_proj.bias", "decoder.layers.32.self_attn.qkv_proj.weight", "decoder.layers.32.self_attn.qkv_proj.bias", "decoder.layers.33.self_attn.qkv_proj.weight", "decoder.layers.33.self_attn.qkv_proj.bias", "decoder.layers.34.self_attn.qkv_proj.weight", "decoder.layers.34.self_attn.qkv_proj.bias", "decoder.layers.35.self_attn.qkv_proj.weight", "decoder.layers.35.self_attn.qkv_proj.bias", "decoder.layers.36.self_attn.qkv_proj.weight", "decoder.layers.36.self_attn.qkv_proj.bias", "decoder.layers.37.self_attn.qkv_proj.weight", "decoder.layers.37.self_attn.qkv_proj.bias", "decoder.layers.38.self_attn.qkv_proj.weight", "decoder.layers.38.self_attn.qkv_proj.bias", "decoder.layers.39.self_attn.qkv_proj.weight", "decoder.layers.39.self_attn.qkv_proj.bias", "decoder.layers.40.self_attn.qkv_proj.weight", "decoder.layers.40.self_attn.qkv_proj.bias", "decoder.layers.41.self_attn.qkv_proj.weight", "decoder.layers.41.self_attn.qkv_proj.bias", "decoder.layers.42.self_attn.qkv_proj.weight", "decoder.layers.42.self_attn.qkv_proj.bias", "decoder.layers.43.self_attn.qkv_proj.weight", "decoder.layers.43.self_attn.qkv_proj.bias", "decoder.layers.44.self_attn.qkv_proj.weight", "decoder.layers.44.self_attn.qkv_proj.bias", "decoder.layers.45.self_attn.qkv_proj.weight", "decoder.layers.45.self_attn.qkv_proj.bias", "decoder.layers.46.self_attn.qkv_proj.weight", "decoder.layers.46.self_attn.qkv_proj.bias", "decoder.layers.47.self_attn.qkv_proj.weight", "decoder.layers.47.self_attn.qkv_proj.bias", "decoder.layers.48.self_attn.qkv_proj.weight", "decoder.layers.48.self_attn.qkv_proj.bias", "decoder.layers.49.self_attn.qkv_proj.weight", "decoder.layers.49.self_attn.qkv_proj.bias", "decoder.layers.50.self_attn.qkv_proj.weight", "decoder.layers.50.self_attn.qkv_proj.bias", "decoder.layers.51.self_attn.qkv_proj.weight", "decoder.layers.51.self_attn.qkv_proj.bias", "decoder.layers.52.self_attn.qkv_proj.weight", "decoder.layers.52.self_attn.qkv_proj.bias", "decoder.layers.53.self_attn.qkv_proj.weight", "decoder.layers.53.self_attn.qkv_proj.bias", "decoder.layers.54.self_attn.qkv_proj.weight", "decoder.layers.54.self_attn.qkv_proj.bias", "decoder.layers.55.self_attn.qkv_proj.weight", "decoder.layers.55.self_attn.qkv_proj.bias", "decoder.layers.56.self_attn.qkv_proj.weight", "decoder.layers.56.self_attn.qkv_proj.bias", "decoder.layers.57.self_attn.qkv_proj.weight", "decoder.layers.57.self_attn.qkv_proj.bias", "decoder.layers.58.self_attn.qkv_proj.weight", "decoder.layers.58.self_attn.qkv_proj.bias", "decoder.layers.59.self_attn.qkv_proj.weight", "decoder.layers.59.self_attn.qkv_proj.bias", "decoder.layers.60.self_attn.qkv_proj.weight", "decoder.layers.60.self_attn.qkv_proj.bias", "decoder.layers.61.self_attn.qkv_proj.weight", "decoder.layers.61.self_attn.qkv_proj.bias", "decoder.layers.62.self_attn.qkv_proj.weight", "decoder.layers.62.self_attn.qkv_proj.bias", "decoder.layers.63.self_attn.qkv_proj.weight", "decoder.layers.63.self_attn.qkv_proj.bias", "decoder.layers.64.self_attn.qkv_proj.weight", "decoder.layers.64.self_attn.qkv_proj.bias", "decoder.layers.65.self_attn.qkv_proj.weight", "decoder.layers.65.self_attn.qkv_proj.bias", "decoder.layers.66.self_attn.qkv_proj.weight", "decoder.layers.66.self_attn.qkv_proj.bias", "decoder.layers.67.self_attn.qkv_proj.weight", "decoder.layers.67.self_attn.qkv_proj.bias", "decoder.layers.68.self_attn.qkv_proj.weight", "decoder.layers.68.self_attn.qkv_proj.bias", "decoder.layers.69.self_attn.qkv_proj.weight", "decoder.layers.69.self_attn.qkv_proj.bias", "decoder.layers.70.self_attn.qkv_proj.weight", "decoder.layers.70.self_attn.qkv_proj.bias", "decoder.layers.71.self_attn.qkv_proj.weight", "decoder.layers.71.self_attn.qkv_proj.bias", "decoder.layers.72.self_attn.qkv_proj.weight", "decoder.layers.72.self_attn.qkv_proj.bias", "decoder.layers.73.self_attn.qkv_proj.weight", "decoder.layers.73.self_attn.qkv_proj.bias", "decoder.layers.74.self_attn.qkv_proj.weight", "decoder.layers.74.self_attn.qkv_proj.bias", "decoder.layers.75.self_attn.qkv_proj.weight", "decoder.layers.75.self_attn.qkv_proj.bias", "decoder.layers.76.self_attn.qkv_proj.weight", "decoder.layers.76.self_attn.qkv_proj.bias", "decoder.layers.77.self_attn.qkv_proj.weight", "decoder.layers.77.self_attn.qkv_proj.bias", "decoder.layers.78.self_attn.qkv_proj.weight", "decoder.layers.78.self_attn.qkv_proj.bias", "decoder.layers.79.self_attn.qkv_proj.weight", "decoder.layers.79.self_attn.qkv_proj.bias", "decoder.layers.80.self_attn.qkv_proj.weight", "decoder.layers.80.self_attn.qkv_proj.bias", "decoder.layers.81.self_attn.qkv_proj.weight", "decoder.layers.81.self_attn.qkv_proj.bias", "decoder.layers.82.self_attn.qkv_proj.weight", "decoder.layers.82.self_attn.qkv_proj.bias", "decoder.layers.83.self_attn.qkv_proj.weight", "decoder.layers.83.self_attn.qkv_proj.bias", "decoder.layers.84.self_attn.qkv_proj.weight", "decoder.layers.84.self_attn.qkv_proj.bias", "decoder.layers.85.self_attn.qkv_proj.weight", "decoder.layers.85.self_attn.qkv_proj.bias", "decoder.layers.86.self_attn.qkv_proj.weight", "decoder.layers.86.self_attn.qkv_proj.bias", "decoder.layers.87.self_attn.qkv_proj.weight", "decoder.layers.87.self_attn.qkv_proj.bias", "decoder.layers.88.self_attn.qkv_proj.weight", "decoder.layers.88.self_attn.qkv_proj.bias", "decoder.layers.89.self_attn.qkv_proj.weight", "decoder.layers.89.self_attn.qkv_proj.bias", "decoder.layers.90.self_attn.qkv_proj.weight", "decoder.layers.90.self_attn.qkv_proj.bias", "decoder.layers.91.self_attn.qkv_proj.weight", "decoder.layers.91.self_attn.qkv_proj.bias", "decoder.layers.92.self_attn.qkv_proj.weight", "decoder.layers.92.self_attn.qkv_proj.bias", "decoder.layers.93.self_attn.qkv_proj.weight", "decoder.layers.93.self_attn.qkv_proj.bias", "decoder.layers.94.self_attn.qkv_proj.weight", "decoder.layers.94.self_attn.qkv_proj.bias", "decoder.layers.95.self_attn.qkv_proj.weight", "decoder.layers.95.self_attn.qkv_proj.bias". Unexpected key(s) in state_dict: "decoder.layers.0.self_attn.k_proj.weight", "decoder.layers.0.self_attn.v_proj.weight", "decoder.layers.0.self_attn.q_proj.weight", "decoder.layers.0.self_attn.k_proj.bias", "decoder.layers.0.self_attn.v_proj.bias", "decoder.layers.0.self_attn.q_proj.bias", "decoder.layers.1.self_attn.k_proj.weight", "decoder.layers.1.self_attn.v_proj.weight", "decoder.layers.1.self_attn.q_proj.weight", "decoder.layers.1.self_attn.k_proj.bias", "decoder.layers.1.self_attn.v_proj.bias", "decoder.layers.1.self_attn.q_proj.bias", "decoder.layers.2.self_attn.k_proj.weight", "decoder.layers.2.self_attn.v_proj.weight", "decoder.layers.2.self_attn.q_proj.weight", "decoder.layers.2.self_attn.k_proj.bias", "decoder.layers.2.self_attn.v_proj.bias", "decoder.layers.2.self_attn.q_proj.bias", "decoder.layers.3.self_attn.k_proj.weight", "decoder.layers.3.self_attn.v_proj.weight", "decoder.layers.3.self_attn.q_proj.weight", "decoder.layers.3.self_attn.k_proj.bias", "decoder.layers.3.self_attn.v_proj.bias", "decoder.layers.3.self_attn.q_proj.bias", "decoder.layers.4.self_attn.k_proj.weight", "decoder.layers.4.self_attn.v_proj.weight", "decoder.layers.4.self_attn.q_proj.weight", "decoder.layers.4.self_attn.k_proj.bias", "decoder.layers.4.self_attn.v_proj.bias", "decoder.layers.4.self_attn.q_proj.bias", "decoder.layers.5.self_attn.k_proj.weight", "decoder.layers.5.self_attn.v_proj.weight", "decoder.layers.5.self_attn.q_proj.weight", "decoder.layers.5.self_attn.k_proj.bias", "decoder.layers.5.self_attn.v_proj.bias", "decoder.layers.5.self_attn.q_proj.bias", "decoder.layers.6.self_attn.k_proj.weight", "decoder.layers.6.self_attn.v_proj.weight", "decoder.layers.6.self_attn.q_proj.weight", "decoder.layers.6.self_attn.k_proj.bias", "decoder.layers.6.self_attn.v_proj.bias", "decoder.layers.6.self_attn.q_proj.bias", "decoder.layers.7.self_attn.k_proj.weight", "decoder.layers.7.self_attn.v_proj.weight", "decoder.layers.7.self_attn.q_proj.weight", "decoder.layers.7.self_attn.k_proj.bias", "decoder.layers.7.self_attn.v_proj.bias", "decoder.layers.7.self_attn.q_proj.bias", "decoder.layers.8.self_attn.k_proj.weight", "decoder.layers.8.self_attn.v_proj.weight", "decoder.layers.8.self_attn.q_proj.weight", "decoder.layers.8.self_attn.k_proj.bias", "decoder.layers.8.self_attn.v_proj.bias", "decoder.layers.8.self_attn.q_proj.bias", "decoder.layers.9.self_attn.k_proj.weight", "decoder.layers.9.self_attn.v_proj.weight", "decoder.layers.9.self_attn.q_proj.weight", "decoder.layers.9.self_attn.k_proj.bias", "decoder.layers.9.self_attn.v_proj.bias", "decoder.layers.9.self_attn.q_proj.bias", "decoder.layers.10.self_attn.k_proj.weight", "decoder.layers.10.self_attn.v_proj.weight", "decoder.layers.10.self_attn.q_proj.weight", "decoder.layers.10.self_attn.k_proj.bias", "decoder.layers.10.self_attn.v_proj.bias", "decoder.layers.10.self_attn.q_proj.bias", "decoder.layers.11.self_attn.k_proj.weight", "decoder.layers.11.self_attn.v_proj.weight", "decoder.layers.11.self_attn.q_proj.weight", "decoder.layers.11.self_attn.k_proj.bias", "decoder.layers.11.self_attn.v_proj.bias", "decoder.layers.11.self_attn.q_proj.bias", "decoder.layers.12.self_attn.k_proj.weight", "decoder.layers.12.self_attn.v_proj.weight", "decoder.layers.12.self_attn.q_proj.weight", "decoder.layers.12.self_attn.k_proj.bias", "decoder.layers.12.self_attn.v_proj.bias", "decoder.layers.12.self_attn.q_proj.bias", "decoder.layers.13.self_attn.k_proj.weight", "decoder.layers.13.self_attn.v_proj.weight", "decoder.layers.13.self_attn.q_proj.weight", "decoder.layers.13.self_attn.k_proj.bias", "decoder.layers.13.self_attn.v_proj.bias", "decoder.layers.13.self_attn.q_proj.bias", "decoder.layers.14.self_attn.k_proj.weight", "decoder.layers.14.self_attn.v_proj.weight", "decoder.layers.14.self_attn.q_proj.weight", "decoder.layers.14.self_attn.k_proj.bias", "decoder.layers.14.self_attn.v_proj.bias", "decoder.layers.14.self_attn.q_proj.bias", "decoder.layers.15.self_attn.k_proj.weight", "decoder.layers.15.self_attn.v_proj.weight", "decoder.layers.15.self_attn.q_proj.weight", "decoder.layers.15.self_attn.k_proj.bias", "decoder.layers.15.self_attn.v_proj.bias", "decoder.layers.15.self_attn.q_proj.bias", "decoder.layers.16.self_attn.k_proj.weight", "decoder.layers.16.self_attn.v_proj.weight", "decoder.layers.16.self_attn.q_proj.weight", "decoder.layers.16.self_attn.k_proj.bias", "decoder.layers.16.self_attn.v_proj.bias", "decoder.layers.16.self_attn.q_proj.bias", "decoder.layers.17.self_attn.k_proj.weight", "decoder.layers.17.self_attn.v_proj.weight", "decoder.layers.17.self_attn.q_proj.weight", "decoder.layers.17.self_attn.k_proj.bias", "decoder.layers.17.self_attn.v_proj.bias", "decoder.layers.17.self_attn.q_proj.bias", "decoder.layers.18.self_attn.k_proj.weight", "decoder.layers.18.self_attn.v_proj.weight", "decoder.layers.18.self_attn.q_proj.weight", "decoder.layers.18.self_attn.k_proj.bias", "decoder.layers.18.self_attn.v_proj.bias", "decoder.layers.18.self_attn.q_proj.bias", "decoder.layers.19.self_attn.k_proj.weight", "decoder.layers.19.self_attn.v_proj.weight", "decoder.layers.19.self_attn.q_proj.weight", "decoder.layers.19.self_attn.k_proj.bias", "decoder.layers.19.self_attn.v_proj.bias", "decoder.layers.19.self_attn.q_proj.bias", "decoder.layers.20.self_attn.k_proj.weight", "decoder.layers.20.self_attn.v_proj.weight", "decoder.layers.20.self_attn.q_proj.weight", "decoder.layers.20.self_attn.k_proj.bias", "decoder.layers.20.self_attn.v_proj.bias", "decoder.layers.20.self_attn.q_proj.bias", "decoder.layers.21.self_attn.k_proj.weight", "decoder.layers.21.self_attn.v_proj.weight", "decoder.layers.21.self_attn.q_proj.weight", "decoder.layers.21.self_attn.k_proj.bias", "decoder.layers.21.self_attn.v_proj.bias", "decoder.layers.21.self_attn.q_proj.bias", "decoder.layers.22.self_attn.k_proj.weight", "decoder.layers.22.self_attn.v_proj.weight", "decoder.layers.22.self_attn.q_proj.weight", "decoder.layers.22.self_attn.k_proj.bias", "decoder.layers.22.self_attn.v_proj.bias", "decoder.layers.22.self_attn.q_proj.bias", "decoder.layers.23.self_attn.k_proj.weight", "decoder.layers.23.self_attn.v_proj.weight", "decoder.layers.23.self_attn.q_proj.weight", "decoder.layers.23.self_attn.k_proj.bias", "decoder.layers.23.self_attn.v_proj.bias", "decoder.layers.23.self_attn.q_proj.bias", "decoder.layers.24.self_attn.k_proj.weight", "decoder.layers.24.self_attn.v_proj.weight", "decoder.layers.24.self_attn.q_proj.weight", "decoder.layers.24.self_attn.k_proj.bias", "decoder.layers.24.self_attn.v_proj.bias", "decoder.layers.24.self_attn.q_proj.bias", "decoder.layers.25.self_attn.k_proj.weight", "decoder.layers.25.self_attn.v_proj.weight", "decoder.layers.25.self_attn.q_proj.weight", "decoder.layers.25.self_attn.k_proj.bias", "decoder.layers.25.self_attn.v_proj.bias", "decoder.layers.25.self_attn.q_proj.bias", "decoder.layers.26.self_attn.k_proj.weight", "decoder.layers.26.self_attn.v_proj.weight", "decoder.layers.26.self_attn.q_proj.weight", "decoder.layers.26.self_attn.k_proj.bias", "decoder.layers.26.self_attn.v_proj.bias", "decoder.layers.26.self_attn.q_proj.bias", "decoder.layers.27.self_attn.k_proj.weight", "decoder.layers.27.self_attn.v_proj.weight", "decoder.layers.27.self_attn.q_proj.weight", "decoder.layers.27.self_attn.k_proj.bias", "decoder.layers.27.self_attn.v_proj.bias", "decoder.layers.27.self_attn.q_proj.bias", "decoder.layers.28.self_attn.k_proj.weight", "decoder.layers.28.self_attn.v_proj.weight", "decoder.layers.28.self_attn.q_proj.weight", "decoder.layers.28.self_attn.k_proj.bias", "decoder.layers.28.self_attn.v_proj.bias", "decoder.layers.28.self_attn.q_proj.bias", "decoder.layers.29.self_attn.k_proj.weight", "decoder.layers.29.self_attn.v_proj.weight", "decoder.layers.29.self_attn.q_proj.weight", "decoder.layers.29.self_attn.k_proj.bias", "decoder.layers.29.self_attn.v_proj.bias", "decoder.layers.29.self_attn.q_proj.bias", "decoder.layers.30.self_attn.k_proj.weight", "decoder.layers.30.self_attn.v_proj.weight", "decoder.layers.30.self_attn.q_proj.weight", "decoder.layers.30.self_attn.k_proj.bias", "decoder.layers.30.self_attn.v_proj.bias", "decoder.layers.30.self_attn.q_proj.bias", "decoder.layers.31.self_attn.k_proj.weight", "decoder.layers.31.self_attn.v_proj.weight", "decoder.layers.31.self_attn.q_proj.weight", "decoder.layers.31.self_attn.k_proj.bias", "decoder.layers.31.self_attn.v_proj.bias", "decoder.layers.31.self_attn.q_proj.bias", "decoder.layers.32.self_attn.k_proj.weight", "decoder.layers.32.self_attn.v_proj.weight", "decoder.layers.32.self_attn.q_proj.weight", "decoder.layers.32.self_attn.k_proj.bias", "decoder.layers.32.self_attn.v_proj.bias", "decoder.layers.32.self_attn.q_proj.bias", "decoder.layers.33.self_attn.k_proj.weight", "decoder.layers.33.self_attn.v_proj.weight", "decoder.layers.33.self_attn.q_proj.weight", "decoder.layers.33.self_attn.k_proj.bias", "decoder.layers.33.self_attn.v_proj.bias", "decoder.layers.33.self_attn.q_proj.bias", "decoder.layers.34.self_attn.k_proj.weight", "decoder.layers.34.self_attn.v_proj.weight", "decoder.layers.34.self_attn.q_proj.weight", "decoder.layers.34.self_attn.k_proj.bias", "decoder.layers.34.self_attn.v_proj.bias", "decoder.layers.34.self_attn.q_proj.bias", "decoder.layers.35.self_attn.k_proj.weight", "decoder.layers.35.self_attn.v_proj.weight", "decoder.layers.35.self_attn.q_proj.weight", "decoder.layers.35.self_attn.k_proj.bias", "decoder.layers.35.self_attn.v_proj.bias", "decoder.layers.35.self_attn.q_proj.bias", "decoder.layers.36.self_attn.k_proj.weight", "decoder.layers.36.self_attn.v_proj.weight", "decoder.layers.36.self_attn.q_proj.weight", "decoder.layers.36.self_attn.k_proj.bias", "decoder.layers.36.self_attn.v_proj.bias", "decoder.layers.36.self_attn.q_proj.bias", "decoder.layers.37.self_attn.k_proj.weight", "decoder.layers.37.self_attn.v_proj.weight", "decoder.layers.37.self_attn.q_proj.weight", "decoder.layers.37.self_attn.k_proj.bias", "decoder.layers.37.self_attn.v_proj.bias", "decoder.layers.37.self_attn.q_proj.bias", "decoder.layers.38.self_attn.k_proj.weight", "decoder.layers.38.self_attn.v_proj.weight", "decoder.layers.38.self_attn.q_proj.weight", "decoder.layers.38.self_attn.k_proj.bias", "decoder.layers.38.self_attn.v_proj.bias", "decoder.layers.38.self_attn.q_proj.bias", "decoder.layers.39.self_attn.k_proj.weight", "decoder.layers.39.self_attn.v_proj.weight", "decoder.layers.39.self_attn.q_proj.weight", "decoder.layers.39.self_attn.k_proj.bias", "decoder.layers.39.self_attn.v_proj.bias", "decoder.layers.39.self_attn.q_proj.bias", "decoder.layers.40.self_attn.k_proj.weight", "decoder.layers.40.self_attn.v_proj.weight", "decoder.layers.40.self_attn.q_proj.weight", "decoder.layers.40.self_attn.k_proj.bias", "decoder.layers.40.self_attn.v_proj.bias", "decoder.layers.40.self_attn.q_proj.bias", "decoder.layers.41.self_attn.k_proj.weight", "decoder.layers.41.self_attn.v_proj.weight", "decoder.layers.41.self_attn.q_proj.weight", "decoder.layers.41.self_attn.k_proj.bias", "decoder.layers.41.self_attn.v_proj.bias", "decoder.layers.41.self_attn.q_proj.bias", "decoder.layers.42.self_attn.k_proj.weight", "decoder.layers.42.self_attn.v_proj.weight", "decoder.layers.42.self_attn.q_proj.weight", "decoder.layers.42.self_attn.k_proj.bias", "decoder.layers.42.self_attn.v_proj.bias", "decoder.layers.42.self_attn.q_proj.bias", "decoder.layers.43.self_attn.k_proj.weight", "decoder.layers.43.self_attn.v_proj.weight", "decoder.layers.43.self_attn.q_proj.weight", "decoder.layers.43.self_attn.k_proj.bias", "decoder.layers.43.self_attn.v_proj.bias", "decoder.layers.43.self_attn.q_proj.bias", "decoder.layers.44.self_attn.k_proj.weight", "decoder.layers.44.self_attn.v_proj.weight", "decoder.layers.44.self_attn.q_proj.weight", "decoder.layers.44.self_attn.k_proj.bias", "decoder.layers.44.self_attn.v_proj.bias", "decoder.layers.44.self_attn.q_proj.bias", "decoder.layers.45.self_attn.k_proj.weight", "decoder.layers.45.self_attn.v_proj.weight", "decoder.layers.45.self_attn.q_proj.weight", "decoder.layers.45.self_attn.k_proj.bias", "decoder.layers.45.self_attn.v_proj.bias", "decoder.layers.45.self_attn.q_proj.bias", "decoder.layers.46.self_attn.k_proj.weight", "decoder.layers.46.self_attn.v_proj.weight", "decoder.layers.46.self_attn.q_proj.weight", "decoder.layers.46.self_attn.k_proj.bias", "decoder.layers.46.self_attn.v_proj.bias", "decoder.layers.46.self_attn.q_proj.bias", "decoder.layers.47.self_attn.k_proj.weight", "decoder.layers.47.self_attn.v_proj.weight", "decoder.layers.47.self_attn.q_proj.weight", "decoder.layers.47.self_attn.k_proj.bias", "decoder.layers.47.self_attn.v_proj.bias", "decoder.layers.47.self_attn.q_proj.bias", "decoder.layers.48.self_attn.k_proj.weight", "decoder.layers.48.self_attn.v_proj.weight", "decoder.layers.48.self_attn.q_proj.weight", "decoder.layers.48.self_attn.k_proj.bias", "decoder.layers.48.self_attn.v_proj.bias", "decoder.layers.48.self_attn.q_proj.bias", "decoder.layers.49.self_attn.k_proj.weight", "decoder.layers.49.self_attn.v_proj.weight", "decoder.layers.49.self_attn.q_proj.weight", "decoder.layers.49.self_attn.k_proj.bias", "decoder.layers.49.self_attn.v_proj.bias", "decoder.layers.49.self_attn.q_proj.bias", "decoder.layers.50.self_attn.k_proj.weight", "decoder.layers.50.self_attn.v_proj.weight", "decoder.layers.50.self_attn.q_proj.weight", "decoder.layers.50.self_attn.k_proj.bias", "decoder.layers.50.self_attn.v_proj.bias", "decoder.layers.50.self_attn.q_proj.bias", "decoder.layers.51.self_attn.k_proj.weight", "decoder.layers.51.self_attn.v_proj.weight", "decoder.layers.51.self_attn.q_proj.weight", "decoder.layers.51.self_attn.k_proj.bias", "decoder.layers.51.self_attn.v_proj.bias", "decoder.layers.51.self_attn.q_proj.bias", "decoder.layers.52.self_attn.k_proj.weight", "decoder.layers.52.self_attn.v_proj.weight", "decoder.layers.52.self_attn.q_proj.weight", "decoder.layers.52.self_attn.k_proj.bias", "decoder.layers.52.self_attn.v_proj.bias", "decoder.layers.52.self_attn.q_proj.bias", "decoder.layers.53.self_attn.k_proj.weight", "decoder.layers.53.self_attn.v_proj.weight", "decoder.layers.53.self_attn.q_proj.weight", "decoder.layers.53.self_attn.k_proj.bias", "decoder.layers.53.self_attn.v_proj.bias", "decoder.layers.53.self_attn.q_proj.bias", "decoder.layers.54.self_attn.k_proj.weight", "decoder.layers.54.self_attn.v_proj.weight", "decoder.layers.54.self_attn.q_proj.weight", "decoder.layers.54.self_attn.k_proj.bias", "decoder.layers.54.self_attn.v_proj.bias", "decoder.layers.54.self_attn.q_proj.bias", "decoder.layers.55.self_attn.k_proj.weight", "decoder.layers.55.self_attn.v_proj.weight", "decoder.layers.55.self_attn.q_proj.weight", "decoder.layers.55.self_attn.k_proj.bias", "decoder.layers.55.self_attn.v_proj.bias", "decoder.layers.55.self_attn.q_proj.bias", "decoder.layers.56.self_attn.k_proj.weight", "decoder.layers.56.self_attn.v_proj.weight", "decoder.layers.56.self_attn.q_proj.weight", "decoder.layers.56.self_attn.k_proj.bias", "decoder.layers.56.self_attn.v_proj.bias", "decoder.layers.56.self_attn.q_proj.bias", "decoder.layers.57.self_attn.k_proj.weight", "decoder.layers.57.self_attn.v_proj.weight", "decoder.layers.57.self_attn.q_proj.weight", "decoder.layers.57.self_attn.k_proj.bias", "decoder.layers.57.self_attn.v_proj.bias", "decoder.layers.57.self_attn.q_proj.bias", "decoder.layers.58.self_attn.k_proj.weight", "decoder.layers.58.self_attn.v_proj.weight", "decoder.layers.58.self_attn.q_proj.weight", "decoder.layers.58.self_attn.k_proj.bias", "decoder.layers.58.self_attn.v_proj.bias", "decoder.layers.58.self_attn.q_proj.bias", "decoder.layers.59.self_attn.k_proj.weight", "decoder.layers.59.self_attn.v_proj.weight", "decoder.layers.59.self_attn.q_proj.weight", "decoder.layers.59.self_attn.k_proj.bias", "decoder.layers.59.self_attn.v_proj.bias", "decoder.layers.59.self_attn.q_proj.bias", "decoder.layers.60.self_attn.k_proj.weight", "decoder.layers.60.self_attn.v_proj.weight", "decoder.layers.60.self_attn.q_proj.weight", "decoder.layers.60.self_attn.k_proj.bias", "decoder.layers.60.self_attn.v_proj.bias", "decoder.layers.60.self_attn.q_proj.bias", "decoder.layers.61.self_attn.k_proj.weight", "decoder.layers.61.self_attn.v_proj.weight", "decoder.layers.61.self_attn.q_proj.weight", "decoder.layers.61.self_attn.k_proj.bias", "decoder.layers.61.self_attn.v_proj.bias", "decoder.layers.61.self_attn.q_proj.bias", "decoder.layers.62.self_attn.k_proj.weight", "decoder.layers.62.self_attn.v_proj.weight", "decoder.layers.62.self_attn.q_proj.weight", "decoder.layers.62.self_attn.k_proj.bias", "decoder.layers.62.self_attn.v_proj.bias", "decoder.layers.62.self_attn.q_proj.bias", "decoder.layers.63.self_attn.k_proj.weight", "decoder.layers.63.self_attn.v_proj.weight", "decoder.layers.63.self_attn.q_proj.weight", "decoder.layers.63.self_attn.k_proj.bias", "decoder.layers.63.self_attn.v_proj.bias", "decoder.layers.63.self_attn.q_proj.bias", "decoder.layers.64.self_attn.k_proj.weight", "decoder.layers.64.self_attn.v_proj.weight", "decoder.layers.64.self_attn.q_proj.weight", "decoder.layers.64.self_attn.k_proj.bias", "decoder.layers.64.self_attn.v_proj.bias", "decoder.layers.64.self_attn.q_proj.bias", "decoder.layers.65.self_attn.k_proj.weight", "decoder.layers.65.self_attn.v_proj.weight", "decoder.layers.65.self_attn.q_proj.weight", "decoder.layers.65.self_attn.k_proj.bias", "decoder.layers.65.self_attn.v_proj.bias", "decoder.layers.65.self_attn.q_proj.bias", "decoder.layers.66.self_attn.k_proj.weight", "decoder.layers.66.self_attn.v_proj.weight", "decoder.layers.66.self_attn.q_proj.weight", "decoder.layers.66.self_attn.k_proj.bias", "decoder.layers.66.self_attn.v_proj.bias", "decoder.layers.66.self_attn.q_proj.bias", "decoder.layers.67.self_attn.k_proj.weight", "decoder.layers.67.self_attn.v_proj.weight", "decoder.layers.67.self_attn.q_proj.weight", "decoder.layers.67.self_attn.k_proj.bias", "decoder.layers.67.self_attn.v_proj.bias", "decoder.layers.67.self_attn.q_proj.bias", "decoder.layers.68.self_attn.k_proj.weight", "decoder.layers.68.self_attn.v_proj.weight", "decoder.layers.68.self_attn.q_proj.weight", "decoder.layers.68.self_attn.k_proj.bias", "decoder.layers.68.self_attn.v_proj.bias", "decoder.layers.68.self_attn.q_proj.bias", "decoder.layers.69.self_attn.k_proj.weight", "decoder.layers.69.self_attn.v_proj.weight", "decoder.layers.69.self_attn.q_proj.weight", "decoder.layers.69.self_attn.k_proj.bias", "decoder.layers.69.self_attn.v_proj.bias", "decoder.layers.69.self_attn.q_proj.bias", "decoder.layers.70.self_attn.k_proj.weight", "decoder.layers.70.self_attn.v_proj.weight", "decoder.layers.70.self_attn.q_proj.weight", "decoder.layers.70.self_attn.k_proj.bias", "decoder.layers.70.self_attn.v_proj.bias", "decoder.layers.70.self_attn.q_proj.bias", "decoder.layers.71.self_attn.k_proj.weight", "decoder.layers.71.self_attn.v_proj.weight", "decoder.layers.71.self_attn.q_proj.weight", "decoder.layers.71.self_attn.k_proj.bias", "decoder.layers.71.self_attn.v_proj.bias", "decoder.layers.71.self_attn.q_proj.bias", "decoder.layers.72.self_attn.k_proj.weight", "decoder.layers.72.self_attn.v_proj.weight", "decoder.layers.72.self_attn.q_proj.weight", "decoder.layers.72.self_attn.k_proj.bias", "decoder.layers.72.self_attn.v_proj.bias", "decoder.layers.72.self_attn.q_proj.bias", "decoder.layers.73.self_attn.k_proj.weight", "decoder.layers.73.self_attn.v_proj.weight", "decoder.layers.73.self_attn.q_proj.weight", "decoder.layers.73.self_attn.k_proj.bias", "decoder.layers.73.self_attn.v_proj.bias", "decoder.layers.73.self_attn.q_proj.bias", "decoder.layers.74.self_attn.k_proj.weight", "decoder.layers.74.self_attn.v_proj.weight", "decoder.layers.74.self_attn.q_proj.weight", "decoder.layers.74.self_attn.k_proj.bias", "decoder.layers.74.self_attn.v_proj.bias", "decoder.layers.74.self_attn.q_proj.bias", "decoder.layers.75.self_attn.k_proj.weight", "decoder.layers.75.self_attn.v_proj.weight", "decoder.layers.75.self_attn.q_proj.weight", "decoder.layers.75.self_attn.k_proj.bias", "decoder.layers.75.self_attn.v_proj.bias", "decoder.layers.75.self_attn.q_proj.bias", "decoder.layers.76.self_attn.k_proj.weight", "decoder.layers.76.self_attn.v_proj.weight", "decoder.layers.76.self_attn.q_proj.weight", "decoder.layers.76.self_attn.k_proj.bias", "decoder.layers.76.self_attn.v_proj.bias", "decoder.layers.76.self_attn.q_proj.bias", "decoder.layers.77.self_attn.k_proj.weight", "decoder.layers.77.self_attn.v_proj.weight", "decoder.layers.77.self_attn.q_proj.weight", "decoder.layers.77.self_attn.k_proj.bias", "decoder.layers.77.self_attn.v_proj.bias", "decoder.layers.77.self_attn.q_proj.bias", "decoder.layers.78.self_attn.k_proj.weight", "decoder.layers.78.self_attn.v_proj.weight", "decoder.layers.78.self_attn.q_proj.weight", "decoder.layers.78.self_attn.k_proj.bias", "decoder.layers.78.self_attn.v_proj.bias", "decoder.layers.78.self_attn.q_proj.bias", "decoder.layers.79.self_attn.k_proj.weight", "decoder.layers.79.self_attn.v_proj.weight", "decoder.layers.79.self_attn.q_proj.weight", "decoder.layers.79.self_attn.k_proj.bias", "decoder.layers.79.self_attn.v_proj.bias", "decoder.layers.79.self_attn.q_proj.bias", "decoder.layers.80.self_attn.k_proj.weight", "decoder.layers.80.self_attn.v_proj.weight", "decoder.layers.80.self_attn.q_proj.weight", "decoder.layers.80.self_attn.k_proj.bias", "decoder.layers.80.self_attn.v_proj.bias", "decoder.layers.80.self_attn.q_proj.bias", "decoder.layers.81.self_attn.k_proj.weight", "decoder.layers.81.self_attn.v_proj.weight", "decoder.layers.81.self_attn.q_proj.weight", "decoder.layers.81.self_attn.k_proj.bias", "decoder.layers.81.self_attn.v_proj.bias", "decoder.layers.81.self_attn.q_proj.bias", "decoder.layers.82.self_attn.k_proj.weight", "decoder.layers.82.self_attn.v_proj.weight", "decoder.layers.82.self_attn.q_proj.weight", "decoder.layers.82.self_attn.k_proj.bias", "decoder.layers.82.self_attn.v_proj.bias", "decoder.layers.82.self_attn.q_proj.bias", "decoder.layers.83.self_attn.k_proj.weight", "decoder.layers.83.self_attn.v_proj.weight", "decoder.layers.83.self_attn.q_proj.weight", "decoder.layers.83.self_attn.k_proj.bias", "decoder.layers.83.self_attn.v_proj.bias", "decoder.layers.83.self_attn.q_proj.bias", "decoder.layers.84.self_attn.k_proj.weight", "decoder.layers.84.self_attn.v_proj.weight", "decoder.layers.84.self_attn.q_proj.weight", "decoder.layers.84.self_attn.k_proj.bias", "decoder.layers.84.self_attn.v_proj.bias", "decoder.layers.84.self_attn.q_proj.bias", "decoder.layers.85.self_attn.k_proj.weight", "decoder.layers.85.self_attn.v_proj.weight", "decoder.layers.85.self_attn.q_proj.weight", "decoder.layers.85.self_attn.k_proj.bias", "decoder.layers.85.self_attn.v_proj.bias", "decoder.layers.85.self_attn.q_proj.bias", "decoder.layers.86.self_attn.k_proj.weight", "decoder.layers.86.self_attn.v_proj.weight", "decoder.layers.86.self_attn.q_proj.weight", "decoder.layers.86.self_attn.k_proj.bias", "decoder.layers.86.self_attn.v_proj.bias", "decoder.layers.86.self_attn.q_proj.bias", "decoder.layers.87.self_attn.k_proj.weight", "decoder.layers.87.self_attn.v_proj.weight", "decoder.layers.87.self_attn.q_proj.weight", "decoder.layers.87.self_attn.k_proj.bias", "decoder.layers.87.self_attn.v_proj.bias", "decoder.layers.87.self_attn.q_proj.bias", "decoder.layers.88.self_attn.k_proj.weight", "decoder.layers.88.self_attn.v_proj.weight", "decoder.layers.88.self_attn.q_proj.weight", "decoder.layers.88.self_attn.k_proj.bias", "decoder.layers.88.self_attn.v_proj.bias", "decoder.layers.88.self_attn.q_proj.bias", "decoder.layers.89.self_attn.k_proj.weight", "decoder.layers.89.self_attn.v_proj.weight", "decoder.layers.89.self_attn.q_proj.weight", "decoder.layers.89.self_attn.k_proj.bias", "decoder.layers.89.self_attn.v_proj.bias", "decoder.layers.89.self_attn.q_proj.bias", "decoder.layers.90.self_attn.k_proj.weight", "decoder.layers.90.self_attn.v_proj.weight", "decoder.layers.90.self_attn.q_proj.weight", "decoder.layers.90.self_attn.k_proj.bias", "decoder.layers.90.self_attn.v_proj.bias", "decoder.layers.90.self_attn.q_proj.bias", "decoder.layers.91.self_attn.k_proj.weight", "decoder.layers.91.self_attn.v_proj.weight", "decoder.layers.91.self_attn.q_proj.weight", "decoder.layers.91.self_attn.k_proj.bias", "decoder.layers.91.self_attn.v_proj.bias", "decoder.layers.91.self_attn.q_proj.bias", "decoder.layers.92.self_attn.k_proj.weight", "decoder.layers.92.self_attn.v_proj.weight", "decoder.layers.92.self_attn.q_proj.weight", "decoder.layers.92.self_attn.k_proj.bias", "decoder.layers.92.self_attn.v_proj.bias", "decoder.layers.92.self_attn.q_proj.bias", "decoder.layers.93.self_attn.k_proj.weight", "decoder.layers.93.self_attn.v_proj.weight", "decoder.layers.93.self_attn.q_proj.weight", "decoder.layers.93.self_attn.k_proj.bias", "decoder.layers.93.self_attn.v_proj.bias", "decoder.layers.93.self_attn.q_proj.bias", "decoder.layers.94.self_attn.k_proj.weight", "decoder.layers.94.self_attn.v_proj.weight", "decoder.layers.94.self_attn.q_proj.weight", "decoder.layers.94.self_attn.k_proj.bias", "decoder.layers.94.self_attn.v_proj.bias", "decoder.layers.94.self_attn.q_proj.bias", "decoder.layers.95.self_attn.k_proj.weight", "decoder.layers.95.self_attn.v_proj.weight", "decoder.layers.95.self_attn.q_proj.weight", "decoder.layers.95.self_attn.k_proj.bias", "decoder.layers.95.self_attn.v_proj.bias", "decoder.layers.95.self_attn.q_proj.bias". Done
It seems that the actual model files have changed but the pretrained model provided is different.
To Reproduce
Steps to reproduce the behavior (always include the command you ran):
- Run cmd python3 -m metaseq.cli.interactive_hosted
- metaseq Version (e.g., 1.0 or master): latest cloned from this repository
- PyTorch Version (e.g., 1.0): 1.10
- OS (e.g., Linux, Windows, MacOS): Linux
- How you installed metaseq (
pip
, source): from original github code repository - Build command you used (if compiling from source): pip install -e .;
- Python version: 3.8
- CUDA/cuDNN version:
- GPU models and configuration: A100-40GB
@gulzainali98 could you paste what constants.py file you're using? Just the default?
Refer to the comments here for how to specify the constants.py file https://github.com/facebookresearch/metaseq/issues/407
Here is the constant file.
# Copyright (c) Meta Platforms, Inc. and affiliates. All Rights Reserved.
#
# This source code is licensed under the MIT license found in the
# LICENSE file in the root directory of this source tree.
import os
MAX_SEQ_LEN = 2048
BATCH_SIZE = 2048 # silly high bc we dynamically batch by MAX_BATCH_TOKENS
MAX_BATCH_TOKENS = 3072
DEFAULT_PORT = 6010
MODEL_PARALLEL = 16
TOTAL_WORLD_SIZE = 16
MAX_BEAM = 16
# try:
# internal logic denoting where checkpoints are in meta infrastructure
# from metaseq_internal.constants import CHECKPOINT_FOLDER
# except ImportError:
# CHECKPOINT_FOLDER should point to a shared drive (e.g. NFS) where the
# checkpoints from S3 are stored. As an example:
# CHECKPOINT_FOLDER = "/example/175B/reshard_no_os"
# $ ls /example/175B/reshard_no_os
# reshard-model_part-0.pt
# reshard-model_part-1.pt
# reshard-model_part-2.pt
# reshard-model_part-3.pt
# reshard-model_part-4.pt
# reshard-model_part-5.pt
# reshard-model_part-6.pt
# reshard-model_part-7.pt
CHECKPOINT_FOLDER = "path_to_16_shards/"
# tokenizer files
BPE_MERGES = os.path.join(CHECKPOINT_FOLDER, "gpt2-merges.txt")
BPE_VOCAB = os.path.join(CHECKPOINT_FOLDER, "gpt2-vocab.json")
MODEL_FILE = os.path.join(CHECKPOINT_FOLDER, "reshard.pt")
LAUNCH_ARGS = [
f"--model-parallel-size {MODEL_PARALLEL}",
f"--distributed-world-size {TOTAL_WORLD_SIZE}",
"--task language_modeling",
f"--bpe-merges {BPE_MERGES}",
f"--bpe-vocab {BPE_VOCAB}",
"--bpe hf_byte_bpe",
f"--merges-filename {BPE_MERGES}", # TODO(susanz): hack for getting interactive_hosted working on public repo
f"--vocab-filename {BPE_VOCAB}", # TODO(susanz): hack for getting interactive_hosted working on public repo
f"--path {CHECKPOINT_FOLDER}/reshard.pt",
"--beam 1 --nbest 1",
"--distributed-port 13000",
"--checkpoint-shard-count 1",
"--use-sharded-state",
f"--batch-size {BATCH_SIZE}",
f"--buffer-size {BATCH_SIZE * MAX_SEQ_LEN}",
f"--max-tokens {BATCH_SIZE * MAX_SEQ_LEN}",
"/tmp", # required "data" argument.
]
@punitkoura I have checked the constants.py file. this was missing in my constants "--ddp-backend fully_sharded", as compared to provided here:https://github.com/facebookresearch/metaseq/blob/main/metaseq/cli/README.md
Not sure if this is the reason for the error.
@gulzainali98 yes, you need to specify a fully sharded backend since the checkpoint is wrapped in FSDP layers... Can you try that and let me know if that fixes model loading?
yes i have changed it. Here is my updated constant file that i am running right now.
import os
MAX_SEQ_LEN = 2048
BATCH_SIZE = 2048 # silly high bc we dynamically batch by MAX_BATCH_TOKENS
MAX_BATCH_TOKENS = 3072
DEFAULT_PORT = 6010
MODEL_PARALLEL = 16
TOTAL_WORLD_SIZE = 16
# MAX_BEAM = 16
MAX_BEAM = 32
CHECKPOINT_FOLDER = "path_to_16_shards/"
# tokenizer files
BPE_MERGES = os.path.join(CHECKPOINT_FOLDER, "gpt2-merges.txt")
BPE_VOCAB = os.path.join(CHECKPOINT_FOLDER, "gpt2-vocab.json")
MODEL_FILE = os.path.join(CHECKPOINT_FOLDER, "reshard.pt")
LAUNCH_ARGS = [
f"--model-parallel-size {MODEL_PARALLEL}",
f"--distributed-world-size {TOTAL_WORLD_SIZE}",
"--ddp-backend fully_sharded", # <--- changed
"--task language_modeling",
f"--bpe-merges {BPE_MERGES}",
f"--bpe-vocab {BPE_VOCAB}",
"--bpe hf_byte_bpe",
f"--merges-filename {BPE_MERGES}", # TODO(susanz): hack for getting interactive_hosted working on public repo
f"--vocab-filename {BPE_VOCAB}", # TODO(susanz): hack for getting interactive_hosted working on public repo
f"--path {CHECKPOINT_FOLDER}/reshard.pt",
"--beam 1 --nbest 1",
"--distributed-port 13000",
"--checkpoint-shard-count 1",
# "--use-sharded-state", # <--- changed
f"--batch-size {BATCH_SIZE}",
f"--buffer-size {BATCH_SIZE * MAX_SEQ_LEN}",
f"--max-tokens {BATCH_SIZE * MAX_SEQ_LEN}",
"/tmp", # required "data" argument.
]
@punitkoura Now i get following error
File "/opt/conda/lib/python3.8/runpy.py", line 194, in _run_module_as_main return _run_code(code, main_globals, None, File "/opt/conda/lib/python3.8/runpy.py", line 87, in _run_code exec(code, run_globals) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/cli/interactive_hosted.py", line 394, in <module> cli_main() File "/home/mkhan/zero_shot/metaseq_latest/metaseq/cli/interactive_hosted.py", line 380, in cli_main distributed_utils.call_main(cfg, worker_main, namespace_args=args) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/utils.py", line 272, in call_main return _spawn_helper(main, cfg, kwargs) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/utils.py", line 250, in _spawn_helper retval = distributed_main(-1, main, cfg, kwargs) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/utils.py", line 212, in distributed_main retval = main(cfg, **kwargs) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/cli/interactive_hosted.py", line 186, in worker_main models = generator.load_model() # noqa: F841 File "/home/mkhan/zero_shot/metaseq_latest/metaseq/hub_utils.py", line 147, in load_model models, _model_args, _task = _load_checkpoint() File "/home/mkhan/zero_shot/metaseq_latest/metaseq/hub_utils.py", line 132, in _load_checkpoint return checkpoint_utils.load_model_ensemble_and_task( File "/home/mkhan/zero_shot/metaseq_latest/metaseq/checkpoint_utils.py", line 489, in load_model_ensemble_and_task model = build_model_hook(cfg, task) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/hub_utils.py", line 123, in _build_model model = task.build_model(cfg.model).cuda() File "/home/mkhan/zero_shot/metaseq_latest/metaseq/tasks/base_task.py", line 529, in build_model model = models.build_model(args, self) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/models/__init__.py", line 87, in build_model return model.build_model(cfg, task) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/model_parallel/models/transformer_lm.py", line 55, in build_model decoder = ModelParallelTransformerDecoder( File "/home/mkhan/zero_shot/metaseq_latest/metaseq/models/transformer_decoder.py", line 114, in __init__ layers.append(self.build_decoder_layer(args)) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/models/transformer_decoder.py", line 251, in build_decoder_layer layer = fsdp_wrap( File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/fully_sharded_data_parallel.py", line 146, in fsdp_wrap return wrap(module, **kwargs) File "/home/mkhan/zero_shot/metaseq_latest/fairscale/fairscale/nn/wrap/auto_wrap.py", line 170, in wrap return ConfigAutoWrap.wrapper_cls(module, **wrap_overrides) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/fully_sharded_data_parallel.py", line 48, in __init__ super().__init__(*args, **kwargs) TypeError: __init__() got an unexpected keyword argument 'process_group_reduce_scatter' Done Traceback (most recent call last): File "/opt/conda/lib/python3.8/runpy.py", line 194, in _run_module_as_main return _run_code(code, main_globals, None, File "/opt/conda/lib/python3.8/runpy.py", line 87, in _run_code exec(code, run_globals) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/cli/interactive_hosted.py", line 394, in <module> cli_main() File "/home/mkhan/zero_shot/metaseq_latest/metaseq/cli/interactive_hosted.py", line 380, in cli_main distributed_utils.call_main(cfg, worker_main, namespace_args=args) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/utils.py", line 272, in call_main return _spawn_helper(main, cfg, kwargs) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/utils.py", line 250, in _spawn_helper retval = distributed_main(-1, main, cfg, kwargs) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/utils.py", line 212, in distributed_main retval = main(cfg, **kwargs) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/cli/interactive_hosted.py", line 186, in worker_main models = generator.load_model() # noqa: F841 File "/home/mkhan/zero_shot/metaseq_latest/metaseq/hub_utils.py", line 147, in load_model models, _model_args, _task = _load_checkpoint() File "/home/mkhan/zero_shot/metaseq_latest/metaseq/hub_utils.py", line 132, in _load_checkpoint return checkpoint_utils.load_model_ensemble_and_task( File "/home/mkhan/zero_shot/metaseq_latest/metaseq/checkpoint_utils.py", line 489, in load_model_ensemble_and_task model = build_model_hook(cfg, task) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/hub_utils.py", line 123, in _build_model model = task.build_model(cfg.model).cuda() File "/home/mkhan/zero_shot/metaseq_latest/metaseq/tasks/base_task.py", line 529, in build_model model = models.build_model(args, self) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/models/__init__.py", line 87, in build_model return model.build_model(cfg, task) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/model_parallel/models/transformer_lm.py", line 55, in build_model decoder = ModelParallelTransformerDecoder( File "/home/mkhan/zero_shot/metaseq_latest/metaseq/models/transformer_decoder.py", line 114, in __init__ layers.append(self.build_decoder_layer(args)) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/models/transformer_decoder.py", line 251, in build_decoder_layer layer = fsdp_wrap( File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/fully_sharded_data_parallel.py", line 146, in fsdp_wrap return wrap(module, **kwargs) File "/home/mkhan/zero_shot/metaseq_latest/fairscale/fairscale/nn/wrap/auto_wrap.py", line 170, in wrap return ConfigAutoWrap.wrapper_cls(module, **wrap_overrides) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/fully_sharded_data_parallel.py", line 48, in __init__ super().__init__(*args, **kwargs) TypeError: __init__() got an unexpected keyword argument 'process_group_reduce_scatter'
https://github.com/facebookresearch/metaseq/issues/404
Updated the branch for fairscale ... rerunning it now.
Thanks @gulzainali98 , let me know how that goes.
@punitkoura I am getting following error now
File "/home/mkhan/zero_shot/metaseq_latest/metaseq/checkpoint_utils.py", line 494, in load_model_ensemble_and_task model.load_state_dict(state["model"], strict=strict) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/fully_sharded_data_parallel.py", line 79, in load_state_dict state_dict = distributed_utils.broadcast_object( File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/utils.py", line 609, in broadcast_object obj = _broadcast_object_slow(obj, src_rank, group, dist_device) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/utils.py", line 629, in _broadcast_object_slow broadcast(length, src=src_rank, group=group) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/utils.py", line 398, in broadcast dist.broadcast(tensor, src=src, group=group) File "/opt/conda/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py", line 1255, in broadcast group_src_rank = _get_group_rank(group, src) File "/opt/conda/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py", line 319, in _get_group_rank raise RuntimeError( RuntimeError: The global rank 0 is not part of the group <torch._C._distributed_c10d.ProcessGroupNCCL object at 0x7f50a0ca8c70> Done Traceback (most recent call last): File "/opt/conda/lib/python3.8/runpy.py", line 194, in _run_module_as_main return _run_code(code, main_globals, None, File "/opt/conda/lib/python3.8/runpy.py", line 87, in _run_code exec(code, run_globals) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/cli/interactive_hosted.py", line 394, in <module> cli_main() File "/home/mkhan/zero_shot/metaseq_latest/metaseq/cli/interactive_hosted.py", line 380, in cli_main distributed_utils.call_main(cfg, worker_main, namespace_args=args) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/utils.py", line 272, in call_main return _spawn_helper(main, cfg, kwargs) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/utils.py", line 250, in _spawn_helper retval = distributed_main(-1, main, cfg, kwargs) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/utils.py", line 212, in distributed_main retval = main(cfg, **kwargs) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/cli/interactive_hosted.py", line 186, in worker_main models = generator.load_model() # noqa: F841 File "/home/mkhan/zero_shot/metaseq_latest/metaseq/hub_utils.py", line 147, in load_model models, _model_args, _task = _load_checkpoint() File "/home/mkhan/zero_shot/metaseq_latest/metaseq/hub_utils.py", line 132, in _load_checkpoint return checkpoint_utils.load_model_ensemble_and_task( File "/home/mkhan/zero_shot/metaseq_latest/metaseq/checkpoint_utils.py", line 494, in load_model_ensemble_and_task model.load_state_dict(state["model"], strict=strict) File "/home/mkhan/zero_shot/metaseq_latest/metaseq/distributed/fully_sharded_data_parallel.py", line 82, in load_state_dict return super().load_state_dict(state_dict, strict=strict) File "/home/mkhan/zero_shot/metaseq_latest/fairscale/fairscale/nn/data_parallel/fully_sharded_data_parallel.py", line 1014, in load_state_dict sd = self._load_state_dict(state_dict, strict) File "/home/mkhan/zero_shot/metaseq_latest/fairscale/fairscale/nn/data_parallel/fully_sharded_data_parallel.py", line 1004, in _load_state_dict return self.module.load_state_dict(state_dict, strict) File "/home/mkhan/zero_shot/metaseq_latest/fairscale/fairscale/nn/misc/flatten_params_wrapper.py", line 484, in load_state_dict return super().load_state_dict(state_dict, strict) File "/opt/conda/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1660, in load_state_dict raise RuntimeError('Error(s) in loading state_dict for {}:\n\t{}'.format( RuntimeError: Error(s) in loading state_dict for FlattenParamsWrapper: Missing key(s) in state_dict: "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.12._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.12._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.13._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.13._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.14._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.14._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.15._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.15._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.16._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.16._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.17._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.17._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.18._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.18._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.19._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.19._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.20._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.20._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.21._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.21._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.22._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.22._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.23._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.23._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.24._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.24._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.25._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.25._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.26._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.26._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.27._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.27._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.28._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.28._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.29._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.29._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.30._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.30._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.31._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.31._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.32._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.32._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.33._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.33._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.34._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.34._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.35._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.35._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.36._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.36._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.37._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.37._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.38._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.38._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.39._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.39._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.40._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.40._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.41._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.41._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.42._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.42._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.43._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.43._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.44._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.44._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.45._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.45._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.46._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.46._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.47._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.47._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.48._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.48._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.49._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.49._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.50._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.50._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.51._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.51._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.52._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.52._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.53._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.53._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.54._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.54._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.55._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.55._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.56._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.56._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.57._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.57._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.58._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.58._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.59._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.59._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.60._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.60._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.61._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.61._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.62._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.62._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.63._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.63._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.64._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.64._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.65._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.65._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.66._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.66._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.67._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.67._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.68._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.68._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.69._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.69._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.70._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.70._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.71._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.71._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.72._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.72._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.73._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.73._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.74._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.74._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.75._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.75._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.76._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.76._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.77._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.77._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.78._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.78._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.79._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.79._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.80._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.80._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.81._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.81._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.82._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.82._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.83._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.83._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.84._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.84._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.85._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.85._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.86._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.86._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.87._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.87._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.88._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.88._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.89._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.89._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.90._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.90._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.91._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.91._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.92._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.92._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.93._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.93._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.94._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.94._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias", "_fpw_module.decoder.layers.95._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.weight", "_fpw_module.decoder.layers.95._fsdp_wrapped_module._fpw_module.self_attn.qkv_proj.bias". Unexpected key(s) in state_dict: "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.12._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.12._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.12._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.12._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.12._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.12._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.13._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.13._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.13._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.13._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.13._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.13._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.14._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.14._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.14._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.14._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.14._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.14._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.15._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.15._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.15._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.15._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.15._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.15._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.16._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.16._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.16._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.16._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.16._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.16._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.17._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.17._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.17._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.17._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.17._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.17._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.18._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.18._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.18._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.18._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.18._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.18._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.19._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.19._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.19._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.19._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.19._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.19._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.20._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.20._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.20._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.20._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.20._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.20._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.21._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.21._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.21._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.21._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.21._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.21._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.22._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.22._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.22._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.22._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.22._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.22._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.23._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.23._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.23._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.23._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.23._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.23._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.24._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.24._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.24._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.24._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.24._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.24._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.25._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.25._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.25._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.25._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.25._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.25._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.26._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.26._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.26._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.26._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.26._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.26._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.27._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.27._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.27._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.27._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.27._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.27._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.28._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.28._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.28._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.28._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.28._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.28._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.29._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.29._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.29._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.29._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.29._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.29._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.30._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.30._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.30._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.30._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.30._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.30._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.31._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.31._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.31._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.31._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.31._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.31._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.32._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.32._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.32._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.32._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.32._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.32._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.33._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.33._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.33._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.33._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.33._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.33._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.34._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.34._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.34._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.34._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.34._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.34._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.35._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.35._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.35._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.35._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.35._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.35._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.36._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.36._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.36._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.36._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.36._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.36._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.37._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.37._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.37._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.37._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.37._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.37._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.38._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.38._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.38._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.38._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.38._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.38._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.39._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.39._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.39._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.39._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.39._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.39._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.40._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.40._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.40._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.40._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.40._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.40._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.41._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.41._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.41._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.41._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.41._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.41._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.42._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.42._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.42._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.42._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.42._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.42._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.43._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.43._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.43._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.43._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.43._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.43._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.44._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.44._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.44._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.44._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.44._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.44._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.45._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.45._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.45._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.45._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.45._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.45._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.46._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.46._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.46._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.46._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.46._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.46._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.47._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.47._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.47._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.47._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.47._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.47._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.48._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.48._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.48._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.48._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.48._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.48._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.49._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.49._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.49._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.49._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.49._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.49._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.50._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.50._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.50._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.50._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.50._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.50._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.51._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.51._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.51._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.51._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.51._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.51._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.52._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.52._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.52._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.52._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.52._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.52._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.53._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.53._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.53._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.53._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.53._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.53._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.54._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.54._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.54._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.54._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.54._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.54._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.55._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.55._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.55._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.55._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.55._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.55._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.56._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.56._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.56._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.56._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.56._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.56._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.57._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.57._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.57._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.57._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.57._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.57._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.58._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.58._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.58._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.58._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.58._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.58._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.59._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.59._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.59._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.59._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.59._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.59._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.60._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.60._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.60._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.60._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.60._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.60._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.61._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.61._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.61._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.61._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.61._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.61._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.62._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.62._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.62._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.62._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.62._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.62._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.63._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.63._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.63._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.63._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.63._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.63._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.64._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.64._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.64._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.64._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.64._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.64._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.65._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.65._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.65._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.65._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.65._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.65._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.66._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.66._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.66._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.66._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.66._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.66._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.67._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.67._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.67._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.67._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.67._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.67._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.68._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.68._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.68._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.68._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.68._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.68._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.69._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.69._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.69._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.69._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.69._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.69._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.70._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.70._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.70._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.70._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.70._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.70._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.71._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.71._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.71._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.71._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.71._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.71._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.72._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.72._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.72._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.72._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.72._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.72._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.73._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.73._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.73._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.73._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.73._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.73._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.74._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.74._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.74._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.74._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.74._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.74._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.75._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.75._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.75._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.75._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.75._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.75._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.76._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.76._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.76._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.76._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.76._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.76._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.77._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.77._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.77._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.77._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.77._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.77._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.78._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.78._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.78._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.78._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.78._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.78._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.79._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.79._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.79._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.79._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.79._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.79._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.80._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.80._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.80._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.80._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.80._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.80._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.81._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.81._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.81._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.81._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.81._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.81._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.82._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.82._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.82._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.82._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.82._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.82._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.83._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.83._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.83._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.83._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.83._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.83._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.84._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.84._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.84._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.84._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.84._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.84._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.85._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.85._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.85._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.85._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.85._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.85._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.86._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.86._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.86._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.86._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.86._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.86._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.87._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.87._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.87._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.87._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.87._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.87._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.88._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.88._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.88._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.88._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.88._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.88._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.89._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.89._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.89._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.89._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.89._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.89._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.90._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.90._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.90._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.90._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.90._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.90._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.91._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.91._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.91._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.91._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.91._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.91._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.92._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.92._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.92._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.92._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.92._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.92._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.93._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.93._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.93._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.93._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.93._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.93._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.94._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.94._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.94._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.94._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.94._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.94._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.95._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.95._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.95._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.95._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.95._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.95._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias". [serv-2108:128052:0:128052] Caught signal 7 (Bus error: nonexistent physical address) run_metaseq_cli.sh: line 35: 128052 Bus error (core dumped) python -m metaseq.cli.interactive_hosted Done
I resharded the model with an old repository. Could this be because of that? @punitkoura
@gulzainali98 "--use-sharded-state" needs to be in the LAUNCH_ARGS
actually, see https://github.com/facebookresearch/metaseq/compare/punitkoura/debug-407
@gulzainali98 It appears that the weights you're using are not compatible with ModelParallelTransformerLanguageModel
, which expects KQV weights to be combined. If you still have issues, I recommend trying one of these options:
- Do resharding again with the updated
reshard_mp
script. This should not split the KQV weights. - As suggested by @EIFY, you can also load the raw weights (e.g. those 992 FSDP shards) directly using
--ddp-backend fully_shareded
and--use-sharded-state
.
It's been a while and I assume you've moved past the issue. But please us know if you need further help.