pygaggle
pygaggle copied to clipboard
Problem replicating MS MARCO passage subset
I am unable to replicate the results for the MS MARCO passage subset experiment for monoT5 in this section.
- Colab: Fails to run monoBERT and monoT5.
- Local machine: I was able to perfectly replicate the results for monoBERT on my local machine, but fail to run monoT5 with another error.
I'm not sure if there is an installation instruction I missed or something wrong with the environment (in both Colab and my local machine, I made sure to start with a clean virtualenv).
Colab
See this Colab notebook: https://colab.research.google.com/drive/1dU9gkgHQImlkZ2iT1vZ06pyqJLkMFTuw?usp=sharing
This is the error:
2021-09-13 00:38:30 [INFO] loader: Loading faiss with AVX2 support.
2021-09-13 00:38:30 [INFO] loader: Could not load library with AVX2 support due to:
ModuleNotFoundError("No module named 'faiss.swigfaiss_avx2'")
2021-09-13 00:38:30 [INFO] loader: Loading faiss.
2021-09-13 00:38:30 [INFO] loader: Successfully loaded faiss.
Traceback (most recent call last):
File "/usr/lib/python3.7/runpy.py", line 193, in _run_module_as_main
"__main__", mod_spec)
File "/usr/lib/python3.7/runpy.py", line 85, in _run_code
exec(code, run_globals)
File "/content/pygaggle/pygaggle/run/evaluate_passage_ranker.py", line 7, in <module>
from transformers import (AutoModel,
File "/usr/local/lib/python3.7/dist-packages/transformers/__init__.py", line 626, in <module>
from .trainer import Trainer
File "/usr/local/lib/python3.7/dist-packages/transformers/trainer.py", line 69, in <module>
from .trainer_pt_utils import (
File "/usr/local/lib/python3.7/dist-packages/transformers/trainer_pt_utils.py", line 40, in <module>
from torch.optim.lr_scheduler import SAVE_STATE_WARNING
ImportError: cannot import name 'SAVE_STATE_WARNING' from 'torch.optim.lr_scheduler' (/usr/local/lib/python3.7/dist-packages/torch/optim/lr_scheduler.py)
I looked this error up and tried this solution to downgrade to torch==1.4.0
, but then the output then becomes:
2021-09-13 00:38:30 [INFO] loader: Loading faiss with AVX2 support.
2021-09-13 00:38:30 [INFO] loader: Could not load library with AVX2 support due to:
ModuleNotFoundError("No module named 'faiss.swigfaiss_avx2'")
2021-09-13 00:38:30 [INFO] loader: Loading faiss.
2021-09-13 00:38:30 [INFO] loader: Successfully loaded faiss.
And there is no output file being generated.
There is a GH issue on this here and I tried some of the solutions (such as uninstalling faiss
and installing faiss-cpu
) but none of them seemed to work.
Colab is running on Python 3.7.11.
Output of pip list
Package Version
----------------------------- --------------
absl-py 0.12.0
alabaster 0.7.12
albumentations 0.1.12
altair 4.1.0
appdirs 1.4.4
argcomplete 1.12.3
argon2-cffi 21.1.0
arviz 0.11.2
astor 0.8.1
astropy 4.3.1
astunparse 1.6.3
atari-py 0.2.9
atomicwrites 1.4.0
attrs 21.2.0
audioread 2.1.9
autograd 1.3
Babel 2.9.1
backcall 0.2.0
beautifulsoup4 4.6.3
bleach 4.0.0
blis 0.4.1
bokeh 2.3.3
Bottleneck 1.3.2
branca 0.4.2
bs4 0.0.1
CacheControl 0.12.6
cached-property 1.5.2
cachetools 4.2.2
catalogue 1.0.0
certifi 2021.5.30
cffi 1.14.6
cftime 1.5.0
chardet 3.0.4
charset-normalizer 2.0.4
clang 5.0
click 7.1.2
cloudpickle 1.3.0
cmake 3.12.0
cmdstanpy 0.9.5
colorcet 2.0.6
coloredlogs 14.0
colorlover 0.3.0
community 1.0.0b1
contextlib2 0.5.5
convertdate 2.3.2
coverage 3.7.1
coveralls 0.5
crcmod 1.7
cufflinks 0.17.3
cupy-cuda101 9.1.0
cvxopt 1.2.6
cvxpy 1.0.31
cycler 0.10.0
cymem 2.0.5
Cython 0.29.24
daft 0.0.4
dask 2.12.0
datascience 0.10.6
debugpy 1.0.0
decorator 4.4.2
defusedxml 0.7.1
descartes 1.1.0
dill 0.3.4
distributed 1.25.3
dlib 19.18.0
dm-tree 0.1.6
docopt 0.6.2
docutils 0.17.1
dopamine-rl 1.0.5
earthengine-api 0.1.278
easydict 1.9
ecos 2.0.7.post1
editdistance 0.5.3
en-core-web-sm 2.2.5
entrypoints 0.3
ephem 4.0.0.2
et-xmlfile 1.1.0
fa2 0.3.5
faiss-cpu 1.7.1.post2
fastai 1.0.61
fastdtw 0.3.4
fastprogress 1.0.0
fastrlock 0.6
fbprophet 0.7.1
feather-format 0.4.1
filelock 3.0.12
firebase-admin 4.4.0
fix-yahoo-finance 0.0.22
Flask 1.1.4
flatbuffers 1.12
folium 0.8.3
future 0.16.0
gast 0.4.0
GDAL 2.2.2
gdown 3.6.4
gensim 3.6.0
geographiclib 1.52
geopy 1.17.0
gin-config 0.4.0
glob2 0.7
google 2.0.3
google-api-core 1.26.3
google-api-python-client 1.12.8
google-auth 1.34.0
google-auth-httplib2 0.0.4
google-auth-oauthlib 0.4.5
google-cloud-bigquery 1.21.0
google-cloud-bigquery-storage 1.1.0
google-cloud-core 1.0.3
google-cloud-datastore 1.8.0
google-cloud-firestore 1.7.0
google-cloud-language 1.2.0
google-cloud-storage 1.18.1
google-cloud-translate 1.5.0
google-colab 1.0.0
google-pasta 0.2.0
google-resumable-media 0.4.1
googleapis-common-protos 1.53.0
googledrivedownloader 0.4
graphviz 0.10.1
greenlet 1.1.1
grpcio 1.39.0
gspread 3.0.1
gspread-dataframe 3.0.8
gym 0.17.3
h5py 3.1.0
HeapDict 1.0.1
hijri-converter 2.1.3
holidays 0.10.5.2
holoviews 1.14.5
html5lib 1.0.1
httpimport 0.5.18
httplib2 0.17.4
httplib2shim 0.0.3
humanfriendly 9.2
humanize 0.5.1
hyperopt 0.1.2
ideep4py 2.0.0.post3
idna 2.10
imageio 2.4.1
imagesize 1.2.0
imbalanced-learn 0.4.3
imblearn 0.0
imgaug 0.2.9
importlib-metadata 4.6.4
importlib-resources 5.2.2
imutils 0.5.4
inflect 2.1.0
iniconfig 1.1.1
intel-openmp 2021.3.0
intervaltree 2.1.0
ipykernel 4.10.1
ipython 5.5.0
ipython-genutils 0.2.0
ipython-sql 0.3.9
ipywidgets 7.6.3
itsdangerous 1.1.0
jax 0.2.19
jaxlib 0.1.70+cuda110
jdcal 1.4.1
jedi 0.18.0
jieba 0.42.1
Jinja2 2.11.3
joblib 1.0.1
jpeg4py 0.1.4
jsonschema 2.6.0
jupyter 1.0.0
jupyter-client 5.3.5
jupyter-console 5.2.0
jupyter-core 4.7.1
jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0
kaggle 1.5.12
kapre 0.3.5
keras 2.6.0
Keras-Preprocessing 1.1.2
keras-vis 0.4.1
kiwisolver 1.3.1
korean-lunar-calendar 0.2.1
librosa 0.8.1
lightgbm 2.2.3
llvmlite 0.34.0
lmdb 0.99
LunarCalendar 0.0.9
lxml 4.2.6
Markdown 3.3.4
MarkupSafe 2.0.1
matplotlib 3.2.2
matplotlib-inline 0.1.2
matplotlib-venn 0.11.6
missingno 0.5.0
mistune 0.8.4
mizani 0.6.0
mkl 2019.0
mlxtend 0.14.0
more-itertools 8.8.0
moviepy 0.2.3.5
mpmath 1.2.1
msgpack 1.0.2
multiprocess 0.70.12.2
multitasking 0.0.9
murmurhash 1.0.5
music21 5.5.0
natsort 5.5.0
nbclient 0.5.4
nbconvert 5.6.1
nbformat 5.1.3
nest-asyncio 1.5.1
netCDF4 1.5.7
networkx 2.6.2
nibabel 3.0.2
nltk 3.2.5
notebook 5.3.1
numba 0.51.2
numexpr 2.7.3
numpy 1.19.5
nvidia-ml-py3 7.352.0
oauth2client 4.1.3
oauthlib 3.1.1
okgrade 0.4.3
opencv-contrib-python 4.1.2.30
opencv-python 4.1.2.30
openpyxl 2.5.9
opt-einsum 3.3.0
osqp 0.6.2.post0
packaging 21.0
palettable 3.3.0
pandas 1.1.5
pandas-datareader 0.9.0
pandas-gbq 0.13.3
pandas-profiling 1.4.1
pandocfilters 1.4.3
panel 0.12.1
param 1.11.1
parso 0.8.2
pathlib 1.0.1
patsy 0.5.1
pep517 0.11.0
pexpect 4.8.0
pickleshare 0.7.5
Pillow 7.1.2
pip 21.1.3
pip-tools 6.2.0
plac 1.1.3
plotly 4.4.1
plotnine 0.6.0
pluggy 0.7.1
pooch 1.4.0
portpicker 1.3.9
prefetch-generator 1.0.1
preshed 3.0.5
prettytable 2.1.0
progressbar2 3.38.0
prometheus-client 0.11.0
promise 2.3
prompt-toolkit 1.0.18
protobuf 3.17.3
psutil 5.4.8
psycopg2 2.7.6.1
ptyprocess 0.7.0
py 1.10.0
pyarrow 3.0.0
pyasn1 0.4.8
pyasn1-modules 0.2.8
pycocotools 2.0.2
pycparser 2.20
pyct 0.4.8
pydantic 1.5
pydata-google-auth 1.2.0
pydot 1.3.0
pydot-ng 2.0.0
pydotplus 2.0.2
PyDrive 1.3.1
pyemd 0.5.1
pyerfa 2.0.0
pygaggle 0.0.3.1
pyglet 1.5.0
Pygments 2.6.1
pygobject 3.26.1
pyjnius 1.4.0
pymc3 3.11.2
PyMeeus 0.5.11
pymongo 3.12.0
pymystem3 0.2.0
PyOpenGL 3.1.5
pyparsing 2.4.7
pyrsistent 0.18.0
pyserini 0.10.1.0
pysndfile 1.3.8
PySocks 1.7.1
pystan 2.19.1.1
pytest 3.6.4
python-apt 0.0.0
python-chess 0.23.11
python-dateutil 2.8.2
python-louvain 0.15
python-slugify 5.0.2
python-utils 2.5.6
pytz 2018.9
pyviz-comms 2.1.0
PyWavelets 1.1.1
PyYAML 3.13
pyzmq 22.2.1
qdldl 0.1.5.post0
qtconsole 5.1.1
QtPy 1.10.0
regex 2019.12.20
requests 2.23.0
requests-oauthlib 1.3.0
resampy 0.2.2
retrying 1.3.3
rpy2 3.4.5
rsa 4.7.2
sacremoses 0.0.45
scikit-image 0.16.2
scikit-learn 0.22.2.post1
scipy 1.4.1
screen-resolution-extra 0.0.0
scs 2.1.4
seaborn 0.11.1
semver 2.13.0
Send2Trash 1.8.0
sentencepiece 0.1.94
setuptools 57.4.0
setuptools-git 1.2
Shapely 1.7.1
simplegeneric 0.8.1
six 1.15.0
sklearn 0.0
sklearn-pandas 1.8.0
smart-open 5.1.0
snowballstemmer 2.1.0
sortedcontainers 2.4.0
SoundFile 0.10.3.post1
spacy 2.2.4
Sphinx 1.8.5
sphinxcontrib-serializinghtml 1.1.5
sphinxcontrib-websupport 1.2.4
SQLAlchemy 1.4.22
sqlparse 0.4.1
srsly 1.0.5
statsmodels 0.10.2
sympy 1.7.1
tables 3.4.4
tabulate 0.8.9
tblib 1.7.0
tensorboard 2.6.0
tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0
tensorflow 2.6.0
tensorflow-datasets 4.0.1
tensorflow-estimator 2.6.0
tensorflow-gcs-config 2.6.0
tensorflow-hub 0.12.0
tensorflow-metadata 1.2.0
tensorflow-probability 0.13.0
termcolor 1.1.0
terminado 0.11.0
testpath 0.5.0
text-unidecode 1.3
textblob 0.15.3
Theano-PyMC 1.1.2
thinc 7.4.0
tifffile 2021.8.30
tokenizers 0.9.4
toml 0.10.2
tomli 1.2.1
toolz 0.11.1
torch 1.9.0+cu102
torchsummary 1.5.1
torchtext 0.10.0
torchvision 0.10.0+cu102
tornado 5.1.1
tqdm 4.45.0
traitlets 5.0.5
transformers 4.0.0
tweepy 3.10.0
typeguard 2.7.1
typing-extensions 3.7.4.3
tzlocal 1.5.1
uritemplate 3.0.1
urllib3 1.24.3
vega-datasets 0.9.0
wasabi 0.8.2
wcwidth 0.2.5
webencodings 0.5.1
Werkzeug 1.0.1
wheel 0.37.0
widgetsnbextension 3.5.1
wordcloud 1.5.0
wrapt 1.12.1
xarray 0.18.2
xgboost 0.90
xkit 0.0.0
xlrd 1.1.0
xlwt 1.3.0
yellowbrick 0.9.1
zict 2.0.0
zipp 3.5.0
Local machine
I ran the commands in a clean venv. I can replicate the monoBERT results. But if I run the monoT5 ranking task, I get this error:
File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle_venv/lib/python3.8/site-packages/requests/models.py", line 953, in raise_for_status
raise HTTPError(http_error_msg, response=self)
requests.exceptions.HTTPError: 414 Client Error: Request-URI Too Large for url: https://huggingface.co/T5ForConditionalGeneration(%0A%20%20(shared):%20Embedding(32128,%20768)%0A%20%20(encoder):%20T5Stack(%0A%20%20%20%20(embed_tokens) [.....]
Full error log
> python -um pygaggle.run.evaluate_passage_ranker --split dev \
--method seq_class_transformer \
--model castorini/monobert-large-msmarco \
--dataset data/msmarco_ans_small/ \
--index-dir indexes/index-msmarco-passage-20191117-0ed488 \
--task msmarco \
--output-file runs/run.monobert.ans_small.dev.tsv
2021-09-12 20:13:43.827355: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory
2021-09-12 20:13:43.827394: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
2021-09-12 20:13:46 [INFO] evaluate_passage_ranker: Preprocessing Queries & Passages:
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 105000/105000 [00:08<00:00, 12968.12it/s]
2021-09-12 20:13:56 [INFO] msmarco: Random P@1: 0.0009238095238095241
2021-09-12 20:13:56 [INFO] msmarco: Random R@1000: 0.8476190476190476
2021-09-12 20:13:56 [INFO] msmarco: Random MRR: 0.006754424559671378
2021-09-12 20:13:56 [INFO] msmarco: Random MRR@10: 0.0027044623251634625
2021-09-12 20:13:56 [INFO] msmarco: Existing MRR: 0.17093237250821483
2021-09-12 20:13:56 [INFO] msmarco: Existing MRR@10: 0.1590665154950869
2021-09-12 20:13:57 [INFO] evaluate_passage_ranker: Loading Ranker & Tokenizer:
414 Client Error: Request-URI Too Large for url: https://huggingface.co/T5ForConditionalGeneration(%0A%20%20(shared):%20Embedding(32128,%20768)%0A%20%20(encoder):%20T5Stack(%0A%20%20%20%20(embed_tokens):%20Embedding(32128,%20768)%0A%20%20%20%20(block):%20ModuleList(%0A%20%20%20%20%20%20(0):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(relative_attention_bias):%20Embedding(32,%2012)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(1):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(2):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(3):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(4):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(5):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(6):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(7):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(8):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(9):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(10):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(11):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20)%0A%20%20%20%20(final_layer_norm):%20T5LayerNorm()%0A%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20)%0A%20%20(decoder):%20T5Stack(%0A%20%20%20%20(embed_tokens):%20Embedding(32128,%20768)%0A%20%20%20%20(block):%20ModuleList(%0A%20%20%20%20%20%20(0):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(relative_attention_bias):%20Embedding(32,%2012)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(1):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(2):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(3):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(4):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(5):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(6):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(7):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(8):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(9):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(10):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(11):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20)%0A%20%20%20%20(final_layer_norm):%20T5LayerNorm()%0A%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20)%0A%20%20(lm_head):%20Linear(in_features=768,%20out_features=32128,%20bias=False)%0A)/resolve/main/config.json
Traceback (most recent call last):
File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle_venv/lib/python3.8/site-packages/transformers/configuration_utils.py", line 484, in get_config_dict
resolved_config_file = cached_path(
File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle_venv/lib/python3.8/site-packages/transformers/file_utils.py", line 1271, in cached_path
output_path = get_from_cache(
File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle_venv/lib/python3.8/site-packages/transformers/file_utils.py", line 1442, in get_from_cache
r.raise_for_status()
File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle_venv/lib/python3.8/site-packages/requests/models.py", line 953, in raise_for_status
raise HTTPError(http_error_msg, response=self)
requests.exceptions.HTTPError: 414 Client Error: Request-URI Too Large for url: https://huggingface.co/T5ForConditionalGeneration(%0A%20%20(shared):%20Embedding(32128,%20768)%0A%20%20(encoder):%20T5Stack(%0A%20%20%20%20(embed_tokens):%20Embedding(32128,%20768)%0A%20%20%20%20(block):%20ModuleList(%0A%20%20%20%20%20%20(0):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(relative_attention_bias):%20Embedding(32,%2012)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(1):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(2):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(3):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(4):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(5):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(6):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(7):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(8):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(9):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(10):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(11):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20)%0A%20%20%20%20(final_layer_norm):%20T5LayerNorm()%0A%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20)%0A%20%20(decoder):%20T5Stack(%0A%20%20%20%20(embed_tokens):%20Embedding(32128,%20768)%0A%20%20%20%20(block):%20ModuleList(%0A%20%20%20%20%20%20(0):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(relative_attention_bias):%20Embedding(32,%2012)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(1):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(2):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(3):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(4):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(5):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(6):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(7):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(8):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(9):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(10):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(11):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20)%0A%20%20%20%20(final_layer_norm):%20T5LayerNorm()%0A%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20)%0A%20%20(lm_head):%20Linear(in_features=768,%20out_features=32128,%20bias=False)%0A)/resolve/main/config.json
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "/home/leungjch/anaconda3/lib/python3.8/runpy.py", line 194, in _run_module_as_main
return _run_code(code, main_globals, None,
File "/home/leungjch/anaconda3/lib/python3.8/runpy.py", line 87, in _run_code
exec(code, run_globals)
File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle/run/evaluate_passage_ranker.py", line 218, in <module>
main()
File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle/run/evaluate_passage_ranker.py", line 199, in main
reranker = construct_map[options.method](options)
File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle/run/evaluate_passage_ranker.py", line 87, in construct_t5
return MonoT5(model, tokenizer)
File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle/rerank/transformer.py", line 55, in __init__
self.model = self.get_model(pretrained_model_name_or_path)
File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle/rerank/transformer.py", line 68, in get_model
return AutoModelForSeq2SeqLM.from_pretrained(pretrained_model_name_or_path,
File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle_venv/lib/python3.8/site-packages/transformers/models/auto/auto_factory.py", line 375, in from_pretrained
config, kwargs = AutoConfig.from_pretrained(
File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle_venv/lib/python3.8/site-packages/transformers/models/auto/configuration_auto.py", line 430, in from_pretrained
config_dict, _ = PretrainedConfig.get_config_dict(pretrained_model_name_or_path, **kwargs)
File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle_venv/lib/python3.8/site-packages/transformers/configuration_utils.py", line 504, in get_config_dict
raise EnvironmentError(msg)
OSError: Can't load config for 'T5ForConditionalGeneration(
(shared): Embedding(32128, 768)
(encoder): T5Stack(
(embed_tokens): Embedding(32128, 768)
(block): ModuleList(
(0): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
(relative_attention_bias): Embedding(32, 12)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(1): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(2): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(3): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(4): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(5): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(6): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(7): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(8): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(9): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(10): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(11): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
)
(final_layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(decoder): T5Stack(
(embed_tokens): Embedding(32128, 768)
(block): ModuleList(
(0): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
(relative_attention_bias): Embedding(32, 12)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(1): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(2): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(3): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(4): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(5): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(6): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(7): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(8): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(9): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(10): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(11): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
)
(final_layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(lm_head): Linear(in_features=768, out_features=32128, bias=False)
)'. Make sure that:
- 'T5ForConditionalGeneration(
(shared): Embedding(32128, 768)
(encoder): T5Stack(
(embed_tokens): Embedding(32128, 768)
(block): ModuleList(
(0): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
(relative_attention_bias): Embedding(32, 12)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(1): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(2): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(3): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(4): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(5): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(6): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(7): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(8): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(9): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(10): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(11): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
)
(final_layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(decoder): T5Stack(
(embed_tokens): Embedding(32128, 768)
(block): ModuleList(
(0): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
(relative_attention_bias): Embedding(32, 12)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(1): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(2): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(3): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(4): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(5): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(6): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(7): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(8): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(9): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(10): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(11): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
)
(final_layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(lm_head): Linear(in_features=768, out_features=32128, bias=False)
)' is a correct model identifier listed on 'https://huggingface.co/models'
- or 'T5ForConditionalGeneration(
(shared): Embedding(32128, 768)
(encoder): T5Stack(
(embed_tokens): Embedding(32128, 768)
(block): ModuleList(
(0): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
(relative_attention_bias): Embedding(32, 12)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(1): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(2): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(3): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(4): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(5): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(6): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(7): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(8): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(9): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(10): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(11): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
)
(final_layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(decoder): T5Stack(
(embed_tokens): Embedding(32128, 768)
(block): ModuleList(
(0): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
(relative_attention_bias): Embedding(32, 12)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(1): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(2): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(3): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(4): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(5): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(6): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(7): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(8): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(9): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(10): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
(11): T5Block(
(layer): ModuleList(
(0): T5LayerSelfAttention(
(SelfAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerCrossAttention(
(EncDecAttention): T5Attention(
(q): Linear(in_features=768, out_features=768, bias=False)
(k): Linear(in_features=768, out_features=768, bias=False)
(v): Linear(in_features=768, out_features=768, bias=False)
(o): Linear(in_features=768, out_features=768, bias=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(2): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=768, out_features=3072, bias=False)
(wo): Linear(in_features=3072, out_features=768, bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
)
)
(final_layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(lm_head): Linear(in_features=768, out_features=32128, bias=False)
)' is the correct path to a directory containing a config.json file
Output of pip list
Package Version
----------------------- -------------------
absl-py 0.13.0
astunparse 1.6.3
blis 0.7.4
cachetools 4.2.2
catalogue 2.0.6
certifi 2021.5.30
charset-normalizer 2.0.4
click 7.1.2
coloredlogs 14.0
cymem 2.0.5
Cython 0.29.24
filelock 3.0.12
flatbuffers 1.12
gast 0.4.0
google-auth 1.35.0
google-auth-oauthlib 0.4.6
google-pasta 0.2.0
grpcio 1.40.0
h5py 3.1.0
huggingface-hub 0.0.8
humanfriendly 9.2
idna 3.2
Jinja2 3.0.1
joblib 1.0.1
keras-nightly 2.5.0.dev2021032900
Keras-Preprocessing 1.1.2
Markdown 3.3.4
MarkupSafe 2.0.1
murmurhash 1.0.5
nltk 3.6.2
numpy 1.21.2
oauthlib 3.1.1
opt-einsum 3.3.0
packaging 21.0
pandas 1.3.3
pathy 0.6.0
Pillow 8.3.2
pip 20.1.1
preshed 3.0.5
protobuf 3.17.3
pyasn1 0.4.8
pyasn1-modules 0.2.8
pydantic 1.7.4
pyjnius 1.4.0
pyparsing 2.4.7
pyserini 0.12.0
python-dateutil 2.8.2
pytz 2021.1
regex 2021.8.28
requests 2.26.0
requests-oauthlib 1.3.0
rsa 4.7.2
sacremoses 0.0.45
scikit-learn 0.24.2
scipy 1.5.4
sentence-transformers 2.0.0
sentencepiece 0.1.95
setuptools 47.1.0
six 1.15.0
smart-open 5.2.1
spacy 3.0.6
spacy-legacy 3.0.8
srsly 2.4.1
tensorboard 2.5.0
tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0
tensorflow 2.5.0
tensorflow-estimator 2.5.0
termcolor 1.1.0
thinc 8.0.10
threadpoolctl 2.2.0
tokenizers 0.10.2
torch 1.8.1
torchvision 0.10.0
tqdm 4.56.0
transformers 4.6.1
typer 0.3.2
typing-extensions 3.7.4.3
urllib3 1.26.6
wasabi 0.8.2
Werkzeug 2.0.1
wheel 0.37.0
wrapt 1.12.1
Python version: Python 3.8.5 OS: Ubuntu 20.04.3 LTS GPU: RTX 2070S CUDA version: 11.4
Update: I tried reproducing on Colab again with some changes, and the monoBERT ranking task works properly, but now I have the exact error on monoT5 as originally described on my local machine (414 Client Error: Request-URI Too Large for url: https://huggingface.co/T5ForConditionalGeneration
).
What I changed in Colab was that pip install pygaggle
should actually be pip install /pygaggle
, since the former installs from PyPi but the latter installs the locally cloned repo.
@ronakice I noticed that you tried running the Colab notebook and making changes, thank you. Can you confirm if the monoT5 error is a real issue / you can reproduce it on your local machine as well?
Update: I tried reproducing on Colab again with some changes, and the monoBERT ranking task works properly, but now I have the exact error on monoT5 as originally described on my local machine (
414 Client Error: Request-URI Too Large for url: https://huggingface.co/T5ForConditionalGeneration
).What I changed in Colab was that
pip install pygaggle
should actually bepip install /pygaggle
, since the former installs from PyPi but the latter installs the locally cloned repo.@ronakice I noticed that you tried running the Colab notebook and making changes, thank you. Can you confirm if the monoT5 error is a real issue / you can reproduce it on your local machine as well?
I've had the same issue when running on cc with virtual env.
I am able to reproduce this error on colab as well. Let me try on cc.
On colab, run:
!pip install transformers==4.6.1
and restart runtime.
Worked for me.
Reproducing the monoT5 results on Colab seems to work fine on the current version of the code. See https://colab.research.google.com/drive/1WxdR0R2XZTcNehsCK9NTm9_Zk53Byt66?usp=sharing Commit: 9728299