ai-alignment topics

PromptInject is a framework that assembles prompts in a modular fashion to provide a quantitative analysis of the robustness of LLMs to adversarial prompt attacks. 🏆 Best Paper Awards @ NeurIPS ML Sa...

agencyenterprise

agi

agi-alignment

ai-alignment

ai-safety

make-safe-ai

169

Stars

7

Forks

Watchers

How to Make Safe AI? Let's Discuss! 💡|💬|🙌|📚

lets-make-safe-ai

agi

ai

ai-alignment

ai-safety

awesome-ai-safety

158

Stars

13

Forks

Watchers

📚 A curated list of papers & technical articles on AI Quality & Safety

Giskard-AI

ai

ai-alignment

ai-quality

ai-safety

pretraining-with-human-feedback

180

Stars

13

Forks

180

Watchers

Code accompanying the paper Pretraining Language Models with Human Preferences

tomekkorbak

ai-alignment

ai-safety

decision-transformers

gpt

Sight-Beyond-Text

19

Stars

1

Forks

Watchers

This repository includes the official implementation of our paper "Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics"

UCSC-VLAA

ai-alignment

alignment

llama2

llava

adversarial-reinforcement-learning

127

Stars

7

Forks

127

Watchers

Reading list for adversarial perspective and robustness in deep reinforcement learning.

EzgiKorkmaz

adversarial-attacks

adversarial-machine-learning

adversarial-policies

adversarial-reinforcement-learning

sparse-probing-paper

49

Stars

10

Forks

Watchers

Sparse probing paper full code.

wesg52

ai-alignment

ai-safety

interpretability

mechanistic-interpretability

aiwatch

20

Stars

6

Forks

Watchers

Website to track people, organizations, and products (tools, websites, etc.) in AI safety

riceissa

ai-alignment

ai-safety

aisafety

data-portal