diff --git a/hf-training-example.py b/hf-training-example.py
index 2afb9d4..977d1a1 100644
--- a/hf-training-example.py
+++ b/hf-training-example.py
@@ -17,7 +17,7 @@ tokenizer = llamahf.LLaMATokenizer.from_pretrained(MODEL)
 model = llamahf.LLaMAForCausalLM.from_pretrained(MODEL).cpu()
 
 if tokenizer.pad_token is None:
-    tokenizer.add_special_tokens({'pad_token': '[PAD]'})
+    tokenizer.add_special_tokens({'pad_token': '<|endoftext|>'})
     model.resize_token_embeddings(len(tokenizer))