RWKV-LM

Author	SHA1	Message	Date
PENG Bo	b4fd1a7209	Update model.py	4 years ago
BlinkDL	0a0eae447d	+headQK (compatible with 2022-02-15 AI-Writer)	4 years ago
BlinkDL	76e241b71e	saves vocab.json, and the model every X epoch	5 years ago
BlinkDL	710d3e34b7	better init for RWKV	5 years ago
BlinkDL	619ed00e4b	misc improvement	5 years ago
BlinkDL	3329161ed7	rapid convergence using ZERO initialization	5 years ago
BlinkDL	7f391c5758	+ RWKV tiny-attn and now it's great for ctx 1024 or 2048	5 years ago
BlinkDL	4ffd8f1b76	+ new comparison	5 years ago
BlinkDL	ad627311f4	clean init code	5 years ago
BlinkDL	c675b47705	misc improvements	5 years ago
BlinkDL	ef29f4b9e8	fixed nan loss	5 years ago
BlinkDL	4fd8716976	improve RWKV time_w initialization	5 years ago
BlinkDL	a31a3b2e92	+ MHA_shift	5 years ago
BlinkDL	3b9005ea11	RWKV: now faster and less params	5 years ago
BlinkDL	546114c6a5	still use layernorm for everything	5 years ago
BlinkDL	fd098b1d2e	small update	5 years ago
BlinkDL	3b60c5b266	add wandb, and rename variables	5 years ago
BlinkDL	440bebff1a	fixed nan in large models	5 years ago
BlinkDL	62e2cb06d6	fixing nan in large models	5 years ago
BlinkDL	d699a69169	misc improvements	5 years ago
BlinkDL	6266f481da	minor changes	5 years ago
BlinkDL	89eab46e60	+ info	5 years ago
BlinkDL	e9fbd9bf70	remove layernorm -> better RWKV	5 years ago
BlinkDL	447eae5841	add MHA-plus model	5 years ago
BlinkDL	aa4e2a68f4	first commit	5 years ago