Vector Gradient & Directional Derivative

Fri, 15 Sep 2023 00:00:00 +0000

Các thuật toán tối ưu hàm mất mát (loss function) phổ biến hiện nay như Gradient Descent hay Adam … đã cho thấy tính hiệu quả trong quá trình huấn luyện mô hình. Các thuật toán này hoạt động bằng cách cập nhật trọng số (weight) theo hướng ngược lại với vector gradient. Tại sao lại phải là ngược hướng Vector Gradient?

1) Ordinary derivative(đạo hàm thông thường)

Đạo hàm cấp 1 của hàm một biến ($f: \mathbb{R} \to \mathbb{R}$) (ordinary derivative) tại điểm $x$ được định nghĩa là : $$ f’(x) = \lim_{\Delta x \to 0} \frac{f(x - \Delta x) - f(x)}{\Delta x} $$ Công thức trên khá quen thuộc trong chương trình THPT . Nó biểu thị tốc độ thay đổi của $f(x)$ khi $x$ thay đổi một lượng rất nhỏ là $\Delta x$. . Đối với đồ thị trên mặt phẳng tọa độ, đạo hàm tại một điểm trên đồ thị bằng độ dốc của đường tiếp tuyến với đồ thị tại điểm đó. Chính vì thế mới có nguyên tắc tìm tiếp tuyến của đồ thị tại một điểm bằng cách tính đạo hàm.

Math on

Vector Gradient & Directional Derivative

1) Ordinary derivative(đạo hàm thông thường)