Self-Attention và Multi-head Sefl-Attention trong Transformers</h1> <article> <h1>Self-Attention và Multi-head Sefl-Attention trong Transformers</h1> <p>Sat, 21 Dec 2024 00:00:00 +0000</p> <blockquote> <p>Note: Có thể xem bài viết trên viblo <a href="https://viblo.asia/p/self-attention-va-multi-head-sefl-attention-trong-transformers-n1j4lO2aVwl">ở đây</a>. Nếu thấy hay cho mình xin upvote. Cảm ơn !</p> </blockquote> <p><strong>Transformers</strong> là gì? Liệu nó có gì đặc biệt mà trong machine learning người ta nhắc đến nó nhiều như thế? Trước thời điểm Google giới thiệu bài báo nổi tiếng <a href="https://arxiv.org/abs/1706.03762v7">Attention Is All You Need</a> thì transformers là “Người máy biến hình” là “Máy biến áp”. Sau khi bài báo được công bố thì transformers lại trở thành một trong những kiến trúc nổi bật trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và xử lý ảnh. Với khả năng xử lý song song và nắm bắt các mối quan hệ phức tạp giữa các từ trong câu, transformers đã giải quyết các hạn chế của mạng RNN và các biến thể (LSTM, GRU…). Xương sống của kiến trúc này chính là cơ chế <strong>self-attention</strong> giúp mô hình tập trung vào các thông tin quan trọng, hiệu quả hơn trong việc hiểu ngữ cảnh của từng từ trong câu và cho phép các transformers có bộ nhớ cực kỳ dài hạn. Có thể ví transformers như là 1 hộp đen, trong một ứng dụng dịch máy, nó sẽ “ngậm” vào một câu trong một ngôn ngữ và “thổi” ra bản dịch của nó trong một ngôn ngữ khác.</p> </article> <article> <h1>About</h1> <p>Mon, 01 Jan 2024 00:00:00 +0000</p> <p>Khi mà AI ngày càng “khun” :)) Cứ thắc mắc chi thì chọt tay lên chatgpt, gemini… mà hỏi, tiện phết. Ồ, mình thử rồi, đã vcl , cứ mình hỏi thì AI trả lời đôi khi không hỏi mà nó còn gợi ý. Rồi mình nhận ra vấn đề, mặc dù khi hỏi thì sướng thật, chả cần search kết quả cứ thế hiện ra, trình bày rõ ràng, đôi khi gặp phải hallucination nhưng tốt hơn rất nhiều so với việc tự search trước đây. Nhưng những kiến thức ấy quên nhanh vcl. Rứa là mình cần viết , viết lại những cấy mà mình chộ hay , ý nghĩa và viết cho khỏi quên .Đôi khi viết để trải lòng về hoặc viết để vài năm sau coi lại :))</p> </article> <article> <h1>Vector Gradient & Directional Derivative</h1> <p>Fri, 15 Sep 2023 00:00:00 +0000</p> <p>Các thuật toán tối ưu hàm mất mát (loss function) phổ biến hiện nay như Gradient Descent hay Adam … đã cho thấy tính hiệu quả trong quá trình huấn luyện mô hình. Các thuật toán này hoạt động bằng cách cập nhật trọng số (weight) theo hướng ngược lại với vector gradient. Tại sao lại phải là ngược hướng Vector Gradient?</p> <h2 id="1-ordinary-derivativeđạo-hàm-thông-thường">1) Ordinary derivative(đạo hàm thông thường)</h2> <p>Đạo hàm cấp 1 của hàm một biến ($f: \mathbb{R} \to \mathbb{R}$) (ordinary derivative) tại điểm $x$ được định nghĩa là : $$ f’(x) = \lim_{\Delta x \to 0} \frac{f(x - \Delta x) - f(x)}{\Delta x} $$ Công thức trên khá quen thuộc trong chương trình THPT . Nó biểu thị tốc độ thay đổi của $f(x)$ khi $x$ thay đổi một lượng rất nhỏ là $\Delta x$. . Đối với đồ thị trên mặt phẳng tọa độ, đạo hàm tại một điểm trên đồ thị bằng độ dốc của đường tiếp tuyến với đồ thị tại điểm đó. Chính vì thế mới có nguyên tắc tìm tiếp tuyến của đồ thị tại một điểm bằng cách tính đạo hàm.</p> </article> </main></body></html>