Self-Attention và Multi-head Sefl-Attention trong Transformers

Sat, 21 Dec 2024 00:00:00 +0000

Note: Có thể xem bài viết trên viblo ở đây. Nếu thấy hay cho mình xin upvote. Cảm ơn !

Transformers là gì? Liệu nó có gì đặc biệt mà trong machine learning người ta nhắc đến nó nhiều như thế? Trước thời điểm Google giới thiệu bài báo nổi tiếng Attention Is All You Need thì transformers là “Người máy biến hình” là “Máy biến áp”. Sau khi bài báo được công bố thì transformers lại trở thành một trong những kiến trúc nổi bật trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và xử lý ảnh. Với khả năng xử lý song song và nắm bắt các mối quan hệ phức tạp giữa các từ trong câu, transformers đã giải quyết các hạn chế của mạng RNN và các biến thể (LSTM, GRU…). Xương sống của kiến trúc này chính là cơ chế self-attention giúp mô hình tập trung vào các thông tin quan trọng, hiệu quả hơn trong việc hiểu ngữ cảnh của từng từ trong câu và cho phép các transformers có bộ nhớ cực kỳ dài hạn. Có thể ví transformers như là 1 hộp đen, trong một ứng dụng dịch máy, nó sẽ “ngậm” vào một câu trong một ngôn ngữ và “thổi” ra bản dịch của nó trong một ngôn ngữ khác.

Transformers on

Self-Attention và Multi-head Sefl-Attention trong Transformers