Recurrent neural network là gì

     
Dịch do Trần Tuấn Anh, Đàm Minh Tiến, Hung Nguyễn với Nguyễn Trí Minh

Tổng quan

Kiến trúc của một mạng RNN truyền thống cuội nguồn Các mạng neural hồi quy, còn được biến hóa đến như là RNNs, là một trong lớp của mạng neural được cho phép đầu ra được thực hiện như đầu vào trong lúc có những trạng thái ẩn. Thường thì là như sau:



<oxeda^=g_1(W_aaa^+W_axx^+b_a)quad extrmvàquadoxedy^=g_2(W_yaa^+b_y)>
cùng với $W_ax, W_aa, W_ya, b_a, b_y$ là các hệ số được share tạm thời với $g_1, g_2$ là các hàm kích hoạt.

Ưu điểm Hạn chế
• năng lực xử lí nguồn vào với bất kỳ độ lâu năm nào • kích cỡ mô hình không tăng theo size đầu vào • vượt trình giám sát sử dụng các thông tin cũ • Trọng số được chia sẻ trong trong cả thời gian • giám sát và đo lường chậm • khó khăn để truy cập các thông tin xuất phát điểm từ một khoảng thời hạn dài trước đó • quan trọng xem xét bất kể đầu vào sau này nào cho trạng thái hiện tại tại

Ứng dụng của RNNs Các mô hình RNN hầu như được sử dụng trong nghành nghề xử lí ngôn ngữ tự nhiên và ghi dìm tiếng nói. Những ứng dụng không giống được tổng kết vào bảng dưới đây:


Các loại RNN Hình minh hoạ Ví dụ
Một-Một$T_x=T_y=1$ Mạng neural truyền thống
Một-nhiều$T_x=1, T_y>1$ Sinh nhạc
Nhiều-một$T_x>1, T_y=1$ Phân loại ý kiến
Nhiều-nhiều$T_x=T_y$ Ghi dấn thực thể tên
Nhiều-nhiều$T_x eq T_y$ Dịch máy

Hàm mất mát Trong trường phù hợp của mạng neural hồi quy, hàm mất mát $mathcalL$ của tất cả công việc thời gian được khái niệm dựa theo mất mát sinh hoạt mọi thời khắc như sau:


Lan truyền ngược theo thời gian lan truyền ngược được chấm dứt ở mỗi một thời điểm ráng thể. Ở bước $T$, đạo hàm của hàm mất non $mathcalL$ với ma trận trọng số $W$ được trình diễn như sau:


<oxed_(t)>

Xử lí dựa vào dài hạn

Các hàm kích hoạt thường được sử dụng Các hàm kích hoạt hay được dùng trong những modules RNN được diễn đạt như sau:


Sigmoid Tanh RELU
$displaystyle g(z)=frac11+e^-z$ $displaystyle g(z)=frace^z-e^-ze^z+e^-z$ $displaystyle g(z)=max(0,z)$
Sigmoid Tanh RELU

Vanishing/exploding gradient hiện tượng lạ vanishing với exploding gradient thường chạm mặt trong ngữ cảnh của RNNs. Lí do tại sao chúng thường xẩy ra đó là khó để có được sự phụ thuộc vào dài hạn vì multiplicative gradient hoàn toàn có thể tăng/giảm theo hàm mũ khớp ứng với số lượng các tầng.

Bạn đang xem: Recurrent neural network là gì

Gradient clipping là 1 trong những kĩ thuật được sử dụng để xử lý vấn đề exploding gradient xảy ra khi thực hiện lan truyền ngược. Bởi việc số lượng giới hạn giá trị lớn nhất cho gradient, hiện tượng lạ này đang được kiểm soát điều hành trong thực tế.



Các các loại cổng Để giải quyết vấn đề vanishing gradient, những cổng cụ thể được thực hiện trong một vài các loại RNNs cùng thường có mục đích rõ ràng. Chúng thường được kí hiệu là $Gamma$ và bằng với:


Với $W, U, b$ là các hệ số của một cổng với $sigma$ là hàm sigmoid. Các loại thiết yếu được tổng kết sinh hoạt bảng bên dưới đây:


Loại cổng Vai trò Được áp dụng trong
Cổng update $Gamma_u$ Dữ liệu cũ nên có tầm đặc biệt quan trọng như rứa nào ở hiện nay tại? GRU, LSTM
Cổng relevance $Gamma_r$ Bỏ qua thông tin phía trước? GRU, LSTM
Cổng quên $Gamma_f$ Xoá ô hay là không xoá? LSTM
Cổng ra $Gamma_o$ Biểu thị một ô ở mức độ bao nhiêu? LSTM

GRU/LSTM Gated Recurrent Unit (GRU) và những đơn vị bộ nhớ lưu trữ dài-ngắn hạn (LSTM) ứng phó với vấn đề vanishing gradient khi gặp phải bởi mạng RNNs truyền thống, cùng với LSTM là việc tổng quát lác của GRU. Phía bên dưới là bảng tổng kết những phương trình đặc trưng của mỗi kiến trúc:


Đặc tính Gated Recurrent Unit (GRU) Bộ lưu giữ dài-ngắn hạn (LSTM)
$ ildec^$ $ extrmtanh(W_c+b_c)$ $ extrmtanh(W_c+b_c)$
$c^$ $Gamma_ustar ildec^+(1-Gamma_u)star c^$ $Gamma_ustar ildec^+Gamma_fstar c^$
$a^$ $c^$ $Gamma_ostar c^$
Các phụ thuộc

Chú ý: kí hiệu ⋆ chỉ phép nhân từng bộ phận với nhau giữa hai vectors.

Các biến hóa thể của RNNs Bảng tiếp sau đây tổng kết những kiến trúc thường được áp dụng khác của RNN:


Học từ đại diện

Trong phần này, chúng ta kí hiệu $V$ là tập từ vựng cùng $|V|$ là kích thước của nó.

Giải thích hợp và các kí hiệu

Các kĩ thuật biểu diễn Có nhì cách bao gồm để màn trình diễn từ được tổng kết nghỉ ngơi bảng mặt dưới:


Biểu diễn 1-hot Word embedding
• lưu ý $o_w$ • Tiếp cận Naive, không có thông tin chung • xem xét $e_w$ • chú ý độ tương đồng của những từ

Embedding matrix cho 1 từ $w$, embedding matrix $E$ là một trong ma trận tham chiếu biểu đạt 1-hot $o_w$ của chính nó với embedding $e_w$ của chính nó như sau:


Chú ý: học embedding matrix rất có thể hoàn thành bằng cách sử dụng các mô hình target/context likelihood.

Word embeddings

Word2vec Word2vec là một trong những framework triệu tập vào câu hỏi học word embeddings bằng cách ước lượng năng lực mà một từ mang lại trước được phủ quanh bởi các từ khác. Các quy mô phổ biến bao hàm skip-gram, negative sampling và CBOW.



Skip-gram mô hình skip-gram word2vec là 1 task học tất cả giám sát, nó học các word embeddings bằng cách đánh giá năng lực của bất cứ target word $t$ cho trước nào xẩy ra với context word $c$. Bằng việc kí hiệu $ heta_t$ là tham số đi kèm theo với $t$, tỷ lệ $P(t|c)$ được tính như sau:


Chú ý: cộng tổng toàn bộ các từ bỏ vựng trong mẫu số của phần softmax khiến cho mô hình này tốn nhiều ngân sách chi tiêu tính toán. CBOW là một quy mô word2vec không giống sử dụng các từ xung quanh để tham gia đoán một từ mang đến trước.

Negative sampling Nó là 1 trong tập của các bộ phân nhiều loại nhị phân sử dụng logistic regressions với mục tiêu là đánh giá khả năng mà lại một ngữ cảnh mang đến trước và những target words đến trước hoàn toàn có thể xuất hiện tại đồng thời, với các quy mô đang được đào tạo trên các tập của $k$ negative examples với 1 positive example. đến trước context word $c$ cùng target word $t$, dự kiến được diễn đạt bởi:


Chú ý: cách thức này tốn ít túi tiền tính toán hơn mô hình skip-gram.

GloVe quy mô GloVe, viết tắt của global vectors for word representation, nó là 1 kĩ thuật word embedding áp dụng ma trận đồng xuất hiện thêm $X$ với mỗi $X_i,j$ là chu kỳ mà từ bỏ đích (target) $i$ xuất hiện thêm tại ngữ cảnh $j$. Cost function $J$ của chính nó như sau:


$f$ là hàm trong các với $X_i,j=0Longrightarrow f(X_i,j)=0$. Với tính đối xứng mà lại $e$ cùng $ heta$ đã đạt được trong mô hình này, word embedding sau cùng $e_w^( extrmfinal)$ được có mang như sau:


Chú ý: Các thành phần riêng của các word embedding học được không độc nhất vô nhị thiết là nên thông dịch được.

Xem thêm: Lịch Chiếu Phim Lotte Cần Thơ, Lịch Chiếu Phim Lotte Ninh Kiều

So sánh những từ

Độ tương đương cosine Độ tương đồng cosine giữa những từ $w_1$ với $w_2$ được trình bày như sau:


$t$-SNE $t$-SNE (t-distributed Stochastic Neighbor Embedding) là một trong những kĩ thuật nhằm mục đích giảm đi số chiều của không gian embedding. Trong thực tế, nó hay được thực hiện để trực quan hoá các word vectors trong không khí 2 chiều (2D).


Mô hình ngôn ngữ

Tổng quan tiền Một quy mô ngôn ngữ đang dự đoán xác suất của một câu $P(y)$.

Mô hình $n$-gram mô hình này là cách tiếp cận naive với mục đích định lượng phần trăm mà một biểu lộ xuất hiện trong văn phiên bản bằng biện pháp đếm số lần mở ra của nó trong tập dữ liệu huấn luyện.

Độ láo lếu tạp Các mô hình ngôn ngữ thường xuyên được reviews dựa theo độ đo hỗ tạp, cũng được biết mang đến là PP, rất có thể được hiểu như là nghịch đảo phần trăm của tập tài liệu được chuẩn hoá bởi số lượng các trường đoản cú $T$. Độ láo tạp càng tốt thì càng giỏi và được tư tưởng như sau:


<oxed extrmPP=prod_t=1^Tleft(frac1sum_j=1^y_j^(t)cdot widehaty_j^(t) ight)^frac1T>

Chú ý: PP thường xuyên được sử dụng trong $t$-SNE.

Dịch máy

Tổng quan Một quy mô dịch máy tựa như với quy mô ngôn ngữ ngoài nó có một mạng encoder được để phía trước. Vì chưng lí bởi này, thỉnh thoảng nó còn được biết đến là quy mô ngôn ngữ gồm điều kiện. Mục tiêu là kiếm tìm một câu văn $y$ như sau:


Tìm kiếm Beam Nó là 1 giải thuật tìm kiếm kiếm heuristic được áp dụng trong dịch máy với ghi nhận tiếng nói nhằm tìm câu văn $y$ đúng nhất tương ứng với đầu vào $x$.

• bước 1: Tìm đứng đầu B những từ y • bước 2: Tính xác suất có điều kiện y|x,y,...,y • bước 3: Giữ vị trí cao nhất B những tổ vừa lòng x,y,...,y


Chú ý: nếu phạm vi của beam được tùy chỉnh thiết lập là 1, thì nó tương đương với search kiếm tham lam naive.

Độ rộng lớn Beam Độ rộng lớn beam $B$ là một tham số của lời giải tìm tìm beam. Những giá trị to của $B$ sinh sản ra hiệu quả tốt hơn nhưng với hiệu năng thấp hơn cùng lượng bộ lưu trữ sử dụng sẽ tăng.

Chuẩn hoá độ dài Đến nâng cao tính ổn định định, beam tìm kiếm thường được áp dụng mục tiêu chuẩn hoá sau, hay được điện thoại tư vấn là mục tiêu chuẩn hoá log-likelihood, được quan niệm như sau:


<oxedx,y^, ..., y^)Big>>

Chú ý: thông số $alpha$ rất có thể được xem như thể softener, cùng giá trị của chính nó thường phía trong đoạn 0.5 cùng 1.

Phân tích lỗi Khi đạt được một phiên bản dịch tồi $widehaty$, bạn có thể tự hỏi rằng trên sao họ không có được một tác dụng dịch giỏi $y^*$ bởi việc tiến hành việc đối chiếu lỗi như sau:


Trường hợp $P(y^*|x)>P(widehaty|x)$ $P(y^*|x)leqslant P(widehaty|x)$
Nguyên nhân sâu xa Lỗi Beam search lỗi RNN
Biện pháp khắc phục Tăng beam width • Thử kiến trúc khác • chủ yếu quy • đem nhiều tài liệu hơn

Điểm Bleu Bilingual evaluation understudy (bleu) score định lượng nút độ tốt của dịch máy bằng phương pháp tính một độ tương đồng dựa trên dự kiến $n$-gram. Nó được định nghĩa như sau:



Chú ý: một mức vạc ngắn có thể được áp dụng với những dự đoán dịch ngắn để tránh vấn đề làm thổi phồng giá trị bleu score.

Chú ý

Attention model Mô hình này được cho phép một RNN tập trung vào các phần cụ thể của đầu vào được chăm chú là quan trọng, nó giúp cải thiện hiệu năng của tế bào hình hiệu quả trong thực tế. Bằng câu hỏi kí hiệu $alpha^$ là nấc độ chăm chú mà đầu ra output $y^$ nên có so với hàm kích hoạt $a^$ và $c^$ là văn cảnh ở thời điểm $t$, họ có:


Attention weight Sự chú ý mà đầu ra $y^$ nên tất cả với hàm kích hoạt $a^$ với $lpha^$ được xem như sau: