强烈建议你试试无所不能的chatGPT，快点击我

循环神经网络RNN与LSTM--基础知识

阅读量：2049 次

发布时间：2019-04-28

本文共 978 字，大约阅读时间需要 3 分钟。

基础知识

1. 文字的编码格式

(1)ｏｎｅｈｏｔ

单词可以用 onehot编码格式,如下:

此种方式,占据大量的空间,实际中不推荐．

(2)word2vec

(3)glove

2.时间序列中的batch位置

RNN

在这里插入图片描述

上面这种方式,给每个单词都有一个的w 和 b,这样会很难处理单词数特别多的句子.为了减少参数量,可以用下面权重共享模式, 在这里插入图片描述

在这里插入图片描述

用上面的方式,虽然可以减少权重数,但是每个单词是独立的,无法从整体去理解语境,为此创造了下面这种具有记忆功能的模式:

在这里插入图片描述

https://www.bilibili.com/video/BV1Lx411j7ws?p=30

莫烦python视频

RNN是可以一直记忆,lstm是长短期记忆,也就是记忆的长短是可以自己控制的.

CNN中每个batch之间是没关系的, RNN中是有关系的

RNN类似于语音识别模型HMM

RNN可以处理不同时长的数据

RNN 和 HMM的区别(如下图):

HMM 和 RNN箭头方向不同

HMM中隐藏层是onehot编码的,每个时刻只有一个位置是激活的,RNN不是onehot编码,每个位置都是激活的

在这里插入图片描述

此图是LSTM的5种不同的变形,不同的输入和输出可以完成不同的功能:

在这里插入图片描述

在这里插入图片描述

4.Bi-directional LSTM(双向)

模型结构:

在这里插入图片描述

5.RNN / LSTM / BI区别:

在这里插入图片描述

6. GRU (实际中使用更多)

只有2个门,LSTM有3个门, 效果同LSTM一样

7.Seq2Seq Model

在这里插入图片描述

流程:

中文经过lstm映射到中间的 Mean rector

英文经过lstm映射到中间的 Mean rector

只要中文英文对应的 Mean rector 相近, 代表翻译成功.

在这里插入图片描述

9.Attention(注意力机制)

1. Attention for Image Captaining

原来流程:

加了注意力机制后的流程:

说明:
Features: 注意力机制得到的多维向量(eg: 3 * 3 *10)的向量
z1 Z2是通过注意力机制和a1 a2 得到的

和没有注意力机制的流程区别是, 原来直接用CNN得到的多维向量,现在用的是注意力机制和a1 a2 得到的结果.

2.Attention for Machine Translation

在这里插入图片描述

3. Self-Attention

转载地址：http://hdhof.baihongyu.com/

你可能感兴趣的文章

机器学习算法应用中常用技巧-2

通过一个kaggle实例学习解决机器学习问题

决策树的python实现

Sklearn 快速入门

了解 Sklearn 的数据集

用ARIMA模型做需求预测

TensorFlow-11-策略网络

如何选择优化器 optimizer

一文了解强化学习

CART 分类与回归树

seq2seq 的 keras 实现

什么是 Dropout

用 LSTM 做时间序列预测的一个小例子

用 LSTM 来做一个分类小问题

按时间轴简述九大卷积神经网络

详解循环神经网络(Recurrent Neural Network)

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-05-19 08:53:32 当前IP: 3.22.51.241 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我