任务四：创建总的网络模型

从架构图中可以看出，模型主要分为三个部分：

图片特征提取器：用VGG16模型去提取图片特征，去掉VGG16模型的最后一层图片分类层，用最后预测出来的图片特征作为看图说话模型的图片输入。VGG16模型预测的结果是一个4096维的向量，我们用Dense层处理后生成256维特征表示。

文本序列处理器：首先用Embedding层将文字映射为对应的词向量，然后利用LSTM长短程记忆网络处理文本序列，生成最后的序列特征向量，维度为256。

序列解码器：我们将图片特征与文本特征进行相加合并，用Dense层进行处理后预测下一个单词。

【代码】

红线--表示与上一层连接

蓝线--vocab_size表示总的词汇数-

Embedding(a, b)--a是模型中词库的词汇总数，b是数据的维度

Dense（vocab_size）其实是输出的维度7579 ，此题中vocab_size=7579

vlambda博客
学习文章列表