vlambda博客
学习文章列表

任务四: 创建总的网络模型


从架构图中可以看出,模型主要分为三个部分:


图片特征提取器:用VGG16模型去提取图片特征,去掉VGG16模型的最后一层图片分类层,用最后预测出来的图片特征作为看图说话模型的图片输入。VGG16模型预测的结果是一个4096维的向量,我们用Dense层处理后生成256维特征表示。

文本序列处理器:首先用Embedding层将文字映射为对应的词向量,然后利用LSTM长短程记忆网络处理文本序列,生成最后的序列特征向量,维度为256。

序列解码器:我们将图片特征与文本特征进行相加合并,用Dense层进行处理后预测下一个单词。




【代码】


红线--表示与上一层连接


蓝线--vocab_size表示总的词汇数-

Embedding(a, b)--a是模型中词库的词汇总数 ,b是数据的维度

Dense(vocab_size)其实是输出的维度7579 ,此题中vocab_size=7579