任务四: 创建总的网络模型
从架构图中可以看出,模型主要分为三个部分:
图片特征提取器:用VGG16模型去提取图片特征,去掉VGG16模型的最后一层图片分类层,用最后预测出来的图片特征作为看图说话模型的图片输入。VGG16模型预测的结果是一个4096维的向量,我们用Dense层处理后生成256维特征表示。
文本序列处理器:首先用Embedding层将文字映射为对应的词向量,然后利用LSTM长短程记忆网络处理文本序列,生成最后的序列特征向量,维度为256。
序列解码器:我们将图片特征与文本特征进行相加合并,用Dense层进行处理后预测下一个单词。
【代码】
红线--表示与上一层连接
蓝线--vocab_size表示总的词汇数-
Embedding(a, b)--a是模型中词库的词汇总数 ,b是数据的维度
Dense(vocab_size)其实是输出的维度7579 ,此题中vocab_size=7579