描述性人工智能相机的构建

消耗积分:0 | 格式:zip | 大小:0.09 MB | 2023-07-06

分享资料个

描述

在这个项目中，我们将构建一个自动描述它观察到的内容的相机。将部署在 Jetson Nano 等边缘设备上运行的 AI 网络，以便它持续提供所获取帧的文本描述。为了保持实现简单，虽然可以将注意力等高级功能添加到网络中，但由于主脚本是相当模块化的，所以没有实现它们。

1 / 2

将实施混合深度神经网络，使用简单的 USB 摄像头和 Jetson Nano 实时提供每一帧的字幕。

项目设计阶段

该项目将分四期建设。在第一阶段，我们将在配备独立显卡的主机上设置和训练网络。第二阶段包括设置 Jetson Nano 和实现从相机到 HDMI 监视器的简单图像管道。第三阶段包括将图像字幕深度神经网络与第二阶段的图像流水线相结合。最后，在最后一个阶段，我们将在真实世界的设置下测试网络。

带有 USB 摄像头的 Jetson Nano 设置

硬件需要为 Jetson Nano 提供 2A 电源，因为从 USB 为其供电不足以在高性能模式下运行神经模型。为此，请确保将跳线安装在 Jetson Nano 的右侧。然后插入 USB 摄像头、带有最新图像的 SD 卡和以太网电缆。设置好硬件后，下一步就是设置先决条件框架。

主机设置

首先，我们将在主机笔记本电脑上定义和训练网络。该项目将使用 Tensorflow 2.01、Keras 2.1 和 OpenCV 4.1。先决条件是安装 Cuda10.0 和 Visual Studio Express 17.0 以利用 GPU 速度增益，以防笔记本电脑配备支持 NVIDIA 的 GPU。

我们将用于训练的数据集是 Flickr8K 图像数据集。这是一个相对较小的数据集，允许在笔记本电脑级 GPU 上训练完整的 AI 流水线。人们还可以使用更大的数据集，这将以更高的训练时间为代价获得更好的性能。数据集可以通过申请表从伊利诺伊大学下载。

下一个数据集是 Glove 数据集，它是一组从大型文本语料库构建的词嵌入。该数据集本质上充当了 AI 从中获取词汇的字典。标题文本清理完成后，下一步是加载 Glove 嵌入。嵌入是神经网络使用的单词编码。基本上单词被投影为高维空间中的向量，然后表示为向量。从这里下载数据集：

https://nlp.stanford.edu/projects/glove/

然后创建一个名为 /Captioning 的顶级目录，并在其中提取两个压缩文件。

1 / 2

另外创建一个名为 /data 的文件夹，用于保存训练阶段生成的文件。接下来我们将定义网络并训练网络。

神经网络训练

从高层次的角度来看，图像字幕深度学习网络由菊花链式连接在一起的深度 CNN (InceptionV3) 和 LSTM 循环神经网络组成。CNN 的输出是一个表示图像类别的 x 维向量。输出被发送到 LSTM，后者生成图像中对象的文本描述。LSTM 基本上接收 x 维向量流。在此基础上，它实时串接了对场景的描述。

可以在 Github 上找到训练网络的 Ipython 笔记本。主网络的设计基于 Jeff Heaton 的工作。它由一个 InceptionV3 CNN 和一个 LSTM 递归神经网络组成。

下一步是从 Flickr 字幕构建数据集，并通过标记化和预处理文本来清理所有描述。然后我们将 Flickr8K 数据集拆分为测试和训练图像数据集。然后我们加载训练数据集描述并训练网络。

如前所述，Inception 网络用作网络的第一阶段。最后一个全连接层被移除，因此从第一阶段 CNN 出来的数据是一个一维向量。Inception 只能接受分辨率为 299x299 像素的图像，因此必须对相机图像进行格式化。

inputs1 = Input(shape=(OUTPUT_DIM,))
fe1 = Dropout(0.5)(inputs1)
fe2 = Dense(256, activation='relu')(fe1)
inputs2 = Input(shape=(max_length,))
se1 = Embedding(vocab_size, embedding_dim, mask_zero=True)(inputs2)
se2 = Dropout(0.5)(se1)
se3 = LSTM(256)(se2)
decoder1 = add([fe2, se3])
decoder2 = Dense(256, activation='relu')(decoder1)
outputs = Dense(vocab_size, activation='softmax')(decoder2)
caption_model = Model(inputs=[inputs1, inputs2], outputs=outputs)

上面的代码片段显示了编辑后的 InceptionV3 CNN 与 LSTM 连接。这实现了编码器-解码器架构。

完成后，我们必须循环遍历训练和测试图像文件夹，并对每张图像进行预处理。

网络的最后一部分是循环长短期记忆神经网络。(LSTM) 简称。该网络获取序列并尝试预测序列中的下一个单词。这些类型的网络的工作由斯坦福大学的 A. Karpathy 完成，他指出它们对于此类任务来说是多么充分。

1 / 2

最后一步是训练网络。对于这个项目，最初使用了 6 个 epoch，损失最初为 2.6%。然而，为了获得可接受的结果，损失必须远小于 1，因此必须训练至少 10-15 个时期。

训练网络后，我们加载训练好的权重并在数据集的测试图像以及不属于原始数据集的图像上测试网络。

网络在这里将孩子描述为“站在草地上的人”

如果图像在风格和内容上与 Flickr9K 数据集中的图像非常相似，则描述相对准确。这也可以使用 OpenCV API 来完成。首先我们需要安装正确的版本。

安装OpenCV

OpenCv4.1 是从源代码编译的。这可能需要一段时间。要安装 4.1 版，我使用了以下脚本：

curl -L https://github.com/opencv/opencv/archive/4.1.1.zip -o opencv-4.1.1.zip
curl -L https://github.com/opencv/opencv_contrib/archive/4.1.1.zip -o opencv_contrib-4.1.1.zip
unzip opencv-4.1.1.zip
unzip opencv_contrib-4.1.1.zip
cd opencv-4.1.1/
echo "** Building..."
mkdir release
cd release/
cmake -D WITH_CUDA=ON -D ENABLE_PRECOMPILED_HEADERS=OFF  -D CUDA_ARCH_BIN="5.3" -D CUDA_ARCH_PTX="" -D WITH_GTK=OFF -D WITH_QT=ON -D OPENCV_EXTRA_MODULES_PATH=../../opencv_contrib-4.1.1/modules -D WITH_GSTREAMER=ON -D WITH_LIBV4L=ON -D BUILD_opencv_python2=ON -D BUILD_opencv_python3=ON -D BUILD_TESTS=OFF -D BUILD_PERF_TESTS=OFF -D BUILD_EXAMPLES=OFF -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_INSTALL_PREFIX=/usr/local ..
make -j3
sudo make install

请注意，GTK 已关闭，以避免在使用默认设置编译时发现的库出现问题。

安装 OpenCV 后，使用下面附带的文件 test_openCV.py 测试程序。USB 摄像头在 /dev 下显示为 /video0。

捕获帧后，可以使用以下函数将文本覆盖在每个帧的顶部：

def __draw_label(img, text, pos, bg_color):
  font_face = cv2.FONT_HERSHEY_TRIPLEX
  scale = 1
  color = (255, 255, 255)
  thickness = cv2.FILLED
  margin = 5
  txt_size = cv2.getTextSize(text, font_face, scale, thickness)
  end_x = pos[0] + txt_size[0][0] + margin
  end_y = pos[1] - txt_size[0][1] - margin
  cv2.rectangle(img, pos, (end_x, end_y), bg_color, thickness)
  cv2.putText(img, text, pos, font_face, scale, color, 2, cv2.LINE_AA)

下图显示了从相机捕获的帧，日期覆盖在帧的顶部。

所有通过 OpenCv API 从相机拍摄的图像都是 numpy 数组。因此，数组必须转换为图像，调整大小以匹配 InceptionV3 CNN 要求，然后再转换回图像并进一步预处理。使用具有多个可编程分辨率的相机可以避免这种情况。

与最新的 RTX 类 GPU 相比，Jetson Nano 没有特别强大的 GPU，因此，训练网络绝对应该在主机笔记本电脑上完成。

计算能力 5.3

。

网络需要 2-3 分钟来加载，因为它读取并解析所有编码。然后它读取图像帧并将其通过网络传递。推理发生得非常快。

网络最初会根据内存不足发出一些警告。请记住，它没有使用 TensorRT 进行优化，因此可以通过这样做并用更好的 CNN（例如 Xception）替换 InceptionV3 来进一步提高速度。

系统应用

实施此类系统的主要途径是沿海监控、公园安全监控以及任何此类场景，其中自动监控可用于对挽救生命和确保环境安全产生积极影响的应用。

进一步改进

下一步是将 Tensorflow 模式转换为 NVIDIA 的 TensorRT，以获得额外的加速。

由于这是一个模块化系统，网络的输出可以传递给通知系统，每当图像描述中出现感兴趣的词时，通知系统就会发送一封电子邮件。

进一步的发展是将其与对话式人工智能系统相结合，以构建一个“询问和描述”系统。

结论

可以看出，网络仅在图像内容与训练图像相似的情况下表现良好。

为了改进描述，需要使用更大的文本语料库以及更大的注释数据集。虽然 Flickr30K 的大小几乎是当前数据集的 4 倍，但如果使用 MSCoCO 数据集，可以获得更好的结果。问题是您需要强大的 GPU 或使用云。

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

继电保护原理
2024-08-21 35次下载

下载
正激、反激、推挽、全桥、半桥区别和特点
2024-08-27 26次下载

下载
labview实现DBC在界面加载配置
2024-08-19 21次下载

下载
在设计中使用MOSFET瞬态热阻抗曲线
2024-08-28 15次下载

下载
GBT 4706.1-2024家用和类似用途电器的安全第1部分:通用要求
2024-08-31 12次下载

下载
PCB layout设计规范
2024-08-13 9次下载

下载

描述性人工智能相机的构建

描述

项目设计阶段

主机设置

神经网络训练

。

系统应用

进一步改进

结论

人工智能概述

2023年人工智能产业概况及应用趋势分析

人工智能是干嘛的 人工智能在金融行业的应用

什么是人工智能 人工智能应用领域

人工智能用水监测系统的构建

人工智能专题报告:生成式人工智能产业全梳理

构建一个具有人工智能的农业监测系统

《人工智能标准化白皮书》2018版

基于人工智能驱动的关键信息基础设施防御

神经形态视觉传感器在人工智能的应用综述

人工智能技术带给旅游业的五大发展趋势

人工智能-BP神经网络算法的简单实现

人工智能赋能的查询处理与优化技术

人工智能芯片技术白皮书

人工智能的伦理智能体应用及相关研究

探索人工智能恐惧现象

人工智能AI的基础知识讲解

人工智能的现状是怎么样的未来应该如何发展

如何理解和学习人工智能

人工智能控制技术的发展与研究现状

人工智能到底是什么？什么工作需要学习人工智能

人工智能的未来到底是怎么样的

如何使用人工智能进行智能家居生态系统设计的研究分析

为什么Python是人工智能最好的编程语言Python有什么优势

人工智能及其产业发展如何？人工智能标准化白皮书（2018版）免费下载

人工智能行业发展状况如何？人工智能行业研究报告详细资料免费下载

人工智能深度学习处理架构的演进GPU功耗和延迟问题如何解决

电子书 中美人工智能行业生态比较

人工智能聊天机器人和人工智能界面的介绍及其区分方法

图灵与人工智能到阿尔法狗与人工智能

NLP技术在人工智能领域的重要性

如何使用PyTorch构建更高效的人工智能

人工智能的第一性原理是什么？

人工智能要学什么语言

什么是人工智能课程

为什么要发展人工智能

人工智能属于什么领域

人工智能需要哪些专业

人工智能证书有哪些

人工智能怎么自学

什么是人工智能 人工智能应用

什么是攻击性人工智能以及如何防御?

Meta是如何构建新人工智能CICERO的？

用于人工智能 (AI) 边缘应用的立方体相机

人工智能更高认知的知识构建的数个维度

人工智能挑战人类创造性 弱人工智能走向强人工智能

人工智能的知识点科普

如何降低人工智能的复杂性

如何实现可解释的人工智能?

人工智能冲刺是一项短期的概念验证性人工智能项目

如何正确购买人工智能产品？

普及“人工智能是什么”任重道远

人工智能的高效性引领传统营销的改革

人工智能可以解决家庭能源效率的问题吗

腾讯与英特尔合作开发人工智能增强型相机

详细分析人工智能犯罪的理论与立法问题

保护人类才是人工智能的终极奥义

人工智能的发展形势的严峻性

人工智能相机亮相VisionCon 2018东莞站

Airdoc人工智能助力基层医疗 人工智能社区慢病筛查

下载排行榜

继电保护原理

正激、反激、推挽、全桥、半桥区别和特点

labview实现DBC在界面加载配置

在设计中使用MOSFET瞬态热阻抗曲线

GBT 4706.1-2024家用和类似用途电器的安全第1部分:通用要求

PCB layout设计规范

人工智能是干嘛的人工智能在金融行业的应用

什么是人工智能人工智能应用领域

电子书中美人工智能行业生态比较

什么是人工智能人工智能应用

人工智能挑战人类创造性弱人工智能走向强人工智能

Airdoc人工智能助力基层医疗人工智能社区慢病筛查