Google浏览器插件图片识别能力与OCR技术评估
时间:2025-07-20
来源:谷歌浏览器官网
1. 文字识别类插件:部分Chrome插件能够识别网页图片中的文字。例如Project Naptha,它可以识别网页图片里面的文字,并将其转为可复制、提取或翻译为纯文字内容的chrome插件。还有一键读图(OCR),能以多种方式轻松识别网页中图片、PDF上的文字,还支持截图框选识别指定区域中的文字。
2. 借助浏览器原生API:Chrome浏览器中集成了Shape Detection API,可用于识别照片和图像中的可识别特征,如人脸、二维码或文本等。不过,由于图像识别需要系统层面的资源与计算能力,因此只有原生的底层API能够驾驭得住。
3. 利用外部API的插件:开发者可以通过调用Google Vision API等外部强大的图像识别和分类功能来实现对网页图像内容的识别。例如,可以基于Ionic框架构建JavaScript Web应用,调用Google Vision API实现图片识别。
