推荐 4 个最近 牛逼哄哄 的开源项目
01
本地 OCR 开源神器
Zerox 是一个基于 GPT-4o-mini 的零样本 OCR 项目,旨在将 PDF、图像等文件转换为 Markdown 格式。该项目通过将文件页面转化为图像,然后利用视觉模型进行 OCR 处理,并生成结构化的文本。
它支持多种文件格式,并提供 Python 和 Node.js SDK。Zerox 可以用于文档格式复杂、包含表格和图表的场景。其主要特点包括支持并发处理、多模型兼容性及格式保持功能。
开源地址:https://github.com/getomni-ai/zerox
02
Microsoft Edge 的在线文字转语音服务
edge-tts 是一个 Python 模块,允许用户通过 Python 代码使用 Microsoft Edge 的在线文字转语音服务,而不需要 Microsoft Edge、Windows 或 API 密钥。
用户可以通过命令行或代码生成并播放语音文件,并且支持更改语音、语速、音量和音调。该模块非常适合文本转语音(TTS)的应用场景,特别是在不依赖特定操作系统的情况下使用 Microsoft 的语音合成功能。
开源地址:https://github.com/rany2/edge-tts
03
具有记忆、知识、推理能力的 AI 代理系统
Phidata 是一个框架,用于构建具有记忆、知识、工具和推理能力的 AI 代理系统。通过该框架,你可以创建智能代理并将其作为应用程序运行,同时监控和优化系统。
Phidata 支持构建各类代理,如网页搜索、金融数据查询等,还可以组合多个代理形成团队。该项目还提供推理代理、基于知识数据库的代理(RAG代理)等功能。用户可以通过 UI 与这些代理进行交互,并支持本地存储和监控。
开源地址:https://github.com/phidatahq/phidata
04
OpenAI 开源的智能体框架
Swarm 是一个由 OpenAI 提供的实验性框架,专注于轻量化、模块化和易于测试的多智能体系统协调。开源两周,目前已经获得了 14.3k 的 Star!
主要应用场景有:基本功能调用示例、基于气象信息的智能体、客户服务场景中的智能体分配,以及个性化购物助手等
开源地址:https://github.com/openai/swarm
这个框架的主要目标是通过探讨多智能体之间的切换和协作模式,帮助开发者在教育和实验性项目中更好地理解如何编排和管理多个智能体的工作。