Showing content from https://github.com/GitHubDaily/GitHubDaily below:
GitHubDaily/GitHubDaily: 坚持分享 GitHub 上高质量、有趣实用的开源技术教程、开发者工具、编程网站、技术资讯。A list cool, interesting projects of GitHub.
Shortest 一款利用 Claude 模型能力的端到端 AI 测试框架,通过自然语言编写可执行的单元测试,支持 GitHub 与 2FA 集成,提供安全认证方式。 STranslate 一款开箱即用的翻译和 OCR 工具,支持多种翻译方式、多家翻译服务、离线 OCR、回译、TTS 等功能,提升翻译效率。 x-kit 一款用于抓取和分析 Twitter 推友数据的工具,可自动抓取指定推友的基本信息和推文,支持定时更新时间线数据和本地存储。 MMAudio 一款视频自动配音工具,可根据视频内容或文本提示生成符合场景的音效,并与视频画面动作保持同步对齐。 Hoarder 一款自托管的书签管理 AI 工具,支持保存链接、笔记、图片和 PDF 文件,利用 AI 自动打标签分类存储,提供全文搜索能力。 Midscene.js 一款由 AI 驱动的 UI 自动化 SDK,通过自然语言描述对任意网页进行自动化操作、验证和数据提取,生成可视化测试报告,支持多种主流 AI 模型和自动化库集成。 Browser Use 一款开源工具,能让 AI 智能体自动化操作浏览器,像真人一样理解网页内容并完成复杂任务,如投递简历、查询航班等,具备视觉识别、HTML 解析、多标签页管理等功能。 Video Ocean 一款基于 Colossal - AI 优化的 Sora 视频模型的免费视频生成平台,提供极低成本、快速的视频生成服务,并将优化方案开源。 LogoCreator 一款开源的 AI Logo 生成器,使用 Flux Pro 1 . 1 模型快速生成 Logo 图标,支持编辑样式,代码完全开源并提供免费体验。 MarkltDown 一款由微软开源的工具,可将常见文件如 Word、Excel、PPT 等转换为 Markdown 格式,支持 OCR 和 AI 模型处理多媒体文件,提供命令行、Python API 和 Docker 三种使用方式。 PDFMathTranslate 一款开源的 PDF 文档翻译及双语对照工具,能够很好地保留公式、图表、目录和注释等排版,支持多种语言和翻译服务,可通过命令行、GUI 界面、Docker 等方式使用。 Gemini-Teacher 一款基于 Gemini 2 . 0 开发的英语口语练习 AI 助手,能实时识别发音并提供反馈和纠正建议,适合英语口语学习和教学。 XHS Note Generator 一款小红书笔记 AI 生成器,支持快速批量将视频或直播内容一键转换为符合小红书风格的爆款笔记,自动优化内容和配图。 ScreenPipe 一款强大的开源 AI 桌面应用,可 24 小时监控电脑,通过屏幕录制、OCR、音频输入和转录收集信息,保存到本地数据库,利用 LLM 对话、总结和回顾你所做的事情。 RMBG-2.0 一款高效的背景移除工具,支持处理各种图像,一键移除背景,效果出色且处理速度快,适用于电商、广告等场景。 Comfyui_Object_Migration 一套基于 ComfyUI 的服装迁移工作流,可将服装照片自然真实地迁移到模特身上,支持虚拟试穿和风格迁移(如动漫转现实风格),还原度较高。 NSFW Detector 一款开源免费的 NSFW 内容检测器,使用 Google 模型,准确度高,支持检测图片、PDF 文件、视频、压缩包等多种文件类型,支持纯 CPU 推理,提供 API 服务便于集成。 VideoCaptioner 一款功能强大的视频字幕翻译助手,提供可视化操作界面,支持字幕智能断句、校正、优化、翻译,一键生成双字幕视频。 MagicQuill 一款开源的 AI 互动式图像编辑工具,用户只需通过画笔涂抹和简单提示词,即可轻松实现插入元素、擦除物体、调整颜色等各种图像编辑操作。 Voice-Pro 一款集转录、翻译和文字转语音为一体的开源工具,提供简洁直观的可视化操作界面,支持实时转录和翻译,以及批量处理模式。 AdvancedLivePortrait-WebUI 一款基于 Gradio 开发的开源工具,能够对图像中的人物进行实时面部表情精确控制,如微笑、眨眼、摇头等,支持多种部署方式使用。 pdf-extract-api 一款基于 FastAPI 的 PDF 文档提取和解析工具,利用 OCR 技术和 Ollama 模型将 PDF 或图像转换为 Markdown 文本或 JSON 文档,支持表格、公式等格式解析,使用 Redis 缓存提高效率。 Cerebellum 一款基于智能体的浏览器自动化工具,通过使用 LLM 构建的智能体实现自动化操作键盘和鼠标,在网页上完成数据抓取、自动化测试等任务。 PromptFix 一款基于提示的 AI 图像修复工具,能够根据输入的提示对图像进行上色、移除物体、去除水印、高清化、调整光线等操作。 Maxun 一款开源的自动化网页数据爬取工具,无需编写代码,通过可视化界面构建自定义机器人实现网页数据捕获、提取和处理等功能。 AI Podcast Generator 一款开源的自动化 AI 播客生成工具,能够自动抓取网络新闻内容,并生成自然流畅的叙述性音频播客,提供简单易用的界面。 MegaParse 一款基于大型语言模型构建的功能强大的文档解析开源工具,可以轻松处理 PDF、PPT、Word、Excel 等常见格式,保证解析过程中不丢失任何信息,还能准确识别文档中的表格、目录、页眉页脚和图片等内容,解析速度快,效率高。 SoniTranslate 一款基于 Gradio 构建的简单易用的视频翻译工具,支持将视频一键翻译成多种语言,并提供视频同声翻译功能。 EveryoneNobel 一款开源的 AI 工具,可用于生成个性化诺贝尔奖项图片,利用 ComfyUI 进行图像生成,并结合 HTML 模板展示图片上的文本,只需提供个人肖像图即可生成诺贝尔奖项风格图像。 PodCastLM 一款开源免费的工具,可以将 PDF 内容转化为适合音频播客的自然对话,并输出为 MP3 文件。 Agent.exe 一款开源的 AI 自主操作计脑工具,利用 Claude 3 . 5 Sonnet 直接控制本地电脑,展示了 Claude 的 Computer Use 能力,可用于自动化智能体开发。 Zerox 一款简单易用的 OCR 文档工具,支持 PDF、Docx、图像等文件格式,可将文件转换为图像后利用 gpt - 4o - mini 模型识别图像信息并输出 Markdown 格式文件。 UVR5-UI 一款功能强大的人声伴奏分离 AI 工具,提供在线简洁易用的操作界面,支持选择不同的 AI 模型以及输出格式和质量,支持批量处理。 Virtual Try-On Application 一款基于 WhatsApp API 和 IDM - VTON 虚拟试穿模型的 AI 应用,用户只需在 WhatsApp 上传个人照片和服装照片,即可生成虚拟试穿效果图,提供便捷的虚拟试衣体验。 Claude Financial Data Analyst 一款由 Anthropic 开源的基于 Next . js 和 Claude AI 构建的金融数据分析助手,支持多种格式文件上传,通过聊天界面进行财务数据分析并生成可视化图表。 Tabled 一款基于 Surya 开发的 OCR 小工具,能够识别 PDF、图像、Word 和 PPT 等文件中的表格,并将表格内容提取转换为 Markdown、CSV 或 HTML 格式。 Surya 一款开源且强大的文档 OCR 工具,专注于文档图像的处理和分析,能够准确进行逐行文本检测和识别,支持 90 多种语言。 Animate-X 一款基于 AI 的动画生成工具,可以通过输入角色图片和参考动作视频,自动生成角色按照指定动作移动的动画效果,支持真人、游戏、卡通等多种类型的角色,保持角色一致性并允许大幅度动作。 AsrTools 一款开源的智能语音转字幕文本工具,集成了多家公司的语音识别接口,支持多种音频格式,提供批量处理和生成字幕文件功能,界面简单易用。 Podcastfy 一款开源工具,可将视频、PDF、论文、网站和文章等内容转换为对话式的播客音频。 gptme 一款功能强大的开源终端 AI 助手,支持在终端执行本地代码、读写文件、搜索浏览网页和进行视觉识别等操作,可连接 OpenAI、Anthropic、OpenRouter 等主流 LLM 提供商,也可使用 llama . cpp 在本地提供服务。 FinRL 一个开源的量化金融自动交易框架,包含市场环境、智能体和应用三层架构,提供先进算法核心支持连续交易决策。支持投资组合分配、加密货币交易、高频交易等金融任务和实时交易功能。 Youtube-Whisper 一款利用 OpenAI Whisper 模型实现音频转文本的轻量级开源免费工具,可输入 YouTube 视频链接提取音频并转换为文本,支持多种语言。 ebook2audiobookXTTS 一款开源的 AI 工具,利用 Calibre 和 Coqui TTS 将电子书转换为高质量的有声读物,支持多种语言和语音克隆功能。 Text Behind Image 一款简单有趣的开源免费工具,可以轻松将文本添加到图像中指定对象的背后,如动物、人物或物品等,并支持保存到本地。 Compiler Explorer 一款在线交互式编程语言编译器探索工具,支持超过 30 种语言如 C、C ++、Rust、Go 等,可在浏览器中实时编辑代码并查看编译后的汇编代码输出,提供多种编辑器、工具和可视化选项。 Local File Organizer 一款基于 AI 的本地文件整理器,可以自动扫描指定目录中的文件,理解文件内容并生成相关描述、文件夹名称和文件名,将文件整理到新的目录结构中。 OpenScanner 一款快速、易用且开源免费的文档扫描工具,具有自动文本识别、文档命名、地理位置标记、签名添加、Vision Pro 支持等功能,可保存、编辑、注释和分享扫描文档。 Diffusers Image Outpaint 一款在线 AI 扩图工具,可以免费使用,只需上传图片并选择扩展比例,即可一键完成图像扩展。 GOT-OCR2.0 一款端到端的开源 OCR 模型,被称为 OCR 2 . 0,支持识别场景文本、文档、乐谱、图表、数学公式等多种内容,在 BLEU 评测中取得 0 . 972 的高分,模型体积仅 1 . 43GB。 Python Tutor 除了 Python 外,还支持 Java、C、C ++和 JavaScript 等编程语言。 Fish Speech 一款开源的多语言 TTS 模型,使用 70 万小时数据训练,支持英语、中文、韩语、日语、法语、德语、阿拉伯语和西班牙语 8 种语言。具有快速语音合成、低延迟、声音丰富、混合语言和语音克隆等特点。 wcf.js 一款强大、快速、开源的微信机器人底层框架,提供消息监听、发送和群聊操作的一站式解决方案,内置强大易用的 Agent 库和开发者工具包,具有高效稳定的处理能力和自由控制发消息频率的功能。 markmap 一款开源免费的工具,可以将 Markdown 文档内容转换为直观可视化的思维导图,支持图像、链接、代码块、内联样式和数学公式等格式内容。 Video2x 一款开源免费的无损放大视频和图像工具,使用多种先进的超分辨率算法如 waifu2x、Anime4K、SRMD 和 RealSR 等实现视频/ GIF /图像的无损放大和提高帧速率。 PptxGenJS 一款基于 JavaScript 的开源库,可用于生成 PPT 演示文稿,支持添加图表、表格、图像、视频等多种元素,生成的文件与 PowerPoint 等应用兼容,并提供 HTML 转 PPT 功能。 DataEase 一款功能强大的开源数据可视化分析工具,可作为 Tableau 的替代品,提供丰富美观的图表展示、制作和数据引擎等功能,支持多种数据链接、拖拽式图表制作和与他人分享,并具备 AI 辅助分析和模板市场等创新功能。 MoneyPrinterPlus 一款开源免费的全自动化 AI 视频剪辑工具,借助 AI 技术一键生成和批量混剪各类短视频,支持自动发布到视频平台,助力变现。 Melty 一款专为 10x 工程师打造的开源 AI 代码编辑器,能够与开发者的整个开发流程集成,理解从终端到 GitHub 的操作,协助高效编写和重构代码,支持多文件大规模更改。 Easy Voice Toolkit 一套功能丰富的开源 AI 语音工具箱,包括音频处理、语音识别、语音转录、数据集制作和语音合成等,形成完整语音模型训练工作流。 ChartDB 一款基于 Web 的功能强大的数据库图表编辑器,支持多种数据库如 PostgreSQL、MySQL、SQL Server 等,提供基于 AI 的导出功能生成 DDL 脚本方便数据库迁移,可在线使用或本地部署。 FireCrawl 一款开源且强大的 Web 爬虫工具,可爬取任何网站内容并转换为 Markdown 或结构化数据,为大语言模型训练、检索增强生成(RAG)提供数据。 MaxKB 支持多种大语言模型对接,内置工作流引擎编排 AI 过程,可无缝嵌入第三方系统,在短时间内获得 9000 +星。 HivisionIDPhoto 一款轻量级的 AI 证件照制作工具,可识别多种用户拍照场景,实现抠图和生成标准尺寸的证件照。 VideoLingo 一款全自动视频翻译的 AI 工具,能够一键对视频进行字幕切割、翻译、精准对齐和个性化配音,生成高质量的字幕和配音。 Cursor 一款智能代码编辑神器,提供代码补全、错误修复等功能,支持多种编程语言。该项目收集了各语言的最佳配置提示词和使用教程。 NarratoAI 一款一站式自动化影视解说的 AI 视频剪辑工具,基于 LLM 实现文案撰写、自动化视频剪辑、配音和字幕生成,是影视解说剪辑神器,可高效创作内容。 voicechat2 一款响应快速且完全本地化的 AI 语音聊天工具,使用 WebSockets 实现低延迟语音交互并允许远程访问,可本地运行语音识别、文本转语音和大语言模型,在 4090 显卡上延迟低至 300 毫秒。 CyberScraper 2077 一款基于 OpenAI 大语言模型的强大网络爬虫工具,能够智能理解和解析网页内容,提供简单易用的可视化界面,无需编程知识即可操作使用。 awesome-digital-human-live2d 一个开源项目,旨在打造一个有温度的数字人,支持 Docker 快速部署、Dify 服务接入、ASR、LLM、TTS、Agent 模块化扩展、Live2d 人物模型扩展和控制、PC 端和移动端 Web 访问。 LLM-Aided OCR 一款基于大语言模型(LLM)的开源 OCR 扫描 PDF 工具,可将原始 OCR 扫描 PDF 文本转换成高准确度、格式正确且易于阅读的 Markdown 文档。 Product Hunt Daily Hot 一款基于 GitHub Action 的自动化工具,每天定时爬取并生成 Product Hunt 热门产品榜单的 Markdown 文件,使用 GPT - 4 模型翻译产品描述,帮助快速查看每日热门榜单。 moffee 一款开源免费的 PPT 制作工具,能够将 Markdown 文档一键转换为干净、专业的幻灯片,提供 web 界面实时预览效果。 Linly-Dubbing 一款开源且强大的视频多语言 AI 配音/翻译工具,能自动下载视频、翻译字幕、人声分离、克隆音色配音并合成视频。 Transformer Explainer 一个可视化交互式学习工具,以 GPT - 2 为例,通过输入文本实时观察 Transformer 各组件(嵌入层、自注意力机制、MLP 等)的工作过程和预测下一个 Token,适合教学和理解 Transformer 内部原理。 AI Scientist 一款全球首个自动化科学研究 AI 系统,能够从构思、编写代码、进行实验、总结结果到撰写完整论文和进行同行评审的全过程,支持多种主流大语言模型。 Clapper 一款集成多种 AI 功能的开源视频剪辑工具,可一键生成图像、视频、语音、音乐等素材,并进行二次剪辑,让用户无需专业技能即可通过互动迭代的方式制作视频。 ai-renamer 一款基于 Node . js 的命令行工具,可根据文件内容自动批量重命名本地文件、图像或视频,默认使用 Ollama 本地模型如 Gemma、Llama 等进行智能识别。 metahuman-stream 一个开源项目,实现实时交互流式数字人,支持音视频同步对话,具有多种功能如数字人模型选择、声音克隆、对话被打断处理、全身视频拼接、推流、视频编排和大语言模型对话等,基本可达到商用效果。 PPTX2MD 一个开源免费的工具,能够将 PPT 幻灯片转换为 Markdown 文件,支持保留标题、列表、粗体、斜体、颜色、超链接、图片、表格以及合并单元格等 PPT 内容格式。 Fake Screenshot Generator 一款可直接在线免费使用的字幕截图生成器工具,可生成逼真的带字幕的截图。 MinerU 一款一站式、开源、高质量的数据提取工具,能够将 PDF、网页以及多格式电子书转换为 Markdown 格式,提取图像、表格并转换公式为 LaTex,支持多种语言识别。 Llama Tutor 一款开源免费的 AI 个人导师工具,基于 Next . js 和 Tailwind CSS 构建,集成 Llama 3 . 1 和 Serper 提供强大的推理和搜索能力,可根据用户选择的教育水平生成个性化导师解答各种问题。 bilingual_book_maker 一款利用大语言模型(如 ChatGPT、Claude 等)对文件和图书进行多语言翻译的开源工具,支持 epub、txt 和 srt 等格式。 Claude Engineer 一款基于 Claude 3 . 5 模型的交互式命令行工具,整合了文件系统操作、网络搜索等功能,可协助完成各种软件开发任务,如智能代码分析、修改建议、项目管理等。 AudioNotes 一款开源免费的音视频转结构化笔记工具,基于 FunASR 和 Qwen2 构建,可快速提取音视频内容,并利用大模型能力整理成结构化 Markdown 笔记,方便快速阅读。 Swapy 一个简单的 JavaScript 开源工具,只需几行代码就可以将网页上任何布局转换为可拖动交换布局,适用于 React、Vue 等主流前端框架。 Kspider 一款开源免费的可视化爬虫平台,通过流程图配置即可完成数据爬取工作,无需编写代码,对小白极其友好。 AI Shell 一款开源的终端 AI 助手,可在命令行界面通过自然语言转换为对应的 Shell 命令执行,支持多种语言输入,提高终端操作效率。 Crawlee 一款开源免费且非常强大的 Python 网页抓取和浏览器自动化库,旨在构建可靠的爬虫为 AI、大语言模型、检索增强生成或 GPTs 提取数据。 Enchanted 一款开源的本地大模型 Mac 客户端,类似于 ChatGPT 客户端,需搭配 Ollama 使用,可轻松连接本地部署的私有模型,如 Llama2、Mistral 以及 Vicuna 等,提供在 iOS 生态系统中无过滤、安全、私密和多模态的使用体验。 Whisper Timestamped 一款基于 Transformers . js 的浏览器内语音识别工具,可本地运行 whisper - base 模型进行语音转文字,支持 100 种语言并生成单词级时间戳。 Vanna 一款 SQL 生成 AI 框架,允许在自有数据上训练 RAG 模型,通过自然语言准确生成 SQL 查询语句,支持多种主流大模型,使用简单,开源可自行部署。 Great Tables 一款用于制作高质量表格的 Python 库,内置丰富的表格组件和格式化选项,可以组合创建多种类型的精美表格。 Comic Translate 一款利用 GPT - 4 视觉能力的开源漫画自动翻译神器,支持多种格式如图像、PDF、Epub 等,可实现多种语言之间互译,包括日语、英语、中文、韩语、德语、荷兰语等,并提供可视化操作界面。 CodeGeeX 一款功能全面的国产开源代码模型,集成代码补全、生成、问答、解释、工具调用、联网搜索等多种能力,覆盖编程开发各种场景,在百亿参数以下性能最强。同时也提供 CodeGeeX 智能编程助手插件。 遇见李白 一个开源项目,旨在通过构建李白知识图谱的 AI 智能体,以生成式对话应用的形式推广和普及李白古诗词文化,最终目标是开发一款生成式对话应用,实现实时互动并提供个性化的李白诗歌鉴赏体验。 WebDesignAgent 一款基于人工智能的网站构建工具,支持多页面管理、用户自定义添加/删除、迭代优化和视觉优化等功能,可通过文本、图片、视觉线索或混合方式生成设计精美的网站。 AI-YinMei 一款功能齐全的 AI 虚拟主播(Vtuber)工具,集成了 FastGPT 知识库聊天、语音合成、Stable Diffusion 绘画、AI 唱歌等技术,可实现聊天、唱歌、绘画、跳舞、表情切换、换装、搜图、场景切换等多种功能。 OmniParse 一款开源工具,能够将各种非结构化数据如文档、表格、图像、视频、音频和网页转化为结构化的可操作数据,方便用于检索增强生成(RAG)和微调。 gptpdf 一款基于 GPT - 4o 视觉大语言模型的开源工具,仅用 293 行代码就能将 PDF 文件解析为 Markdown 格式,几乎完美地解析排版、数学公式、表格、图片和图表等内容。 Streamer-Sales 一款能够根据商品特点进行解说的卖货主播大模型,通过生成细腻、独到的解说词,激发用户购买欲望,提供多种功能如文案生成、语音转换、视频生成等,旨在成为销售助手,提升销量和用户体验。 Wiseflow 一款敏捷的信息挖掘开源免费工具,可从网站、公众号、社交平台等渠道爬取相关信息,擅长从公众号文章中提取信息。支持对爬取信息进行筛选、提炼、贴标签等处理,并可整合到任意 Agent 项目中作为动态知识库。可完全本地部署,无需 GPU,适合任何硬件环境。 GPT Computer Assistant 一款开源的 GPT 客户端应用程序,旨在为 Windows 和 Linux 系统提供类似 macOS 上 GPT 应用的功能,包括屏幕读取、麦克风长音频输入、编写和运行程序以及知识库管理等。 Diffutoon 一款开源的视频动漫化项目,提供 Colab 运行笔记,无需部署即可一键动漫化视频,转换后的视频画面稳定流畅,还可编辑和添加视频效果。 RTranslator 一款开源免费、可离线的实时翻译应用,能够实时将对方说的语言翻译成你能听懂的语言,支持对话模式、对讲模式和文本翻译模式,使用 Meta 的 NLLB 和 OpenAI 的 Whisper 进行翻译和语音识别。 AI Math Notes 一款基于 Python 开发的交互式绘图应用程序,允许用户在画布上手写数学方程,利用多模态大语言模型(LLM)计算并显示结果,实现了类似苹果"备忘录数学计算器"的功能。 Whisper Web 一款基于 OpenAI 的 Whisper 语音识别模型的开源 Web 应用程序,允许直接在浏览器中运行使用 Whisper 进行语音转文本,支持 WebGPU 加速,无需后端服务器,可导出 TXT 和 JSON 格式文件。 GPT Academic 一款功能强大的 GPT 学术优化开源项目,提供论文翻译、代码解析、知识获取、语法校对、论文润色、摘要生成等多种功能,支持接入多种 LLM 模型,提升学术研究效率。 Translation Agent 一套由吴恩达老师开源的 AI 翻译工作流程,基于大语言模型进行翻译、反思和优化,可控制语气、地区和术语翻译一致性,翻译质量媲美商业工具。 ScrapeGraphAI 一款基于大语言模型和直接图逻辑的 AI 网页爬虫工具,可以根据用户提示自动为网站和本地文档创建爬取管道,支持单页、多页和语音爬取,提高数据采集效率。 MiGPT 一个开源项目,旨在将小米小爱音箱打造成专属的 AI 语音助手,将小爱音箱和米家智能设备与 ChatGPT 等大模型的理解能力完美融合,提供 LLM 回答、角色扮演、流式响应、长短期记忆、自定义 TTS 和智能家居 Agent 等功能。 pyVideoTrans 一款开源的视频翻译配音工具,可将一种语言的视频自动翻译为指定语言的视频,生成字幕和配音,支持多种翻译服务和配音引擎,可本地离线使用。 cloudflare-ai-web 一个开源项目,利用 Cloudflare Workers AI 免费提供的大模型,可快速搭建多模态 AI 平台,支持一键部署、无需服务器、个性化定制等,集成了 ChatGPT、Stable Diffusion 等多种 AI 模型。 ChatTTS-ui 一款开箱即用的 ChatTTS 安装包,提供 Web 界面和 API 接口,支持 Windows、Linux、macOS 部署,Windows 用户可直接下载安装包一键安装使用。 Perplexica 一款由 AI 驱动的开源搜索工具,能够深入互联网提供精准答案,理解问题并优化搜索结果,提供带引用来源的明确答案。具有隐私保护、本地大语言模型支持、双模式搜索和专注模式等特征。 RAGapp 一款无需编码的可视化界面工具,用于配置基于 LlamaIndex 构建的 RAG 聊天机器人,类似于 OpenAI 的 GPT 模型,可轻松部署在自有云基础设施中。 MusicGPT 一款开源免费的 AI 音乐生成器,支持在 Windows、macOS 和 Linux 系统上本地高效运行最新音乐生成 AI 模型,如 Meta 的 MusicGen 模型,无需安装依赖,易于使用。 Khoj 一款融合本地文档和在线搜索的 AI 第二大脑工具,可连接个人知识库、提供强大搜索引擎、支持在线离线使用,并提供定制 AI 智能代理协助完成任务,完全开源免费。 Talk With Gemini 一款可一键免费部署的私人 Gemini 应用程序,支持最新的 Gemini 模型,如 Gemini 1 . 5 Pro、Gemini 1 . 5 Flash 等,具有多模态支持、语音模式、视觉识别、助理市场、Markdown 支持、上下文压缩、隐私安全、精心设计的 UI 等特性。 ugly-avatar 一个开源免费的潦草头像生成器,可以生成极具特色的头像,受到许多网友的喜爱。 DashPlayer 一款专为英语学习打造的视频播放器,提供双语字幕、按字幕跳转、查词查询、可调整界面尺寸、记录播放位置、蓝牙遥控操作、夜间模式、AI 字幕生成、长视频切分和视频下载等功能,助力通过观看视频提升英语水平。 OpenGlass 一款基于开源硬件的 AI 智能眼镜系统,只需 20 美元的成本即可将普通眼镜升级为智能眼镜,实现记录生活、识别物体、计算卡路里、实时翻译等多项 AI 功能。 PicProse 一款开源免费的封面图片制作工具,能帮助用户轻松为 Medium、Wordpress、微信等平台的文章制作精美封面。 Reader 一款开源免费的工具,专门用于将网页内容转换为 Markdown 格式,方便将网页内容整合到知识库中。 SuperMemory 一款开源免费的个人知识管理工具,可以帮助用户轻松收集和管理网上的有价值内容,通过 AI 快速查找和回顾已保存的内容,打造属于自己的"第二大脑"。 STORM 一款由斯坦福大学开发的创新型 AI 写作工具,可根据主题自动收集信息、创建大纲,模拟专家对话并撰写完整文章,帮助编写出具有深度和广度的高质量内容。 LLocalSearch 一款完全本地化的 AI 搜索集成工具,无需依赖任何外部 API,通过 LLM Agents 寻找答案,支持低配置硬件运行,提供详细进度日志和后续问题交互,界面美观支持浅色深色主题,支持 Docker Compose 部署。 FreeAskInternet 一款开源免费的基于搜索的问答 AI 工具,可本地运行无需 GPU 硬件支持,通过多引擎搜索并利用 GPT - 3 . 5 处理结果生成答案,确保隐私安全。 poster-design 一款开源的在线创意图片编辑器,适用于海报图片生成、电商分享图、文章长图等场景,提供丰富的编辑功能,如元素拖拽、图片编辑、SVG 编辑、画布自定义等,无需客户端即可轻松完成图文排版。 Open WebUI 一款专为大型语言模型(LLM)设计的可扩展且功能丰富的 Web 界面,支持运行各种 LLM 模型,包括 Ollama、OpenAI 兼容 API、Gemini、Groq、Claude 等,提供直观界面、响应式设计、代码语法高亮、Markdown 和 LaTeX 支持、本地检索增强生成(RAG)集成、多模型支持与多模态互动、安全和多用户管理等丰富功能。 Douyin_TikTok_Download_API 一款开源免费的高性能异步数据爬取工具,支持 API 调用和在线批量解析及下载无水印视频或图集,覆盖抖音、快手、TikTok、B 站等多个视频平台。 AI Comic Factory 一款基于 LLM + SDXL 技术的开源免费在线 AI 漫画生成工具,可自动生成精美漫画作品,支持自定义 LLM 和图像生成模型。 Suno-API 一个非官方的 Suno AI API 项目,支持生成歌曲、歌词等功能,具有自动维护 token、全异步响应、代码简单易维护等特点。 Claude-Journalist 一款基于 Claude 3 的 AI 写作助手,可根据输入主题自动搜索相关信息、撰写和编辑高质量文章,提高写作效率。 MoneyPrinterTurbo 一款开源免费的 AI 工具,可以根据提供的主题或关键词自动生成视频文案、素材、字幕和背景音乐,并合成高清短视频,支持多种功能如自定义文案、视频尺寸、批量生成、语音合成、字幕设置等,提高短视频制作效率。 LiveStory 一款利用 AI 进行实时语音绘图的工具,将传统的文本输入换成语音输入,实时生成图像,支持语音控制绘图。 Buzz 一款开源免费、简洁、可离线的音频转录和翻译工具,基于 OpenAI Whisper 开发,支持拖放导入音视频文件进行转录和翻译,转录文本可导出多种格式,支持多种语音识别框架和命令行操作。 MediaCrawler 一款开源的自媒体爬虫工具,支持小红书、抖音、快手、B 站、微博等平台的视频、图片、评论、点赞、转发数据抓取,具备多种登录方式、指定数据爬取、IP 代理池和多种数据格式保存等功能。 小浣熊智能助手 一款由商汤科技研发的功能全面的国产 AI 工具,内置代码模式和办公模式,可大幅提升编程开发和协作办公效率。 Comflowy 一款针对 Mac 用户优化的 ComfyUI 整合包,提供一键部署、模型管理、工作流管理和扩展管理等功能,使用体验比官方 ComfyUI 更佳。 Inpaint-web 一款基于 WebGPU 技术开发的开源免费图像修复和放大工具,可直接在浏览器上运行,无需客户端,提供图像局部擦除修复和超分辨率放大功能。 AutoPrompt 一个自动优化提示词的开源框架,可根据用户意图生成高质量详细的提示词,并通过迭代数据集不断优化提示词,减少工作量,解决敏感性和歧义性问题。 青梧字幕 一款基于 Whisper 的开源字幕提取工具,支持智能提取、编辑和高质量翻译字幕,可生成单/双语字幕并选择多种格式下载。 Chat with MLX 一款开源的本地 AI 对话助手工具,可与本地数据进行交互,支持多种文件格式和语言,并可集成多个开源大语言模型。 StickerBaker 一款开源的 AI 贴纸制作工具,结合了 Stickers SDXL Lora 和 BRIA 背景移除工具,只需输入简单的提示词,即可快速生成高清精美的贴纸。 OOTDiffusion 一款开源的 AI 虚拟试衣工具,支持一键试穿上半身/下半身/连衣裙,服装与模特贴合自然,试穿效果逼真。 MoneyPrinter 一款自动化创建短视频的工具,可根据主题自动生成带配乐及字幕的视频,并上传到 YouTube 获取收益。支持使用 GPT、DALL - E 等大模型生成脚本和图像。 NotesGPT 一款开源免费的语音笔记工具,界面简洁,支持语音输入转文字和自动总结,内置 Mixtral LLM 和 Whisper 转录引擎,支持中英混合输入。 Reor 一款由 AI 驱动的开源免费桌面笔记工具,能够智能整理和归纳笔记内容,自动关联相关想法,内置 LLM 提供问答和语义搜索功能,可作为个人知识管理工具使用。 Noi 一款开源的高颜值 AI 客户端,集成了 ChatGPT、Claude、Bard、Poe 等主流 AI 模型,并内置 GitHub、HuggingFace 和 VS Code 等工具,支持自定义 Prompt 管理、多语言、多主题等功能,可在 MacOS、Windows、Linux 系统上安装使用。 ChatGPT Web + Midjourney Proxy 一款功能全面的镜像站,支持 AI 对话、AI 换脸、Midjourney、GPTs、TTS Whisper 等多种 AI 功能,提供 Vercel 一键部署。 ChatGemini 一款开源的简洁 Google Gemini 网页客户端,界面和交互类似 ChatGPT,支持在对话框中上传图片并自动调用 Gemini - Pro - Vision 模型进行图像识别。 WhisperFusion 一款基于 WhisperLive 和 WhisperSpeech 构建的 AI 对话系统,集成了 Mistral 大语言模型,实现了极低延迟的语音与 AI 对话体验,并通过 TensorRT 引擎优化和 torch . compile 技术提升了运行效率。 search_with_lepton 一款使用不到 500 行代码构建的对话式搜索引擎,实现了类似 Perplexity 的效果,集成了大语言模型(Llama2、Mixtral)和搜索引擎(支持 Bing、Google 搜索),具有可自定义的个性化 UI 界面,支持搜索结果的共享和缓存。 AI红包封面生成器 一款基于 DALL - E 3 的 AI 红包封面生成工具,支持自定义生成红包封面图像,采用 Next . js 全栈开发,集成了多种功能如谷歌登录、图片上传、支付等。 Zed 一款开源的高性能可多人协作代码编辑器,集成了 AI 代码生成和重构功能,提供语言感知、集成终端、多种编辑模式、团队协作和远程代码操作等强大功能。 Web LLM 一款可在浏览器中直接运行大型语言模型的工具,支持 Llama 2 7B / 13B、Mistral 7B 和 WizadMath 等模型,并通过 WebGPU 实现加速,无需服务器支持。 WhisperSpeech 一款基于 Whisper 语音识别模型的开源文本转语音工具,目前仅支持英语,作者计划在下一个版本增加多语言支持,可用于商业用途。 GPT-SoVITS 一款开源的中文语音克隆工具,仅需 5 秒语音样本即可实现 80 %~ 95 %相似度的声音克隆,提供 1 分钟语音可逼近真人效果并生成高质量 TTS 模型。 QAnything 一款开源的知识库问答引擎,支持本地部署和调用云端大模型服务,可导入多种格式文档,提供准确快速可靠的问答体验。 AI Gateway 一款统一的 API 网关工具,可轻松快速接入 100 多种大语言模型,如 OpenAI、Anthropic、Mistral、LLama2、Google Gemini 等,具有占用空间小、处理速度快、支持负载均衡、故障转移、自动重试等优势,已在超过 100B Tokens 上进行实战测试。 cutword 一个简单快速的中文分词和命名实体识别工具,分词速度是知名"结巴"中文分词的两倍,字典文件根据最新数据统计得到,词频更加合理。 DDColor 一款基于 AI 的图像着色工具,可为黑白老旧照片和动漫游戏场景提供逼真自然的着色效果,实现照片级真实感。 ReplaceAnything 一款由阿里巴巴发布的 AI 内容替换工具,能够准确保留指定的物体(如人脸、人物、服装、物品等),并通过输入提示词实现超高质量的内容替换,可用于人物替换、服装替换、背景替换等多种场景。 Jan 一款开源的本地 AI 工具,可无需编码运行主流大语言模型如 Mistral、Llama、Mixtral 等,支持 Windows、Mac 和 Linux 系统,拥有简洁美观的 UI 界面。 Mobile ALOHA 一款多功能家务机器人,可以帮助浇花、拖地、做饭、逗猫、扔垃圾、洗衣服、铺床单、整理衣物等家务活动,具有模仿学习和远程操作功能。 Auto Job Find Assistant 一款结合 GPT 和 RPA 技术的自动投简历助手,可根据个人简历和职位要求自动匹配合适的工作机会,生成自我介绍和求职信,并自动发送给 HR,实现一键寻找工作的全流程自动化。
RetroSearch is an open source project built by @garambo
| Open a GitHub Issue
Search and Browse the WWW like it's 1997 | Search results from DuckDuckGo
HTML:
3.2
| Encoding:
UTF-8
| Version:
0.7.4