Jellyfish：把 AI 短剧从“一键生成”拆成可控生产线

2026-06-21

导读基于 Forget-C/Jellyfish README、Docker Compose、站点文档和源码，拆解这个约 4.45k stars 的开源 AI 短剧工作台如何把剧本、分镜、资产一致性和异步生成任务组织成一条可控生产线。

Jellyfish：把 AI 短剧从“一键生成”拆成可控生产线

AI 短剧工具最容易讲成一句话：“输入剧本，自动生成视频。”

这句话很诱人，但也很容易骗人。真正做一条短剧，不是把一段文字丢给视频模型就结束。你要先把剧本拆成镜头，确认每个镜头里有哪些角色、场景、道具和对白，再处理角色一致性、关键帧、视频提示词、生成任务、失败重试和素材回写。

Jellyfish 值得看的地方正在这里。它不是另一个“prompt 到视频”的玩具，而是一个面向 AI 短剧的生产工作台：把剧本、分镜、资产和长耗时生成任务放进同一套数据流里。

我本地调研的是提交 a967819。GitHub API 显示项目约 4.45k stars、775 forks，许可是 Apache-2.0。下面这篇不是 README 翻译，而是从 README、Docker Compose、站点文档和源码结构里拆出来的一条上手路线。

Jellyfish 封面

1. 它解决的不是“生成”，而是“生成前后怎么组织”

很多 AI 视频产品把注意力集中在最后一步：调用模型，得到视频。Jellyfish 的 README 反而把前面的工作拆得很细：script understanding、shot preparation、asset consistency、generation execution、task tracking。

这几个词放在一起，说明它关心的是生产链路，而不是单点模型能力。

Jellyfish 工作流

一个典型流程是：

输入章节剧本
-> AI 拆分分镜
-> 提取角色 / 场景 / 道具 / 服装 / 对白候选
-> 人工确认候选：接受、关联已有资产或忽略
-> 分镜进入 ready
-> 在工作室生成关键帧、参考图和视频
-> 异步任务回写结果

这比“一键生成”麻烦，但也更接近真实生产。因为短剧最怕的不是第一帧不好看，而是第 8 个镜头里同一个角色突然换脸，第 12 个镜头场景关系断了，第 20 个镜头任务失败后没人知道结果去哪了。

Jellyfish 把这些中间状态做成显式对象。源码和文档里能看到 shot_extracted_candidates、shot_extracted_dialogue_candidates、GenerationTask、GenerationTaskLink 这类概念。它们听起来不性感，但对生产系统很关键。

2. 一个关键设计：ready 不是 generating

我觉得 Jellyfish 最值得新手注意的细节，是它对 shot.status 的收敛。

站点架构文档 site/content/docs/architecture/shot-status-flow.md 里写得很清楚：shot.status 只保留 pending 和 ready 两种正式状态。它表示“信息提取确认是否完成”，不表示“正在生成”。

这和很多原型项目的做法不一样。

差的做法是把所有状态都塞进一个字段：

pending -> extracting -> ready -> generating -> done -> failed

看起来省事，后面一定乱。因为“分镜准备好了”和“某个视频任务正在跑”不是同一类状态。一个镜头可能已经 ready，但视频任务失败；也可能有多个图片任务和一个视频任务同时存在。

Jellyfish 的做法是拆开：

shot.status：pending / ready
GenerationTask：pending / running / succeeded / failed / cancelled

这就是工程上的非显眼收益。它不只是让页面更清楚，也让任务恢复、取消、重试和跳转更容易做。site/content/docs/architecture/task-execution.md 里还写到，前端不直接读取 Celery task 状态，GenerationTask 才是业务任务的真相源。

3. 源码结构：前端是工作台，后端是任务和数据流

从仓库结构看，Jellyfish 是一个比较典型的前后端分离项目，但它的模块划分围绕短剧生产而不是围绕技术名词。

Jellyfish 工程结构

前端在 front/：React 18、Vite、Ant Design、Zustand。front/package.json 里可以看到 pnpm run openapi:update，会从后端拉 openapi.json 并生成 front/src/services/generated/。这点很重要：前端调用后端不是靠手写一堆 service，而是尽量走 OpenAPI generated client。

后端在 backend/：FastAPI、SQLAlchemy async、Pydantic、LangChain/LangGraph、Celery、Redis。backend/app/api/v1/__init__.py 把路由聚合成四组：

/api/v1/studio
/api/v1/film
/api/v1/llm
/api/v1/script-processing

这四组刚好对应生产链路：工作台对象、生成任务、模型管理、剧本处理。

数据和基础设施上，Docker Compose 默认拉起 MySQL、Redis、RustFS、backend、celery-worker、front。RustFS 是 S3 兼容对象存储，用来放素材文件；Redis 是 Celery broker；MySQL 存业务数据。

这里有一个实际判断：Jellyfish 不是“下载即玩”的轻量小工具。它更像一个本地 AI Studio。你愿意跑一套服务，它才有意义。

4. 分镜准备页和工作室分工明确

项目里的 AGENTS.md 对页面职责写得很硬：

分镜编辑页 = 准备，负责资产、对白提取、候选确认、基础信息修正；
分镜工作室 = 生成，负责视频准备度、关键帧、图片、视频参数与视频生成；
任务中心 = 通用任务状态面板，只展示状态、进度、成功失败、取消与回跳入口。

这个边界很实际。很多 AI 内容工具会把“编辑”“确认”“生成”“任务日志”堆在同一页，短期开发快，长期用户会懵。Jellyfish 的边界是：先把镜头准备好，再进工作室生成；任务状态留给任务中心，不让每个页面自己发明一套状态提示。

Jellyfish 项目界面

从 README 的截图也能看出，它不是只展示一段 prompt，而是围绕项目、章节、分镜和资产组织页面。

5. 资产一致性是它的主战场

AI 短剧最容易翻车的地方不是“模型不会画”，而是模型每次都画得不一样。

Jellyfish 把角色、演员、场景、道具、服装作为共享实体管理。README 里写到，系统维护 characters / actors / scenes / props / costumes 的共享 entity model，并支持跨镜头复用。

Jellyfish 资产管理界面

这比“每个镜头都塞完整提示词”更稳定。提示词可以补充细节，但资产应该有自己的身份。一个角色在第 1 镜头确认过，后面就应该能被关联和复用，而不是让模型每次重新猜。

源码里也能看到这条线：backend/app/services/studio/shot_extracted_candidates.py、shot_character_links.py、entity_images.py、entity_specs.py 等文件都在服务这个目标。

6. 最小上手：先用 Docker Compose 跑起来

如果只是体验，不建议一开始就拆前后端本地开发。最短路径是 Docker Compose。

git clone https://github.com/Forget-C/Jellyfish.git
cd Jellyfish
cp deploy/compose/.env.example deploy/compose/.env

按需编辑 deploy/compose/.env。默认关键项大概是：

MYSQL_DATABASE=jellyfish
MYSQL_USER=jellyfish
MYSQL_PASSWORD=change-me
REDIS_PORT=6379
RUSTFS_ACCESS_KEY=rustfsadmin
RUSTFS_SECRET_KEY=rustfsadmin
S3_BUCKET_NAME=jellyfish-assets
BACKEND_URL=http://localhost:8000
# 如果要真实调用模型，再设置 OPENAI_API_KEY
# OPENAI_API_KEY=

启动：

docker compose --env-file deploy/compose/.env   -f deploy/compose/docker-compose.yml up --build

默认访问：

前端：http://localhost:7788
后端：http://localhost:8000
Swagger：http://localhost:8000/docs
RustFS Console：http://localhost:9001

第一次启动会初始化数据库，并导入提示词模板数据。你可以先打开 /docs 看接口是否正常，再打开前端创建项目和章节。

7. 本地开发路径

如果你要改代码，再分开启动。

后端：

cd backend
cp .env.example .env
uv sync
uv run uvicorn app.main:app --reload --host 0.0.0.0 --port 8000

前端：

cd front
pnpm install
pnpm dev

如果后端 API 变了，需要同步前端类型：

cd front
pnpm run openapi:update

这个命令在 front/package.json 里对应两步：先拉 http://127.0.0.1:8000/openapi.json，再用 openapi-typescript-codegen 生成客户端。

8. 模型和 Provider：先理解边界，再接 Key

Jellyfish 不是只能接 OpenAI。backend/app/services/llm/provider_bootstrap.py 里能看到内置 provider：OpenAI、火山引擎、阿里百炼。OpenAI 支持 text / image / video 三类，火山引擎偏 image / video，阿里百炼偏 text。

这意味着你应该按任务类型配置模型，而不是把所有 Key 一口气塞进去。

更稳的上手顺序是：

先不配真实模型，只确认 Docker、前端、后端、数据库和对象存储能跑；
再配一个文本模型，测试剧本拆分和信息提取；
再配图片模型，测试角色、场景或关键帧生成；
最后再接视频模型，因为视频任务更慢，也更容易产生费用。

这也是我对这类系统的一贯建议：先验证数据流，再验证生成质量。反过来一上来就批量跑视频，很容易把问题混在一起，不知道是模型差、提示词差、状态没对齐，还是任务没回写。

9. 谁适合用，谁可以先等等

Jellyfish 上手判断清单

适合的人：

你在做短剧、微剧、课程视频、品牌故事片，不是偶尔生成一张图；
你关心角色、场景、道具在多个镜头里的连续性；
你愿意本地部署一套前后端和任务系统；
你希望把 AI 生成过程纳入可回放、可取消、可追踪的生产流。

不太适合的人：

只想输入一句话马上拿视频；
没有连续镜头和资产复用需求；
不想碰 Docker、数据库、对象存储；
对开源项目的早期边界没有耐心。

我的判断是：Jellyfish 的价值不在于“替你省掉所有步骤”，而在于把原本散在文档、表格、聊天记录和生成平台里的步骤收回来。短剧生产越长，角色和状态越多，这种收敛越有价值。

参考来源：Jellyfish README、deploy/compose/docker-compose.yml、backend/pyproject.toml、front/package.json、backend/app/api/v1/*、backend/app/services/worker/task_registry.py、backend/app/services/llm/provider_bootstrap.py、site/content/docs/architecture/*，检查提交 a967819。

Jellyfish：把 AI 短剧从“一键生成”拆成可控生产线

1. 它解决的不是“生成”，而是“生成前后怎么组织”

2. 一个关键设计：ready 不是 generating

3. 源码结构：前端是工作台，后端是任务和数据流

4. 分镜准备页和工作室分工明确

5. 资产一致性是它的主战场

6. 最小上手：先用 Docker Compose 跑起来

7. 本地开发路径

8. 模型和 Provider：先理解边界，再接 Key

9. 谁适合用，谁可以先等等

推荐阅读