中国龙珠论坛

 找回密码
 加入龙论666

QQ登录

只需一步,快速开始

查看: 182|回复: 9

[资料区] ◤DB × DB 龙珠数据库◢分享

[复制链接]
发表于 2025-4-20 01:33 | 显示全部楼层 |阅读模式
本帖最后由 Yttria 于 2025-4-20 01:41 编辑
为回馈论坛,鄙人做了个龙珠数据库,DB × DB。

其实就是将几项龙珠相关的基础数据汇总到一张表上。
如下面两张图所示:



表格前半部分包括龙珠每一回的序号、中日英三种标题、
连载首发的日期(每期JUMP发售的日期)、杂志刊号、
龙珠在当期杂志中的顺位以及鸟山明在杂志末尾的留言;

后半部分包括连载相关的话题、故事中的时间与地点、
总体的篇章划分和单行本对应的卷数。




其实还可以添加完全版/全彩版/总集篇对应的册数、再加上动画对应的集数,省得每次翻找自己不熟的地方时都没个头绪、没有效率。

如果需要的话,也可以添加每一回的扉页,包括每一期的杂志封面,
在Notion和Obsidian等笔记软件中可以做成画廊/图片瀑布流的形式,挺好看的。
只是在表格里面显示扉页图会把每行撑得太宽,而且影响页面的加载速度,不实用,所以这次就不放了。


说实在的,这里头既没有漫画发行量,也没有动画卡牌游戏手办的数据。
连单行本的出版时间我都没放。完全版全彩版总集篇也没放。
杂志增刊和资料书也没放。
说起来真是啥也没有,还腆着脸叫什么「龙珠数据库」,我自己都脸红。
法国有个龙珠网站倒是做得很全面,和人家比我这差的太远了。



完整的数据库分享如下,各位根据需要和喜好自行修改即可。

数据库文件的网盘链接:https://pan.baidu.com/s/1x_3pos1t0gH3BT3Xq4uNUw?pwd=Y2O3
提取码: Y2O3



分享的内容包含三种格式:xlsx表格、csv数据和pdf文档。
其中pdf由于页面有限,部分内容显示不全,仅供参考。


有梯子的朋友还可以打开下面这个Google表格,在线编辑和查看:
https://docs.google.com/spreadsheets/d/1lay80EGnBKRv4KcrHabbXhTrslAYWkR-Amzf8EDox7I/edit?usp=sharing



数据库的用途


我之前也只接触过Excel表格,不了解csv是干嘛用的。

最近听说MCP的概念在AI领域很火,它可以针对结构化信息(例如上面分享的这个csv,当然Excel表也行),让大语言模型在本地知识库中进行更全面而精准的查询和总结。

以往的RAG模式也火了很久,各种自媒体天天吹,天天都在试图教我部署本地知识库,但没多大用处,都是鸡肋,
MCP则提供了一个开放的标准协议,让AI模型可以更好地跟我们手中的数据进行交互。
不用再把数据切成碎片。需要查多少内容就查多少内容。
这样一来不单是全面而精准,更可以胜任一些弯弯绕绕的复杂问题。


别的例子咱们可能不太熟悉,就以龙珠来说:

1993年第17期少年JUMP举办了「龙珠天下第一考试会」,就是鸟山明看了都好几次直呼真难的那场大考,
一共50题,看下图左下角的第5题,问的是:

  1. 以『新年超强战斗』为标题的卷首彩页那一回,在故事中被杀死的角色是哪一位?
复制代码



鸟山明老师八成答不上来这一题,因为卷首彩页的小标题都是责任编辑填写的,鸟山明哪知道他们写了什么,
他又不怎么看少年JUMP、更不看自己的作品、甚至自己画过的很多细节都记不清了,所以他未必能想明白这说的是哪一回;

即使是咱们记忆力超好的龙珠铁粉,遇到这一题也得停下来好好想一想吧,因为『超Power』这种词在JUMP上属于是陈词滥调,再就被它「强」麻了,这个扉页标题出现在龙珠的哪一回都有可能;

就算以『新年』和『卷首彩页』为条件进行筛选,也能从龙珠(全篇)中找出足足10个备选项,
而且还有像第404回『Power Up』这种非常相近的标题混在里面,分辨起来相当有难度。

即使是开卷考试,恐怕也很难一下子找到答案。
有兴趣的可以尝试一下。


想直接看答案的,咱也不卖关子,就是下面这一回,
『新年超强战斗』的彩页标题在扉页左上角的小字中。
一般像这种小标题我在复原的时候都懒得理睬,实在是无聊,没有什么意义,没想到这还能被拿来专门出题:


当然聪明人会先分析给出的5个选项,运用排除法来解决这道题目——克林、饺子、吉斯和弗利萨明显都不是在彩页章回死的,那么答案必然是丹迪。
对于做题家来说,太容易了。

我自己也是做题家,我自己都觉得那样解题也太没意思了。

以这道题为例其实是想说,在不看选项、又记不清这种无聊标题的情况下,仅凭『新年』『卷首彩页』『战斗』『有人死了』这几个条件,如何才能找出正确答案呢?


一种方式是翻漫画,一回一回、一页一页地翻。
翻单行本和完全版的话,可以看出哪些是彩页,但里面没有连载时间,查不出哪些是新年发表的;
我在追忆版中添加了连载时间,但追忆版本身是基于全彩版制作的,看不出哪些是彩页,除非靠人工全部记住;
就算记得彩页的位置,这样找起来也够麻烦的,想想都头大。

现在有了数据库,查起来就方便多了。

但数据库的查询总归是受到功能的限制,
比方说我用的是Obsidian中的DB Folder插件,就只能查起止日期,没办法定位到「新年」即「每年12月至1月」这个时间段,
也没法查到每一回每一篇文章的具体内容,除非我把详细剧情也统统写进表中、并且恰好匹配上「死」或者「杀」字才行……
所以也没法一步到位。



Notion的数据库更好用一些,查询功能很完善,理论上可以一次性定位到我们要找的章回,只要数据够详细。
其他专业的数据库工具肯定更厉害,包括Excel,各种公式都很强大。
但是上手的门槛也更高。

对于我这种又懒又笨、又菜又爱玩的普通人来说,最合适的还是AI大语言模型。
我只需要说「新年前后」,它就知道大约是12月到1月那段时间,顶多到2月,然后将其转换为公式进行筛选;
只要说「有人死了」,它就能从表格中或者数据库链接的各篇笔记的内容中匹配「杀死」「遇害」「牺牲」等相关词语,顺便识别出相关的角色名称,最后直接将答案呈现在我的眼前。


再比如我想知道龙珠连载期间是否有过休刊的情况、有哪些黄金周小长假给鸟山明休息,
这就需要检查杂志刊号是否连续、发表日期分布于每一自然周的哪个位置、
中间间断一周的话对应的是日本的法定春假还是夏日假期、
另外还要结合鸟山明当期或前后几期的留言内容,等等等等……

传统的查询方式需要相当专业的技术手段才能完成这些,而现在,大语言模型可以让每个人都能快速得到答案。


另外,在AI的加持下,我不用写代码、不用设计网页,就可以将数据库做成下面这样的页面发布出来,效果已经接近于国外著名的龙珠网站 kanzenshuu.com 了:

https://reptdhs5i3.app.yourware.so/

(此页面仅以47~53回为示例,具体的链接内容并没有完善,只是展示一下AI的便捷性。比我之前费劲巴拉用Notion做出来的页面要好多了。)




今天又看到某大厂的云平台可以更方便地调用MCP发布网页,真的就是只需一句话,我上面这种还是用Gemini+Yourware两种工具结合才实现的,云平台直接提供一站式服务,做出来的网页相应速度也快很多。

就这么几天的工夫,MCP服务发展得日新月异,
只要咱们手里面有数据,真是想怎么玩都可以。


比方说之前分享过一位日本网友统计的数据,各大漫画排在杂志第3顺位的次数情况:


之所以取「第3顺位」,是因为JUMP前2位通常是彩页和双色页,是编辑部推上去的,在那之后才是按照读者调查表的名次来排序,所以第3顺位就约等于人气第一。

从图表中可以看到,龙珠断档式地领先,比第二名和第三名加起来都多。
至于其他作品,能拿一次「第3」都无比光荣了(参见《食梦者》)。
当然海贼王在这项数据上的表现应该会更抢眼,没见过统计,暂且不提。

美中不足的是,「3」这个数字并不是很准确,只是个粗略的统计。
JUMP时常有少给或者多给彩页的时候,有时候第2或者第4才是实质上的人气第一,
所以应该具体到每一期杂志当中,排除掉实际的彩页位之后,再重新统计各部漫画的顺位情况。

这种活,交由AI来做最为理想,而不是调用复杂的工具或者靠人工一个一个去算。
少年JUMP每期的数据资料,网上都有,我常用的是 jajanken.net 这个网站。
然后我们会得到更精准的结果和图表,更能看出当年那些经典作品的人气反映。



值得一提的是,MCP现在还没到完全可用的状态。

MCP适合数据库这种结构化信息,但如果是文章的话,暂时还不好处理;
每次需要多少数据就查多少数据,一旦数据量太大,比如整个520回龙珠内容,那消耗的TOKEN也没几个人能吃得消吧;
MCP的部署本身又成为一道门槛,我前几天看到的是在VS Code的Cline插件中通过调用MongoDB的MCP来使用大语言模型,这里面每一个软件基本上都要下载Server和可视化客户端、配置环境、再配置Server,繁琐不说,哪一步弄不好都会踩坑。

像我这种门外汉,连VS Code都不曾用过,具体的功能和参数一个都看不懂,原理更是一窍不通,想用上新技术还真不是那么容易。
——这可不是照着说明书拼装四驱车模型那么简单,而是更接近于动手维修摩托车/电瓶车,
有时候抄作业也能解决问题,但有时候就必须理论结合实际、具体问题具体分析,要真的了解里面那些精密的构造才行。



不过正如前面提到的那样,这两天我又看到,国内外各个大厂的云端也可以部署MCP了,省事得多,平台上还集成了各种现成的服务,例如高德地图和Notion笔记等,
也可以自定义服务,
比方说龙珠数据库就可以传到云端与AI配合,然后将这个服务接入到公众号里面,如果大家想要查龙珠连载相关的问题,直接在微信里提问就行了。
(我想也没人会来我那儿提问的吧?所以就先不弄了。有兴趣的自己在云端上传数据库就好,csv等格式的文件前面已经分享了。)

最后,但也是最简单粗暴直接有效的方案,就是等大语言模型可以支持超超超长的上下文对话,可以直接消化海量的数据,可以几乎无限制地处理成百上千回的资料,或者微软/谷歌在表格软件接入好用的全能型AI,
那就不用管什么格式、配置、维护之类的技术细节,闭着眼上传,然后直接提问就完了。



DB² 数据库分享 其二


以上种种成熟或不成熟的技术展示,正如同武道会决赛的醉拳、猴拳、残像拳一样,新奇花样层出不穷,道高一尺魔高一丈,直教人眼花缭乱,大开眼界。

但是拼到最后,拼的还是人,是人的基本素质——体力和脑力,
也包括意志力和热情这种精神层面的、感性的力量,
还有【道】这种说不清道不明的东西。




【技术】追求的是创新、是效率,
【技艺】往往反其道而行之,要靠一些古板的、没有效率的方式去磨练。


说来惭愧,今天分享的这个数据库,就是我人肉一格一格填写的。

因为我用了Ob的DB Folder插件之后才发现,这个表格没法批量选择、没法批量粘贴,也没法导入csv文件,尽管它有一个导入按钮在那里摆着。
而且在表格中添加标签的页面做得很别扭,这个表格又比较宽,我只好先点开每一篇笔记,然后再在属性中逐一填写每一项内容。
像「XX篇」「XX卷」那些标签,都是一遍一遍从头捋的,勾起了我给电网公司几百号员工改数据的痛苦回忆……

  1. 注1
复制代码
  1. 注2
复制代码


顺道,我又一篇一篇收录了过去一年半的龙珠考古系列文章。
于是有了下面这个乙土私人版龙珠数据库:



  • 「速记」一列是我对每一回剧情的摘要提示,因为只看序号和标题有时并不能想起这一回到底讲了些什么,总有那么几回内容我不太熟、记不住,这次从头标记了一遍,终于拔出了喉咙里的这根刺;

  • 「文章标题」「考古日期」「考古进展」是我记录的文章发表情况,也是为了后续的规划。整理的时候有点无聊,也有点百感交集,但对其他人来说这些并没有什么用处;

  • 「章回标题」是我在给每一回剧情配的章回体标题,写文章时即兴编的,水平一般,产量有限,大部分章节都还没来得及起标题——这实在是一个辛苦活,好玩是好玩,但是要全部写完就不好玩了;

  • 然后还有两列,「扉页题词」和「题词作者」,如下图所示。
    是为我自制的国风版 ◤龙珠扉页特辑◢ 做的配套资料。



我在那套扉页中还原了连载时的大标语样式,但没有直接翻译标语,而是改配了古典诗词(以及少量当代歌词和国外诗歌);
此次的数据库收录了诗词原文及其作者信息,以供查阅,方便理解。
但都是些私货,这里就不分享了,免得被骂打广告。




想要源文件的,包括Obsidian笔记,可以私信说一声,
不嫌弃的话,整套markdown文件都可以发给你。
只是不保证能在你的软件中显示出同样的效果,因为里面用到了DB Folder和Dataview等第三方插件,还有主题和字体等设置,
虽然都不难,但不常用这个软件的朋友就不必在这上面花太多时间。


就这样吧。做得不好,我已经尽力了。
下次再让我从头到尾一遍一遍地捋这520回龙珠漫画,我可不一定还能做到。





◤DB 龙珠数据库◢.pdf

801.29 KB, 下载次数: 7

发表于 2025-4-20 05:40 | 显示全部楼层
牛逼,真爱粉!!!!!!!!!!!!!

发表于 2025-4-20 18:21 | 显示全部楼层
大神,为什么你的帖子背景都跟我们的不一样,

发表于 2025-4-20 19:46 | 显示全部楼层
本帖最后由 saiyangoku 于 2025-4-20 19:51 编辑



很厲害..如果可以結合AI幫我查資料,的確是超方便...現在AI發展迅速,我覺得等一段不長的時間,或者就能更方便..暫時不用太心急..我目前最希望是等待上傳動畫影片給AI,AI能夠了解劇情..日後有需要時回答相關問題...
        
大神,为什么你的帖子背景都跟我们的不一样,

開帖回帖本身有功能換背景吧...像這樣..




发表于 2025-4-21 05:14 | 显示全部楼层
本帖最后由 xylon 于 2025-4-21 05:16 编辑
saiyangoku 发表于 2025-4-20 19:46
很厲害..如果可以結合AI幫我查資料,的確是超方便...現在AI發展迅速,我覺得等一段不長的時間,或者就 ...

学习了!

 楼主| 发表于 2025-4-21 14:38 | 显示全部楼层
saiyangoku 发表于 2025-4-20 19:46
很厲害..如果可以結合AI幫我查資料,的確是超方便...現在AI發展迅速,我覺得等一段不長的時間,或者就 ...

動畫影片的內容總結和提問,百度網盤去年就開始做。對於視頻中的人物和劇情都能識別,不管是影視娛樂還是學習教程都可以用。
文件存儲和資料查詢都在一起,蠻方便的。
圖片也可以識別、歸類、整理。可惜漫畫還不能很好地識別。



我更希望有AI插件給網路視頻分類、打分,幫我篩掉那些低質量內容、訂閱高質量內容、改良現在的推薦算法——時間長的不一定乾貨多、點讚多的不一定有深度、最新的熱門話題不一定值得關注、訂閱多的說不定是平台硬推的、標題嘩眾取寵的大概率是樂色營銷號……
這些視頻裡面有用的可能沒幾句話,卻要啰嗦幾十分鐘,而且擠佔了首頁推薦位,讓人看不到真正有價值的內容。再就該讓AI革他們的命了。


发表于 2025-4-21 17:38 | 显示全部楼层
saiyangoku 发表于 2025-4-20 19:46
很厲害..如果可以結合AI幫我查資料,的確是超方便...現在AI發展迅速,我覺得等一段不長的時間,或者就 ...

想要训练一个龙珠的AI大模型,是不是收费项目

发表于 2025-4-22 00:19 | 显示全部楼层
本帖最后由 saiyangoku 于 2025-4-22 00:27 编辑
Yttria 发表于 2025-4-21 14:38
動畫影片的內容總結和提問,百度網盤去年就開始做。對於視頻中的人物和劇情都能識別,不管是影視娛樂還是 ...

原來已經有AI能夠做到看影片回答劇情內容這麼厲害?看來有空要多些留意...不知有沒有相關連結看看

我覺得以現在AI的智能,應該足夠判斷什麼是高質,什麼是低質...但目前沒有人開發類似的AI吧..至少愈能夠賺錢的人,愈不想開發這種AI..誰不想較輕鬆賺錢...

发表于 2025-4-22 00:22 | 显示全部楼层
本帖最后由 saiyangoku 于 2025-4-22 00:44 编辑
C.BALL 发表于 2025-4-21 17:38
想要训练一个龙珠的AI大模型,是不是收费项目

視乎想做什麼功能吧...單純訓練後生成圖片之類,個人電腦都做得到..
但如果需要借用現有大公司的AI,多半都要收費。如果想憑一己之力去完成訓練一個模型,我覺得亦不現實..就算有足夠技術也好,電腦的硬件都是成本..

发表于 2025-4-23 01:17 | 显示全部楼层
这么多年有人梳理了  好厉害 。难得很多人回复

您需要登录后才可以回帖 登录 | 加入龙论666

本版积分规则

手机版|Archiver|DBCN七龙珠网 (苏ICP备13043741号)

GMT+8, 2025-4-24 16:44 , Processed in 1.072916 second(s), 21 queries .

Powered by Discuz! X3.4

© 2003-2022 DragonBallCN.Com

快速回复 返回顶部 返回列表