未来计划
最近在考虑一个计划,在做十七,八世纪研究的时候,尤其是史料研究的时候,想着还是要推进一下研究的数字化。虽然我自己也是一直在做文本细读,但现在面对数字化的机遇,不抓住的话还是很可惜的。坦白讲,我们现在做的大部分工作已经是数字化的前身,因为研究的信息量扩容,我们现在的研究很大一部分都是建立在二手文献的基础上。这不是某个人偷懒,而是研究扩容的必然趋势,尤其是跨学科的趋势要求我们必须信任二手研究,因为个人处理的信息量是有限的,甚至相当有限。这个时候研究的数字化几乎是基础设施,我们现在研究的数字化程度还比较低,但也已经非常依赖数字技术,比如google scholar的文献检索,对纸质文献的ocr以及进一步的关键词检索,使得我们今天处理的信息量比起前辈学者已经相当惊人。当然,这种信息量级的提升并不意味着我们的研究水平的提升,只是研究模式的变化。所以,今天一个普通学者哪怕阅读的一手文献相当匮乏,但他也可以凭借数字技术和二手文献写出不错的论文,有材料支撑,有连贯逻辑。 研究的数字化几乎是必然趋势,只是有的人数字化程度低,有的人数字化程度高的问题。但目前所谓的研究的数字化,也只能做到数据挖掘这一步,数据分析基本上还做不到。也就是说,我们现在能做的就是积累数据,使得数据挖掘更有成效,更加丰富。我目前关心的是数据库的量的累积,也就是可用信息量的扩充。所以,建立自己的或者团队的专项数据库就是未来若干年学者竞争的关键。当然,这个计划每个学科都已经有学者牵头在做,但还远远不够。我觉得未来学者都有必要建立自己的数据库,包括研究领域的一手文献,研究领域的二手文献,外文文献的转译,如果有条件的话还要做数据挖掘模型。其实说起来,这不就是我们现在学者都在干的事情吗?但我们是用人力做这些的,人力和机器的效率不是一个量级的,能不能率先实现研究的数字化将成为未来学者研究水平的竞争核心。
我未来几面打算做的事情大概就是:
1.梳理已有数据库,根据研究题目,对数据进行分类。并且不断扩充,有可能的话,建立一个合作组织,不断协商,共同促进数据库的膨胀。
2.尝试对外文文献进行批量转译处理。随着AI翻译技术的迭代,文献的数字化储存,对文献进行批量转译已经成为可能。但落实到操作层面也只是可能,必须联合相关的朋友,团队和技术实现一个比较理想,并且能逐步优化的翻译机制。
3.学习和掌握现有的数字挖掘模型,争取早日建立自己或团队的数字挖掘模型。
白凹的最新日记 · · · · · · ( 全部 )
- 2024(不必)总结,2025(先这样)计划 (1人喜欢)
- 传统妻子的兴衰 (1人喜欢)
- 2024纽约客年度图书 (5人喜欢)
- 康纳·奥马利是“男性圈”的吟游诗人
- 让福楼拜保持警惕的女权主义批评家
热门话题 · · · · · · ( 去话题广场 )
-
加载中...