前端时间机缘巧合下收到一份1985年至2023年裁判文书网的数据,共94.3G,解压后发现总共三百多个G,数据存储在csv文件中,并且是按照月份来分开存储的,如果想要检索的话就很困难,在网上检索一番后总结了一下合并csv并导入SQLserver的方法。
首先请移步这里查看如何合并csv文件,注意,文中的公式要改为
Table.PromoteHeaders(Csv.Document([Content],[Delimiter=",",Columns=15, Encoding=936, QuoteStyle=QuoteStyle.None]))
操作完成后,就得到了一整年的csv文件,下一步,更改文件编码。
点击文件,另存为,选择csv文件,点击更多选项,点击工具,选择web选项,编码中修改为UTF-8,点击确定,保存即可。
随后使用数据库工具导入csv文件即可,记得勾选csv第一行为列名这一选项。
2001年的sql文件为3.91MB,2001的csv文件总大小为3.91mb,可见二者的大小可能是相同的,因此总的SQL文件可能也占到三百多G,再建立索引后可能四五百G,建议有nas或者大容量服务器的朋友们可以一试。
需要文书数据请评论区留言。