AI智能摘要
作者获得一份1985-2023年裁判文书网数据,原始94.3G压缩包解压后达三百多GB,以按月分割的CSV格式存储。为解决检索困难,文章介绍了数据整合方法:先通过Power Query合并CSV文件并修正表头解析公式,再将文件编码转为UTF-8,最后用数据库工具导入SQL Server。文中提示需勾选"首行为列名"选项,并估算最终数据库加索引后可能达四五百GB,建议使用NAS或大容量服务器处理。
— 此摘要由AI分析文章内容生成,仅供参考。
前端时间机缘巧合下收到一份1985年至2023年裁判文书网的数据,共94.3G,解压后发现总共三百多个G,数据存储在csv文件中,并且是按照月份来分开存储的,如果想要检索的话就很困难,在网上检索一番后总结了一下合并csv并导入SQLserver的方法。
首先请移步这里查看如何合并csv文件,注意,文中的公式要改为
Table.PromoteHeaders(Csv.Document([Content],[Delimiter=",",Columns=15, Encoding=936, QuoteStyle=QuoteStyle.None]))操作完成后,就得到了一整年的csv文件,下一步,更改文件编码。
点击文件,另存为,选择csv文件,点击更多选项,点击工具,选择web选项,编码中修改为UTF-8,点击确定,保存即可。
随后使用数据库工具导入csv文件即可,记得勾选csv第一行为列名这一选项。
2001年的sql文件为3.91MB,2001的csv文件总大小为3.91mb,可见二者的大小可能是相同的,因此总的SQL文件可能也占到三百多G,再建立索引后可能四五百G,建议有nas或者大容量服务器的朋友们可以一试。
需要文书数据请评论区留言。


