2 vuotta sitten · 7e1866aff6
--- a/analysis_img/121_122_turbine.png
+++ b/analysis_img/121_122_turbine.png
--- a/analysis_img/cluster/cluster_1.png
+++ b/analysis_img/cluster/cluster_1.png
--- a/analysis_img/cluster/cluster_2.png
+++ b/analysis_img/cluster/cluster_2.png
--- a/cluster_power.py
+++ b/cluster_power.py
@@ -11,20 +11,50 @@ import pandas as pd
 
															 # 从confinuous_data中拿数据
														
 
															 cluster = []
														
 
															-def
														
 
															-
														
 
															-def cluster_power(cluster, out_put):
														
 
															+def cluster_power_list_file(cluster, turbine_id, input_path, output_path):
														
 
															     """
														
 
															-    把聚类的结果
														
 
															+    从turbine-*.csv的文件列表中进行聚类功率相加
														
 
															+    cluster:聚类的结果
														
 
															+    turbine_id:风机ID
														
 
															+    input_path:输入路径 output_filtered_csv_files 所在路径
														
 
															+    output_path:输出每个聚类的功率，和所有聚类的功率cluster_data
														
 
															     """
														
 
															-    if not os.path.exists(out_put):
														
 
															-        os.makedirs(out_put)
														
 
															-    output_filtered_csv_files = '../data/output_filtered_csv_files/'
														
 
															-    files = os.listdir(output_filtered_csv_files)
														
 
															+    if not os.path.exists(output_path):
														
 
															+        os.makedirs(output_path)
														
 
															+    files = os.listdir(input_path)
														
 
															     files.remove('turbine-144.csv')
														
 
															     assert len(cluster) == len(files)
														
 
															-    continuous_data_path = '../data/continuous_data/'
														
 
															+    dfs = [pd.read_csv(os.path.join(input_path, f)) for f in files]
														
 
															+    cfs = {}
														
 
															+    for j in range(1, max(cluster)+1):
														
 
															+        arr_j = np.where(cluster == j)[0]   # cluster中聚类j的索引列表
														
 
															+        cfs.setdefault(j, [turbine_id[k] for k in arr_j])
														
 
															+        dfs_j = [dfs[k] for k in arr_j]   # cluster
														
 
															+        dfj, time_series = dfs_j[0].loc[:, ['C_TIME','C_ACTIVE_POWER']], dfs_j[0]['C_TIME']
														
 
															+        for df in dfs_j[1:]:
														
 
															+            if df['C_TIME'].equals(time_series) is False:
														
 
															+                print("风机之间的日期不一致！")
														
 
															+                raise ValueError
														
 
															+            dfj['C_ACTIVE_POWER'] += df['C_ACTIVE_POWER']
														
 
															+        dfj.to_csv(os.path.join(output_path, 'power_' + str(j) + '.csv'), index=False)
														
 
															+        paint_cluster_power(output_path)
														
 
															+        for key, value in cfs.items():
														
 
															+            print("第{}组：{}".format(key, cfs[key]))
														
 
															+
														
 
															+
														
 
															+def cluster_power_list_folder(cluster, turbine_id, input_path, output_path):
														
 
															+    """
														
 
															+    从嵌套turbine-*.csv的多个文件夹列表中进行聚类功率相加
														
 
															+    cluster:聚类的结果
														
 
															+    turbine_id:风机ID
														
 
															+    input_path:输入路径 continuous_data 所在路径
														
 
															+    output_path:输出每个聚类的功率，和所有聚类的功率cluster_data
														
 
															+    """
														
 
															+    if not os.path.exists(output_path):
														
 
															+        os.makedirs(output_path)
														
 
															+    assert len(cluster) == len(turbine_id)
														
 
															+    continuous_data_path = input_path
														
 
															     # 遍历整个continuous_data_path文件夹
														
 
															     continuous_list = []
														
 
															     for dirpath, dirnames, filenames in os.walk(continuous_data_path):
														
@@ -38,7 +68,7 @@ def cluster_power(cluster, out_put):
 
															         dfs = [pd.read_csv(path) for path in continuous_list[i][0]]
														
 
															         for j in range(1, max(cluster)+1):
														
 
															             arr_j = np.where(cluster == j)[0]   # cluster中聚类j的索引列表
														
 
															-            cfs.setdefault(j, [files[k] for k in arr_j])
														
 
															+            cfs.setdefault(j, [turbine_id[k] for k in arr_j])
														
 
															             dfs_j = [dfs[k] for k in arr_j]   # cluster
														
 
															             dfj, time_series = dfs_j[0].loc[:, ['C_TIME','C_ACTIVE_POWER']], dfs_j[0]['C_TIME']
														
 
															             for df in dfs_j[1:]:
														
@@ -46,7 +76,7 @@ def cluster_power(cluster, out_put):
 
															                     print("风机之间的日期不一致！")
														
 
															                     raise ValueError
														
 
															                 dfj['C_ACTIVE_POWER'] += df['C_ACTIVE_POWER']
														
 
															-            output_1 = os.path.join(out_put,  continuous_list[i][1])
														
 
															+            output_1 = os.path.join(output_path,  continuous_list[i][1])
														
 
															             if not os.path.exists(output_1):
														
 
															                 os.makedirs(output_1)
														
 
															             dfj.to_csv(os.path.join(output_1, 'power_' + str(j) + '.csv'), index=False)
														
--- a/data_analysis.py
+++ b/data_analysis.py
@@ -7,6 +7,8 @@
 
															 @Time:2023/4/24 15:16
														
 
															 """
														
 
															+import os.path
														
 
															+
														
 
															 import pandas as pd
														
 
															 #from mpl_toolkits.basemap import Basemap
														
 
															 from scipy.signal import savgol_filter
														
@@ -125,17 +127,17 @@ class DataAnalysis:
 
															         加载数据
														
 
															         :return:
														
 
															         """
														
 
															-        self.info = pd.read_csv('../data/风机信息.csv', encoding='utf-8')
														
 
															+        self.info = pd.read_csv('../data-process/data/风机信息.csv', encoding='utf-8')
														
 
															         # power_15min = pd.read_csv('../data/power_15min.csv')
														
 
															         # for i in range(len(power_15min)):
														
 
															         #     if power_15min.loc[i, 'C_REAL_VALUE'] == -9999:
														
 
															         #         # 方便在曲线中看出缺失数据位置
														
 
															         #         power_15min.loc[i, 'C_REAL_VALUE'] = -34.56789
														
 
															         # self.power_15min = power_15min
														
 
															-        turbine_path = '../data/output_filtered_csv_files/turbine-{}.csv'
														
 
															+        turbine_path = '../data-process/data/output_filtered_csv_files/turbine-{}.csv'
														
 
															         self.turbine = {}
														
 
															         for i in self.turbine_id:
														
 
															-            self.turbine[i] = pd.read_csv(turbine_path.format(i))[21:]
														
 
															+            self.turbine[i] = pd.read_csv(turbine_path.format(i))[20:].reset_index(drop=True)
														
 
															     def compute_turbine_diff(self):
														
 
															         """
														
@@ -321,7 +323,6 @@ class DataAnalysis:
 
															         # 添加图例
														
 
															         plt.legend()
														
 
															-
														
 
															         # 显示图形
														
 
															         plt.savefig('analysis_img/cluster/cluster_{}.png'.format(k))
														
 
															         plt.show()
														
@@ -412,14 +413,16 @@ class DataAnalysis:
 
															             cluster = hierarchical_clustering(data, threshold=1,
														
 
															                                               similarity_func=compute_pearsonr)
														
 
															         self.cluster = cluster
														
 
															-        from cluster_power import cluster_power
														
 
															-        out_put = '../data/cluester_power/'
														
 
															-        cluster_power(self.cluster, out_put)
														
 
															+        from cluster_power import cluster_power_list_file, cluster_power_list_folder
														
 
															+
														
 
															+        output_path = '../data-process/data/cluester_power/'
														
 
															+        cluster_power_list_file(self.cluster, self.turbine_id, input_path='../data-process/data/output_filtered_csv_files/', output_path=output_path)
														
 
															+        cluster_power_list_folder(self.cluster, self.turbine_id, input_path='../data-process/data/continuous_data/', output_path=output_path)
														
 
															-data_analysis = DataAnalysis(data_length=9771,
														
 
															+data_analysis = DataAnalysis(data_length=9773,
														
 
															                              data_start=0,
														
 
															-                             data_end=9771)
														
 
															+                             data_end=9773)
														
 
															 data_analysis.process_ori_data()
														
 
															 data_analysis.paint_double(20, 21)