import os
import pandas as pd
os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
f.write('NumRooms,Alley,Price\n') #列名
f.write('NaN,Pave,127500\n')
f.write('2,NaN,106000\n')
f.write('4,NaN,178100\n')
f.write('NA,NaN,140000\n')
data = pd.read_csv(data_file)
print(data)
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs.iloc[:, 0] = inputs.iloc[:, 0].fillna(inputs.iloc[:, 0].mean()) #这里的mean函数是均值的意思
print(inputs)
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)
将数值型缺失值用mean()
,也就是均值来替代,字符串型缺省值用get_dummies
函数将分类变量转换为虚拟变量
Output
NumRooms Alley Price
0 NaN Pave 127500
1 2.0 NaN 106000
2 4.0 NaN 178100
3 NaN NaN 140000
NumRooms Alley
0 3.0 Pave
1 2.0 NaN
2 4.0 NaN
3 3.0 NaN
NumRooms Alley_Pave Alley_nan
0 3.0 1 0
1 2.0 0 1
2 4.0 0 1
3 3.0 0 1
现在inputs
和outputs
中的所有条目都是数值类型,它们可以转换为张量格式。当数据采用张量格式后,可以用张量函数来进一步操作
Code
X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
print(X)
print(y)
Output
tensor([[3., 1., 0.],
[2., 0., 1.],
[4., 0., 1.],
[3., 0., 1.]], dtype=torch.float64)
tensor([127500, 106000, 178100, 140000])