======Data Structures======
//Chapter 4 notes//
----
====Data Structures====
* **Data Structures**: Approaches to organizing abstract data types, such that the data can be accessed efficiently
* **List-Like Structures**: Also referred to as sequences and collections, a data structure that holds multiple individual values gathered together under one variable name, accessed via indices. This includes structures like lists, arrays, and tuples. Lists are simultaneously a general type of data structure and a specific data type in some languages.
*** Index**: A number used to access a particular element from a list-like data structure. Traditionally, most programming languages assign the first item of a list-like data structure the index 0.
==python 数据结构的种类==
* String
* Lists
* File Input and Output
* Dictionaries
* hash maps
===Value vs Reference===
* Passing by Value:各自有一个备份(拷贝传递)
* 新建一个内存区域存储值
* 修改的是之前值的拷贝
* Passing by Ref:共享一个 value
* 实际上传递的是指向内存地址的坐标
* 会改变当前内存区域的值
==passing value or ref in python==
* 大多数 python 的高级数据类型(比如 list )都是 passing by reference,而基础类型是 passing by value
* python 的运算符通常是 passing (assignment) by value,因为是基于基础类型的操作
* python 的 member function(method) 通常是 passing by reference,因为是基于高级数据结构的操作
===Mutability in Python===
* Mutability:指变量在声明后是否可以更改
* Mutable Variable:声明后可更改的变量
* Immutable Variable:声明后不可更改的变量
实际上,python **所有的传递都是引用传递**。之所以基础类型的传递看起来像是值传递(拷贝),是因为 python 中的基础类型都是 Immutable Variable。因此对基础类型的赋值期间,做了以下的操作:
* 申请一块新内存
* 将指向原有值的引用指向新内存
* 在新内存中存储新址
需要注意的是,local 变量是**独立存在**的。跨越 scope 的赋值并不能改变原有变量的值(引用);比如在函数内部对变量进行修改不会影响传递进函数的变量。
\\ \\
实际上,python 在调用函数的时候进行的操作,都是引用指向的变化。假设我我们有以下程序:
#Add one to anInteger
def addOne(anInteger):
anInteger = anInteger + 1
print("anInteger:", anInteger)
#Create myInteger with the value 5
myInteger = 5
print("myInteger before addOne:", myInteger)
#Call addOne on myInteger
addOne(myInteger)
print("myInteger after addOne:", myInteger)
- 首先,''myInteger'' 指向了内存内容为 ''5'' 的区块
- 其次,当调用 ''addOne()'' 函数时,当传递 ''myInteger'' 给 ''anInteger'' 时,python 建立了一个新的名字指向了 ''myInteger'' 区块
- 当在函数中对 ''anInteger'' 进行修改时,由于 ''myInteger'' 属于 Immutable Variable,因此 python 此时只能创建一个新的内存区块,用于存储 ''anInteger'' 的新值,此时为 ''6''
- 因此我们会在最后打印结果里看到 ''myInteger'' 的值依然是 ''5'',因为 ''myInteger'' 的指向没有发生过变化。
==python 中内存地址的打印==
python ''id()'' 函数返回变量对应的内存地址。
#address printing
myInt = 5
print(id(myInt1))
* 通过该函数可以观察到 Immutable variable 赋值之后内存地址会发生变化,但 mutable variable 不会。
* //List// 的地址指向其元素区块的首地址
* member function 不会改变 //List// 的地址,但重新指向新的 //List// 会。
python 中,如果对两个 name 赋予相同的值:
* 如果是 immutable variable,那么 python 会自动关联当前值相同的 name,导致的结果是这两个 name 会指向同一个内存地址。实际上,即便是同一个变量,当其值发生变化后再变化为最初的值,**其指向的地址和一开始指向的地址是完全一样的**。
* 如果是 mutable variable,那么 python 创建的则是两个独立的副本。
===Methods===
Method 同 C++ 成员函数。一些常用的 method:
#string
isdigit()
isupper()
#check if the specified prefix exsit in the string
string.startswith(prefix)
所有 method 都可以以非成员函数(function)的形式调用,比如:
#equal calls
isdigit(myString)
myString.isdigit()
====Strings====
* String: A data structure that holds a list, or a string, of characters.
* Character:可以是字母,数字,符号,或者其他。
* 通过 //Unicode// (一种 16 进制的代号) 来表示
* 某些特殊的字符不显示,比如换行符(//Newline Character//,分为 line feed 和 carriage return)
===Declaring Strings in Python===
==引号的打印==
如果 string 中包含了双引号(//quotation mark//) ''%%"%%'' 和单引号(//apostrophes//) ''%%'%%'',那么有如下三种方法打印:
* 如果以双引号''%%"%%'' 开始,那么一定会以第一个遇到的双引号 ''%%"%%'' 结束。打印双引号之间的内容,比如:
a_string = "Helloworld"
Helloworld
* 如果想打印双引号,那么可以使用单引号起始。string 会在遇到下一个单引号的时候结束,打印两个单引号之间的内容,比如:
a_string = '"Helloworld"'
"Helloworld"
* 想打印混合单双引号的情况:python 提供了三个单引号 ''%%'''%%'' 这种形式来处理该问题。连续的三个单引号会被视作双引号或者单引号,在遇到下一个连续三个单引号的时候结束,打印之间的内容。比如:
a_string = ''''"Helloworld'''
'"Helloworld
==换行与反斜杠的打印==
在 python 中,''\''(//forward slash//)之后的序列被称为 //escape sequence//。python 会检查 ''\'' 后的内容是否与 //escape sequence// 中的内容匹配。如果匹配,则应用该内容。比较重要的有:
* ''\n'':换行(//newline//)
* ''\t'' : //tab//
* ''\%%"%%'':反斜杠后面可以接 string 终结标志,比如双引号。python 会认为这种组合是我们希望打印反斜杠后面的字符,而不是终结 string。
* ''\\'':打印第二个反斜杠,并忽略其 //escape sequence// 起点的作用
注意:三个单引号无法被反斜杠标记。三个单引号起头遇到下一个三个单引号的序列之前,会将**之间所有的内容**强制转换为 string。因此,如果在使用三个单引号标记的 string 中使用了回车键,那么该回车会被视作换行,并反映到打印中。比如:
#an enter is after 5
a_string = '''12345
67890'''
会打印:
12345
67890
===String Concatenation and Slicing===
==Concatenation==
* 通过 ''+'' 实现
* 通过 ''+='' 实现
my_string = "Hello"
my_string += "!"
==Slicing==
* 使用 index + foroop 分割 string
a_string = "hello"
for i in range(0, 3):
my_string += astring[i]
* 使用 start & end 分割 string(下标支持变量)。''start'' 和 ''end'' 也可以是 literal:
start = 0
end = 3
my_string = a_string[start : end]
#0,1,2,3
my_string = a_string[0:3]
#0,1,2, 3 alterntive
my_string = a_string[:3]
#4 to the end
my_string = a_string[3:]
python 有范围保护。如果 index 的范围超出了 string 的最大值,那么 substring 只会截取到被截取 string 的最后一位:
my_string = a_string[1:100]
#will print
ello
==Slicing 和 间隔==
如果在截取 string 的时候需要添加间隔,可以使用如下的方法:
a_str = "Hello, world!"
#take every other 2 chars from second char (inclusive), "el,w"
my_string = a_str[1:9:2]
#take every other 3 chars from the beginning of the string, "Hl r!"
my_string = a_str[::3]
==负数 index==
负数 index 在 python 中表示从**结束的方向**进行下标的计量,比如:
#will print 3, notice the count start with 1, not zero
my_string = "01234"
print(my_string[-2])
负数 Index 也可以用于范围表示,比如:
my_string = "01234"
#012, the number till 3
print(my_string[:-2])
#34, the number from 3 to the end
print(my_string[-2:])
==slicing 的连续使用==
python 中会出现如下带有两个方括号写法:
myString = "1234567890"
print(myString[::2][2:])
这种实际上是进行了多次 slicing,也就是:
myString = "1234567890"
# 13579
myString = myString[::2]
# 579
myString = myString[2:]
===String Searching===
==in==
判断 substring 是否存在:''in''。
#print True
a_string = "I like it!"
print("I" in a_string)
==string member find()==
搜索指定的 surstring 的位置:**成员函数** ''find()''。''find'' 会按指定关键字对指定字符串进行搜索,并范围**第一个**匹配的子字符串的**起始下标**。如果没有找到,则返回 ''-1''。需要注意的是,搜索区分**大小写**。
#result is 2
myString = "ABCDE"
print(myString.find("CDE"))
通常,我们可以利用 ''find()'' 的返回值来作为循环的判断条件:
my_string = "ABCDEABCDEABCDEFGHIJFGHIJABCDEABCDEFGHIJ"
keyword = "AB"
find_location = my_string.find(keyword)
#while keyword is in the string, keep search
while find_location >= 0:
print(keyword, "found at", find_location)
#get the next index
find_location = my_string.find(keyword, find_location + 1)
''find()'' 可以添加 index 来搜索 string 中指定的范围:
myString = "ABCDEABCDEABCDE"
#Prints the first index of "CDE" in myString after 5
print(myString.find("CDE", 5))
#Prints the first index of "CDE" in myString between 3 and 6
print(myString.find("CDE", 3, 6))
===其他的 string 成员===
==split()==
''split()'' 可以按指定的字符作为间隔符划分字符串:
#will print ['I', 'like', 'shorts!']
my_string = "I like shorts!"
print(my_string.split())
如果分隔符处于字符串的最后一位,那么 //split()// 还会额外产生一个**空字符串**作为最后的一个分割部分。
我们可以利用 ''split()'' 返回值的特性来计算 string 中单词的数量:
#Given the assumption that spaces indicate a new word
def num_words(a_string):
return len(a_string.split())
==utilites==
以下的所有成员调用均不会改变原有 string 的内容。
# capitalize the first char in the string
print(myString.capitalize())
# lower all charactors in the string
print(myString.lower())
# caplitalize all characters in the string
print(myString.upper())
# caplitalize all characters follow by a space in the string
print(myString.title())
# strip out all spaces before or after the string
# e.g. " I like shorts! " -> "I like shorts!"
print(myString.strip())
# find and replace ALL instances of thekeyword with your own word
print(myString.replace("MY", "YOUR"))
# join an result yield by spilt() (a list) with a specialized character into a string
# e.g. ['I', 'like', 'shorts!'] -> "I-like-shorts!"
# notice "-"(the dedicated spacer) is the string that called join()
my_list = my_string.split()
print("-".join(my_list))
====Lists====
//List// 是 python 提供的,通过 index 访问的一种**有序**容器。//List// 有两种性质:
* **Mutability**:
* list 内部的元素是否可以更改
* list 的长度是否可以更改
* **Homogeneity**:
* 同一个 list 是否能接受多种不同类型的变量。//homogenous// 类型只能接收类型相同的变量,//heterogenous// 类型则相反。
===Tuples===
Tuples 是 python 提供的,类 list 的,但属于 immutiable 类型的数据结构。
==Declaring Tuples==
# using paranthesis
# using value
myTuple = (1,2,3)
# using variable
my_int1 = 1
my_int2 = 2
myTuple = (my_int1, my_int2)
//Tuple// 支持由不同类型的变量组成(因为 Python 不会提前检查变量的类型):
my_int = 1
my_str = "two"
myTuple = (my_int, my_str)
* //Tuple// 被打印时,paranthesis 也会被打印
* //Tuple// 元素为 string 的时候,quote(双引号)也会被打印
==Reading Tuples==
# using index
print(myTuple[0])
# using slice
print(myTuple[3:])
//Tuple// 还可以进行 unpacking,也就是将里面的元素全部释放出来作为各自单独的存在。unpacking 的时候,可以对每个元素赋予新的 name:
my_str = "Hello"
my_float = "5.1"
my_int = 5
# packing
my_tuple = (my_str, my_float, my_int)
# unpacking
(my_new_str, my_new_float, my_new_int) = my_tuple
==Tuple 的使用场景==
* 一次返回多个变量:
#Returns a tuple containing the quotient and remainder
def quotientAndRemainder(dividend, divisor):
#do sthing...
#Returns the tuple of the quotient and remainder
return (quotient, remainder)
* 使用 unpacking 功能管理返回的变量,提高可读性:
(myQuotient, myRemainder) = quotientAndRemainder(myDividend, myDivisor)
print("Quotient:", myQuotient)
print("Remainder:", myRemainder)
==nesting tuples==
# define a nested tuple
mySuperTuple = ((1, 2, 3), (4, 5, 6), (7, 8, 9))
# define a nested tuple with variable
myTuple1 = (1, 2, 3)
myTuple2 = (4, 5, 6)
myTuple3 = (7, 8, 9)
mySuperTuple = (myTuple1, myTuple2, myTuple3)
#access first element in the second sub tuple
print(mySuperTuple[1][0])
===Lists===
//List// 可以使用所有 //Tuple// 支持的操作:
* 定义
* 读取
* pack & unpack
* nesting
定义 //List// 使用 square bracket:
my_list = [1,2,3]
//List// 与 //Tuple// 的不同之处在于 //List// 是可写的。
== List 的赋值不是拷贝 ==
list_2 = [1,2,3]
list_1 = list_2
上述代码中:
* ''list_1'' 和 ''list_2'' 指向的是同一个 list
* list 的 assignment 不会创建另外一个新的 list
===List member function===
==sort()==
* 作用:对元素按**升序**排列
* 后果:改变 list 内容
my_list = [6,2,3,1,5,4]
# [1, 2, 3, 4, 5, 6]
my_list.sort()
==reverse()==
* 作用:反转 list 中的元素顺序
* 后果:改变 list 内容
my_list = [6,2,3,1,5,4]
# [4, 5, 1, 3, 2, 6]
my_list.reverse()
==append()==
* 作用:在 list 末尾添加元素
* 后果:改变 list 内容
my_list = [6,2,3,1,5,4]
# [6, 2, 3, 1, 5, 4, 7]
my_list.append(7)
==extend()==
* 作用:在 list 末尾添加参数 list
* 后果:改变 list 内容
my_list = [6,2,3,1,5,4]
my_list2 = [0,0,0]
# [6, 2, 3, 1, 5, 4, 0, 0, 0]
my_list.extend(my_list2)
==insert(idx, value)==
* 作用:在指定下标处插入指定元素,插入位置之后的其他所有元素右移
* 后果:改变 list 内容
my_list = [6,2,3,1,5,4]
# [99, 6, 2, 3, 1, 5, 4]
my_list.insert(0,99)
==pop()==
* 作用:移除 list 最后一个元素并返回该元素
* 后果:改变 list 内容
my_list = [6,2,3,1,5,4]
# [6, 2, 3, 1, 5]
# 4
i = my_list.pop()
==remove() & del==
* 作用:移除 list 中指定的元素。
* ''remove()'' 的参数是 list 元素的内容
* ''del'' 的参数是 list 中元素的范围
* 后果:改变 list 内容
my_list = [6,2,3,1,5,4]
# [2, 3, 1, 5, 4]
my_list.remove(6)
print(my_list)
# [2, 3, 1]
del my_list[-2:]
print(my_list)
===Lists, loops and functions===
遍历 list 使用 for loop 和关键字 ''in'':
for item in a_list:
#do sth......
==function 和 list==
由于 //list// 是可写的,我们需要尤其注意其在函数内部的使用。总的来说,函数**不应该**改变输入到函数的内部的 //list//。\\ \\
注意如下的形式:
for num in list:
#do sth in num..
这种情况下 ''num'' 是局部变量,修改其值不影响对应的 list 元素本身。
==tuple vs lists==
* tuple 用于大小确定的形式, list 用于不确定大小的形式
* list 的元素通常有相似的属性,tuple 则用于不同意义的(或是有不同数据类型的)(convention)
===Advanced List-Like Structures===
==stacks==
//**LIFO**//: **Last in, First out**
* 只能从最上部添加元素
* 只能从最上部(最近添加)开始读取元素,不移动开最上面的元素,就不能读取下部的元素。
* 适用于的场景:**有序**的打包任务(比如清理厨房,然后清理卧室:必须做完清理厨房的子任务才能去清理卧室)
==queue==
//**FIFO**//:**First in, First out**
* 要访问数据必须要移除该数据
==Linked List==
* 元素存储是离散的,通过链(指针)来维护
* 插入操作非常快
====File Input and Output====
* **File Input and Output**: The complementary processes of saving data to a file and loading data from a file, generally such that the state of the memory of the program is the same after saving and loading have occurred.
==file types==
* encoding: 程序解释 file 的规则
===Reading, Writing, Appending===
==Opening and Closing Files==
* 打开文件需要包含在 try-block 里面,防止非法的数据
* 打开文件时通常需要注明 mode(只读,可写,append)等等。
* 文件被打开时,OS通常不允许其他程序修改该文件。所以程序处理完文件时,需要关闭文件。
==Reading, Writing, Appending==
* Reading:loading file into program
* Writing: 将当前内容写入文件(可能有覆盖的风险)
* Appending: 将当前内容写入当前文件内容**之后**
===Writing Files in Python===
* Writing 只能写 string
* Wrtiing 默认无换行,需要手动添加 ''\n'' 在输出末尾
# open file "out_file.txt" in writing mode
output_file = open("out_file.txt", "w")
# wirte content to out_file.txt, string ONLY, NO NEWLINE by default
output_file.write(str(myInt1))
# mannally add newline
output_file.write(str(myInt1) + "\n")
# close file
output_file.close()
==Write list==
* 使用 //for// 循环分别写出每个元素
* 使用 ''writeline()'' 函数(不能换行,不能写非 string 的 list,不推荐)
* 使用 ''write()'' 与 ''join'' 组合 (也不能支持非 string 的 list)
* 使用 ''print()'' 直接输出到文件(**推荐**)
# wirte every element each time
for name in list:
output_file.write(str(name) + "\n")
# write a whole list in one time with writelines()
output_file.writelines(my_list)
# write a whole list in one time with join():
output_file.write("\n".join(my_list))
# print comes with line break by default, so no "\n" needed
print(name, file = output_file)
==Appending to files==
* 在已有内容后写入
* good for loging
# appending mode
output_file = open("xxx.text", "a")
===Reading Files in Python===
* 使用 ''readline()'' 读取每一行内容(会读取换行)
* 控制额外的换行:
* 使用 ''print()'' 的 tag ''end=""'' 取消 ''print()'' 自带的换行
* 使用 ''strip()'' 取消文本前后的内容
* 使用 ''read()'' 读取所有内容
# open input_file
input_file = open("xxx.txt", "r")
# readline() with "\n"
print(input_file.readline())
# readline() without "\n" by changing print()
print(input_file.readline(), end = "")
# readline() without "\n" by adding strip()
print(input_file.readline().strip())
# take size as parameter, default -1, which means the whole file
input_file.read()
读取的内容可以赋给变量。类型转换后会自动删除 white space 的内容:
my_int = int(input_file.readline())
==Loading into Lists==
* python 中的文件可以通过 for 循环来一行一行全部读取
for line in input_file:
my_list.append(line.strip())
==Save and Load Functions==
* 可以将读写封装为函数,提高使用效率:
def save(file_name, data):
output_file = open(file_name, "w")
for line in data:
print(line, file = output_file)
output_file.close()
def load(file_name):
a_list = []
input_file = open(file_name, "r")
for line in input_file:
a_list.append(line.strip())
input_file.close()
return a_list
my_list = [1,2,3,4,5,6,7]
save("test.txt", my_list)
loading_list = load("test.txt")
print(loading_list)
====Dictionary====
* Dictionaries: A data structure comprised of **key-value pairs**, where a key is entered into the dictionary to get out a value.
* Dictionary Key: A value then, when passed into a dictionary, returns a corresponding value
* Dictionary Value: A value returned in response to a key in a dictionary.
==Dictionary 和 List 的区别==
* List 只能通过 index 访问,如果要找特定数据,需要一个一个找,**有序**
* Dictionary(Map) 可以通过 key 直接访问,**无序**
===Dictionaries in Python===
==Creating Dicts==
使用大括号 ''{'' //braces// 创建。''key'' 和 ''value'' 通过冒号 (//colon//) '':'' 组成 pair“:
#define
my_dict = {"sprockets" : 5, "widgets" : 11, "cogs" : 3, "gizmos": 15}
#access and modifiy
my_dict["sprockets"] = 1
#if unsure whether a operation is an creating or modifiying:
dictionary.setdefault("key", 0)
dictionary["key"] += 1
* //Dictionary// 可以直接通过函数传递。
* //Key// is **immutiable**。
==Adding to and Removing ==
* 添加 / 删除 / 访问 / 验证操作都是基于 **Key**
* 访问不存在的元素会抛出 //KeyError//
* 查看 pair 是否存在可以通过使用 ''in'' 关键字查询 key 是否存在于字典中
# adding pair
myDictionary["gadgets"] = 1
# delete pair
del myDictionary["gadgets"]
==Traversing==
# if we only concern the value
for val in dict.value():
if val > 5:
# do sth
# if we only care about key
for k in dict:
# do sth
for k in dict.key():
# do sth
# if we need to bring them in both
for (k, val) in dict.items():
# do sth
===Dictionary Applications===
* 使用名称作为 key,内容作为 value (比如统计词的出现数)
* value 部分可以放入更多的详细信息(比如包含信息的 tuple, list )
* 字典自身可以嵌套,组成更复杂的数据结构。这种结构更像是面向对象的概念
==使用 key 统计 value 出现的次数==
dict = {}
for name in a_list:
# if the name already has the record, add 1 count
if name in dict:
dict[name] += 1
# else, create the name and add 1 count
else:
dict[name] == 1
==将 value 当做 key 使用==
这种情况下需要知道 value 的范围。假设 value 是餐桌的编号(1-4),而 key 是客人的名字;如果想统计哪个桌子上都有谁:
for tab_num in range(1, 4):
for (name, table) in seating_chart.item():
if tab_num == table:
print(name, end = " ")
====References====
* [[https://docs.python.org/3.7/library/stdtypes.html#string-methods|String methods]]